LLMs spreken geen styleguide, tijd om het te vertalen

“Kunnen we onze styleguide niet gewoon inladen in onze GPT?” Vroeg een collega die zich al een tijdje aan het vermaken was met GenAI in de vorm van GPT en Copilot.

Enne, natuurlijk kunnen we dat, want je kunt van alles inladen. Maar de echte vraag is, wat gebeurt er als je dat doet?

Spoiler alert: niet veel dat indruk maakt.

Intuitie en de styleguide

De meeste organisaties hebben een styleguide. Soms zijn het dikke boekwerken, soms zijn het handige wiki’s en soms is het een PDF die niemand ooit echt leest. Hoe ze ook zijn vastgelegd, ze hebben een belangrijke functie: ze beschrijven de som van regels die de stem van de organisatie in kwestie bepaalt.

En over het algemeen werken ze prima, ….althans, voor mensen.

Want wanneer de styleguide voorschrijft dat de toon zakelijk en vriendelijk moet zijn, dan weten mensen wat dat in verschillende contexten betekent.

En wanneer de styleguide stelt dat zinnen kort moeten zijn, dan snappen mensen wanneer “kort” kort genoeg is en wanneer het té kort is.

AI kan dat echter niet. En precies daar liep ik tegenaan toen ik aan de slag ging met prompts die juist die merkstem moesten bewaken.

Interpreteren versus handelen

Een goede les om te onthouden als je een promptEen prompt is de instructie die je aan een AI-model geeft zoals bijvoorbeeld ChatGPT. Het is hoe je communiceert met het systeem: wat je vraagt, hoe je het vraagt en... Meer aan het bakken bent: hoe meer ruimte je de LLM geeft om zelf te interpreteren, hoe groter de impact op de consistentie van je output.

Duidelijke en concrete instructies zorgen dat de LLM minder bewegingsruimte heeft en niet zelf hoeft te kiezen wat “korte zinnen” eigenlijk zijn. En hoe meer ruimte je openlaat in je instructies binnen een prompt, hoe vaker de LLM zelf moet kiezen.

Misschien voel je al aan dat dat ten koste gaat van de consistentie van je output, omdat de LLM de ene keer de ene keuze maakt (zinnen van maximaal 5 woorden) en een volgende run een andere keuze maakt (zinnen van maximaal 10 woorden).

Je moet daarom je instructies, guidelines en guardrailsGuardrails zijn beperkingen die je instelt in je prompt om te voorkomen dat een AI ongewenste, onjuiste of riskante output genereert. Guardrails werken als veiligheidsregels in je prompt. Ze vertellen... Meer “machine readable” maken. Waarbij machine readable niet betekent dat je het zo formuleert dat een LLM het kan lezen en interpreteren. Het betekent dat je het zo formuleert dat een systeem het kan lezen en uitvoeren.

Je instructie moet voldoen aan in elk geval één van deze voorwaarden:

Het is:

Gekwantificeerd
Er staat een concreet getal, grens, of maat in: “Zinnen van maximaal 12 woorden” in plaats van “korte zinnen”
Gedragsmatig gedefinieerd
Het beschrijft een actie en geen gevoel: “Gebruik graag in plaats van moet” in plaats van “wees vriendelijk”

Zodra je dit kader hanteert, valt 80% van elke corporate style guide door de mand. Niet omdat het slecht geschreven is overigens, maar omdat het geschreven is voor mensen die context aanvoelen in plaats van voor systemen die instructies uitvoeren.

Wat zeg je eigenlijk?

Om onze styleguide dus uitvoerbaar te krijgen voor machines, moest ik alle regels dus herschrijven om te voldoen aan de genoemde voorwaarden. Want zoals het is opgeschreven voor mensen, laten de richtlijnen ruimte voor professionele interpretatie. Maar voor een LLM is dat als een Rorschach test.

Niet omdat hij er helemaal niks mee kan of doet. Zoals we weten, gaan LLMs altijd (!) aan de slag, maar omdat hij te veel intuïtief moet invullen en dat heeft hij nu net niet: de aangescherpte intuïtie van een expert.

Wat je wil, is het uitsluiten van zoveel mogelijk interpretatieve vrijheid. Omdat mensen net als LLMs probabilistische systemen zijn, maar anders dan LLMs combineren wij dat met normbesef, context en ervaring en dat is een zeer relevant verschil.

Dus ging ik aan de slag.

Uit de styleguide:

Een goede tussenkop spreekt de lezer aan, is eenduidig, concreet en kort. Maakt het onderwerp van de alinea duidelijk.

Werd

Beperk tussenkopjes tot 3 tot 8 woorden.
Vermijd deze leestekens in tussenkopjes: punten, komma’s en uitroeptekens
Maak tussenkopjes concreet en inhoudelijk scherp. Vermijd vage kopjes zoals “Meer informatie” of “Hoe werkt het?”
Zorg dat tussenkopjes de kern van de bijbehorende tekst parafraseren of samenvatten.

Hier een kritische noot, die wel belangrijk is. Je komt er soms niet onderuit dat guidelines te “zacht” blijven. Niet alles is te vertalen naar gedragsinstructies voor de machine. Soms kun je voorbeelden geven om dat op te lossen, soms kun je een woordenlijst meegeven om dat op te lossen, soms kan de rol die je meegeeft bijdragen aan een oplossing.

Wat ik wil zeggen is: promptdesign vraagt je om goed na te denken over wat je probeert te bereiken (output) en dan te kijken wat de beste manier is om dat te doen (prompt). Kortom: blijf opletten.

Contextualiteit kent geen tijd

Misschien valt het je op dat elk punt in de machine-taal, 1 gedragsdriver is: het schrijft 1 ding voor. Dat is niet toevallig. Want ik wil de losse regels, namelijk in verschillende combinaties kunnen hergebruiken.

Die verschillende combinaties zou je ook verschillende contexten kunnen noemen. Content is namelijk informatie die gecontextualiseerd is. Dat klinkt vaag, maar dat is het niet hoor.

Een voorbeeld:

Informatie: Spaarrekening X kan pas na een jaar beëindigd worden

Content:

Op de website: Wil je je spaarrekening opzeggen? Dat is pas mogelijk na een jaar.
In de app(ingelogd): Opzeggen? Dat kan op datum X.
Campagne: Kies spaarrekening X en laat je geld in elk geval 1 jaar groeien!

Om de context goed te krijgen in je prompt, heb je voor verschillende situaties, een verschillende set nodig aan richtlijnen. Want dat is namelijk ook hoe je hoofd werkt. Je past niet alle 100+ richtlijnen uit de styleguide toe op elke stukje tekst dat je schrijft…toch?

Door de richtlijnen in je prompt atomair te maken, oftewel zoveel mogelijk 1 type gedrag aan te laten sturen, maak je het gemakkelijker voor jezelf om sets samen te stellen van losse richtlijnen die je kunt inzetten voor specifieke typen content.

Maar, dat is een ontwerpkeuze die ik hier heb gemaakt en misschien is in jouw situatie een andere keuze beter.

Een discipline die nog niet (echt) bestaat

Terug naar de styleguide. Die waren nooit bedoeld als uitvoerbare logica, maar als professionele afspraken tussen volwassen mensen. De styleguide is een gedeeld referentiekader en een manier om te zeggen: zo doen wij dat hier.

Maar AI verandert dat.

Het vraagt om een manier om impliciete keuzes om te zetten in expliciete gedragsregels. En een manier om interpretatie van mensen (experts) te vertalen naar gedrag van LLMs.

En dat vraagt weer om een mix tussen taalontwerp en begrip van LLMs.

Je zou het behavioral rule engineering kunnen noemen. Of language systems design. Of iets anders dat nog niet bestaat maar ook heel tof klinkt.

Wat het ook wordt, het is de job van het ontwerpen van operationele taal en op de meeste plekken doen we dat nog niet.

Machine-readability is een ontwerpdiagnose

Wat ik dus eigenlijk aan het doen was, was niet “vertalen” van guidelines, maar ontwerpen van herbruikbare, machine readable taalinstructies.

Dat heeft een mooie verzameling, gekwantificeerde en/of gedefinieerde content guidelines opgeleverd, die ook netjes getagged en ge-metadateerd zijn, gemakkelijk te beheren en te slim te combineren.

Aangezien LLMs content genereren, is het niet onbelangrijk om een dergelijke vertaalslag te maken en de juiste (contextueel correcte) combinaties van richtlijnen óók te ontwerpen.Dat zorgt er namelijk voor dat bijvoorbeeld je chatbot gepaster communiceert én in de stem van je organisatie.

Waarom dit nu ineens urgentie heeft

Pre-AI was werkte de huidige styleguide prima. Je ervaren redacteuren wisten precies wat ze, wanneer moesten toepassen.

Maar met GenAI vermenigvuldigt output en dat doet het ook nog eens (middels prompts) automagisch. En daarmee vermenigvuldigt dus ook inconsistentie, vaagheid, interpretatiefouten.

Eén onduidelijke richtlijn die 200 keer per maand wordt toegepast door mensen, kun je nog wel managen. Diezelfde richtlijn toegepast door een model dat 2000 berichten per dag genereert? Dan heb je niet meer een klein probleem, maar een structureel risico en geautomatiseerd falen.

Organisaties denken dat AI hun contentprobleem oplost. Maar wat het eigenlijk doet, is hun gebrek aan structuur zichtbaar maken. AI fungeert als spiegel en als megafoon.

Het probleem was er al, maar je mensen losten het impliciet op. Daar heeft je LLM verontrustend weinig talent voor.

Dus wat nu?

Als je AI wilt inzetten voor content, moet je eerst leren jezelf te begrijpen. Niet jezelf als organisatie, maar jezelf als taal.

Wat bedoel je écht wanneer je “empathisch” zegt? Hoe ziet “duidelijk” er concreet uit? Welke regel gaat voor wanneer twee richtlijnen botsen?

Machine-readability dwingt je die vragen te beantwoorden. Want als jij niet weet wat je eigenlijk precies bedoelt, dan kan een model het natuurlijk ook niet consistent uitvoeren.

Xaviera

Don’t stress….it’s just me!

I’ve spent over 25 years working in content strategy and digital transformation, which means I’ve seen enough technology hype cycles to be skeptical and enough genuine innovation to stay curious.

Want to talk shop? Do get in touch!

www.contentchefs.nl

I have a newsletter and it's bearable. Subscribe to read my (Gen)AI articles!

More Reading

Serie | ECHO: het Context component

Tien dingen die GenAI mij leerde (naast geduld en indrukwekkend diep zuchten)

Leave a Reply Cancel reply

Fascinerende verhalen

House on the Wind: de rust van niet vertalen

Woest

Log In