Een token is de kleinste eenheid waarin een LLM tekst verwerkt. Dat kan een heel woord zijn, maar ook een stukje van een woord, een leesteken of zelfs een spatie. Het model knipt alle tekst die binnenkomt en weggaat op in tokens.
Elk LLM heeft een limiet aan het aantal tokens dat het in één keer kan verwerken. Dat heet het contextvenster. Voor ChatGPT-4 is dat bijvoorbeeld 128.000 tokens, wat neerkomt op ongeveer 96.000 woorden of zo’n 190 pagina’s tekst.
Waarom dit belangrijk is
Tokens bepalen hoeveel je aan een AI kunt vragen en hoeveel je terugkrijgt. Als je te veel tekst invoert, kan het model niet alles verwerken.
Tokens hebben ook impact op de kosten, want veel AI-tools rekenen per token. Hoe meer tokens je gebruikt, hoe duurder het wordt én hoe meer energie het verbruikt. Een lang gesprek met veel heen-en-weer kost dus meer geld en stroom dan een kort, gericht verzoek.
Voorbeeld
- Het woord “onbegrijpelijk” wordt door ChatGPT opgeknipt in drie tokens: “on”, “begrijp” en “elijk”.
- De zin “Hoi, hoe gaat het?” bestaat uit ongeveer 6 tokens: “Hoi”, “,”, ” ” (spatie), “hoe”, ” gaat”, ” het”, “?”.
- Een A4 tekst bevat ruwweg 500-750 tokens, afhankelijk van de taal en de complexiteit.

