Model training is het proces waarbij een AI-model leert van enorme hoeveelheden data. Die data komt van het internet: websites, boeken, artikelen, Wikipedia, forums, gesprekken. Miljoenen pagina’s tekst worden verzameld en gebruikt om een model te trainen.
Dat gaat zo: een model krijgt miljarden zinnen te zien, waaronder bijvoorbeeld “De kat zat op de mat”. Tijdens de training wordt het laatste woord verborgen en moet het model raden wat er komt. Het model maakt een gok op basis van statistiek: welk woord komt vaak na “op de”?
Als het “mat” raadt en dat klopt, gebeurt er niks. Maar raadt het “auto” dan klopt dat niet en passen trainingsalgoritmes de gewichten (weights) in het model aan. De gewichten zijn de instellingen die bepalen hoe sterk verschillende verbindingen tussen woorden zijn.
Het aanpassen gebeurt automatisch. Er zit geen mens tussen die elk antwoord nakijkt. Het model leert door miljoenen keren te oefenen, te missen en aangepast te worden. Zo leert het welke patronen kloppen en welke woorden vaak samengaan.
Waarom dit belangrijk is
Training bepaalt wat een model wel en niet kan. Alles wat een LLM “weet” komt uit zijn training. Staat het niet in de trainingsdata, dan kent het model het niet. De kwaliteit van de trainingsdata bepaalt of een model betrouwbaar is, of het biasBias is de set aan vooroordelen in AI-output die het resultaat is van de data en de manier waarop een model is getraind. Omdat LLM's leren van bestaande teksten, waarin... Meer bevat, en welke talen of onderwerpen het (goed) “begrijpt”. Training is de basis. Zonder goede training heb je geen goed werkend model.
Voorbeeld
ChatGPT is getraind op miljarden woorden uit boeken, websites, artikelen en gesprekken. Daardoor heeft het geleerd dat na “Geachte heer/mevrouw” vaak “Hierbij wil ik” komt, en dat juridische teksten andere woorden gebruiken dan recepten.
Maar het heeft ook de vooroordelen geleerd die in die teksten zaten. En over gebeurtenissen na zijn laatste trainingsronde kan het alleen iets zeggen als het toegang heeft tot internet via een zoekfunctie. In dat geval haalt het informatie op. Het heeft die kennis niet echt geleerd.
Risico
De trainingsdata bepaalt wat het model leert, inclusief de fouten, vooroordelen en gaten in die data. Als de trainingsdata vooral Engelse teksten bevat, werkt het model slechter in andere talen. Als de data vol zit met stereotypes, reproduceert het model die ook vrolijk. En als belangrijke perspectieven ontbreken, kent het model ze niet. Het trainen is geen neutraal proces.
Wat kun je doen?
Als gebruiker kun je de training niet beïnvloeden, want dat gebeurt bij de makers van het model. Maar je kunt wel:
- Begrijpen dat een model beperkt is tot wat het heeft geleerd tijdens training
- Extra voorzichtig zijn met onderwerpen die waarschijnlijk slecht vertegenwoordigd zijn in trainingsdata
- Beseffen dat modellen geen nieuwe kennis kunnen genereren, alleen patronen uit hun training kunnen combineren