Preispitivanje Osnovnih Vjerovanja u Razvoj Umjetne Inteligencije
U svijetu umjetne inteligencije (AI), istraživači iz vodećih institucija poput Carnegie Mellona, Stanforda, Harvarda i Princetona preispituju jedan od temelja razvoja AI-a – uvjerenje da što više podataka za pre-trening dovodi do boljih rezultata. U novom radu koji je objavljen na HPCwire, autori raspravljaju o konceptu “katastrofalnog pretreniranja”, gdje dugotrajni pre-trening može negativno utjecati na performanse modela nakon finog podešavanja.
Što je “Katastrofalno Pretreniranje”?
Istraživači su usporedili dvije verzije modela OLMo-1B: jedan je bio treniran na 2.3 trilijuna tokena, a drugi na 3 trilijuna. Iako je veći skup podataka bio na raspolaganju, model s duljim trgovanjem je, prema izvješćima, postigao performanse do 3% lošije na benchmarkovima poput AlpacaEval i ARC. Ovaj pad performansi povezan je sa fenomenom poznatim kao “progresivna osjetljivost”. Kada se broj tokena poveća, model postaje osjetljiviji.
Utjecaj na Performanse Modela
Čak i manji zahvati, poput prilagodbi tijekom finog podešavanja ili uvođenja šuma, mogu poništiti ranije postignute prednosti. Autori su to demonstrirali injektiranjem Gaussove šumice u modele koje su već prošli pre-trening, primijetivši da se performanse naglo smanjuju što duže se model trenirao. Kada se dostigne određena točka, koristi od dodatnog treniranja počinju se nadmašivati rizicima od unutarnje nestabilnosti.
Tipping Point za Manje Modele
Studija je pokazala da se ova prekretnica često događa nakon 2.5 triliona tokena u manjim modelima poput OLMo-1B. “Katastrofalno pretreniranje može biti neizbježno… osobito kada pre-trening i zadaci finog podešavanja nisu usklađeni,” upozoravaju autori u radu, koji je dostupan na arXiv pre-print poslužitelju.
Pogled prema Budućnosti Razvoja Umjetne Inteligencije
Iako istraživači ne predlažu kraj pre-treniranja, smatraju da bi programeri trebali preispitati koliko je pre-trening dovoljno. Kao što završno tvrde u radu, “Naša otkrića pozivaju na obnovljeni fokus na skaliranje modela koje uzima u obzir cijeli proces treninga.”
Za AI programere koji teže skaliranju, poruka je jasna: ponekad je manje zaista više. Uzimanje u obzir ovih saznanja može pomoći u razvoju stabilnijih i učinkovitijih AI modela.
Završne Misli
Razumijevanje granica pre-treniranja ključno je za budućnost umjetne inteligencije. Kako istraživači nastavljaju raditi na ovom važnom problemu, važno je da industrija ostane otvorena za nove uvide i prilagodi svoje pristupe razvoju AI-a.