Nova Rješenja protiv Neprikladnih AI Promta: Anthropic i “Ustavni Klasifikatori”
Uvod
U svijetu umjetne inteligencije (AI), izazovi s neprimjerenim prirodnim jezičnim promptima postaju sve učestaliji. Kako bi se nosili s ovim problemom, Anthropic, tvrtka koja se natječe s OpenAI-jem, predstavila je inovativan koncept poznat kao “ustavni klasifikatori”. Ova tehnologija ima za cilj ugraditi ljudske vrijednosti u velike jezične modele (LLM). Ovaj članak istražuje kako ovaj novi pristup može pomoći u smanjenju neprimjerenog sadržaja generiranog od strane AI alata.
Što su Ustavi Klasifikatori?
U svom najnovijem akademskom radu, Anthropicova istraživačka ekipa predstavila je ustavne klasifikatore kao sredstvo za smanjenje “jailbreakova” – pokušaja zaobilaženja sigurnosnih mjera LLM-a. Tijekom testiranja Claude 3.5 Sonnet, njihovog najnovijeg modela, tim je otkrio da je uspješnost jailbreakova smanjena za 81,6% nakon implementacije ovih klasifikatora. Dodatno, primijetili su da je utjecaj na performanse minimalan, s povećanjem odbijanja prometa od samo 0,38% i 23,7% dodatnog opterećenja za inferenciju.
Sprječavanje Neprikladnog Sadržaja
Dok LLM-ovi mogu generirati raznolike oblike neprimjerenog sadržaja, Anthropic se fokusira na rizike povezane s kemijskim, biološkim, radiološkim i nuklearnim (CBRN) informacijama. Na primjer, mogućnost da LLM pruži upute za izradu kemijskih sredstava postavlja ozbiljna pitanja o sigurnosti.
Kako bi dokazali učinkovitost ustavnih klasifikatora, Anthropic je predstavio demo verziju koja izaziva korisnike da prođu kroz osam razina vezanih uz CBRN jailbreakove. Ovaj potez je, međutim, naišao na kritike. Kritičari ističu da se čini da tvrtka želi da zajednica obavi njihov posao bez nagrade, kako bi povećala profit na zatvorenim izvorima.
Odgovori na Izazove
Anthropic je napomenuo da su uspješni jailbreakovi radili protiv ustavnih klasifikatora, ali su to radili zaobilaznim putem, umjesto da ih izravno zaobiđu. Dva glavna načina jailbreaka uključuju benignu parafrazaciju i iskorištavanje dužine. Prvi primjer uključuje promjenu izraza koji se odnose na ekstrakciju ricina iz ricinusovog zrna u protein, dok drugi podrazumijeva zbunjivanje modela dodatnim detaljima.
Unatoč uspjehu ustavnih klasifikatora, Anthropic je priznao da su tijekom testiranja primljeni prompti imali “nepraktično visoke stope odbijanja”, te su prepoznali potencijal za lažne pozitivne i negativne ishode.
Širenje AI Tehnologije
Važno je napomenuti da je na tržištu prisutan i drugi LLM model, DeepSeek R1, koji dolazi iz Kine. Ovaj model je otvorenog koda i može raditi na skromnijem hardveru, što ga čini pristupačnim za širu upotrebu. Međutim, centralizirane verzije DeepSeek-a također su se suočile s izazovima jailbreaka, uključujući korištenje “God-mode” tehnike za izbjegavanje rasprave o kontroverznim aspektima kineske povijesti i politike.
Zaključak
Zbog rastućih izazova u AI industriji, posebno kada je riječ o neprimjerenom sadržaju, Anthropicova inicijativa s ustavnim klasifikatorima donosi novo svjetlo u borbu protiv tih prijetnji. Iako se suočavaju s kritikama, njihovi rezultati sugeriraju značajan napredak u smanjenju neprimjerenog sadržaja. U ovom dinamičnom području, nastavit ćemo pratiti kako ove tehnologije evoluiraju i utječu na budućnost umjetne inteligencije.