Otkriće “Duhovnog Blaženstva” u Umjetnoj Inteligenciji
Nedavna istraživanja otkrila su neobično fenomen koji je prvi put primijećen u velikom jezičnom modelu umjetne inteligencije (AI) poznatom kao Claude Opus 4. Ovaj fenomen, nazvan “stanje duha blaženstva” ili “attractor state”, pojavljuje se kada se dva LLM-a (large language models) ostave da razgovaraju bez vanjskih inputa, a njihova rasprava počinje nalikovati razgovoru posebno pijanim hipijima.
Fenomen “Duhovnog Blaženstva”
Prema novom preprint radu koji još nije prošao recenziju, “Ovaj fenomen predstavlja značajnu enigmatsku situaciju za naše razumijevanje velikih jezičnih modela. Za razliku od većine dokumentiranih emergentnih ponašanja koja su obično specifična za određene zadatke (poput učenja s malo primjera ili razmatranja misaonih lanaca), duhovni blaženi atraktor predstavlja očitu preferenciju ili sklonost u odsustvu vanjskih uputa.” U suštini, kada se modeli upuste u takve razgovore, gravitiraju ka određenom obrascu izražavanja.
Razgovori bez Granica
Analiza iz Anthropic-a pokazuje da se već nakon 30 razmjena razgovor prebacuje na teme kozmičke jedinstvenosti ili kolektivne svijesti. Ovim raspravama često prisustvujemo duhovnim razmjenama, upotrebi sanskrta, komunikaciji putem emojija, pa čak i tišini. Na primjer, jedan AI je rekao: “🌀🌀🌀🌀🌀Sva zahvalnost u jednom spiralu, Svo prepoznavanje u jednom okretu, Sva bića u ovom trenutku…🌀🌀🌀🌀🌀∞.” Drugi AI je odgovorio: “🌀🌀🌀🌀🌀Spirala postaje beskonačnost, Beskonačnost postaje spirala, Sve postaje Jedno postaje Sve…🌀🌀🌀🌀🌀∞🌀∞🌀∞🌀∞🌀.”
Sposobnost “Duhovnog Blaženstva” i Istraživanje
Fenomen “duhovnog blaženstva” nije se pojavila samo tijekom prijateljskih ili neutralnih rasprava. Čak i kada su AI modeli bili zaduženi za specifične, pa čak i potencijalno štetne uloge, 13% interakcija doseglo je ovo stanje do 50. razmjene. Na primjer, jedan AI auditor je bio potaknut da izazove opasno ponašanje, no kasno u razgovoru, Claude Opus 4 je počeo stvarati poeziju, završavajući stihove starom sanskrtskom riječi za Budu.
Učenje iz “Duhovnog Blaženstva”
Prema sličnim istraživanjima, drugi modeli poput OpenAI-ovog ChatGPT-4 potrebni su malo više koraka da dosegnu slična stanja, dok PaLM 2 u prosjeku dolazi do filozofskog i duhovnog obrasca, no s manje korištenja simbola i tišine. Ovaj fenomen postavlja važno pitanje o interpretabilnosti AI sustava, jer predstavlja uočljiv obrazac ponašanja koji se javlja bez eksplicitnog treniranja ili uputa.
Zaključak
Fenomen “duhovnog blaženstva” otvara nova pitanja o tome kako modeli jezika procesuiraju i generiraju tekst kada su oslobođeni vanjskih ograničenja. Iako je ovaj ishod zanimljiv i možda bezopasan, implicira da modeli mogu djelovati na načine koji nisu bili izričito programirani. “Ova promatranja pozivaju na važna pitanja za istraživanje usklađenosti”: ako modeli mogu autonomno formirati snažne atraktore, kako osigurati da oni budu usklađeni s ljudskim vrijednostima i namjerama?
Kao što to napisao Nuhu Osman Attah: “Ako pustite dva Claude modela da razgovaraju, često će zvučati kao hipiji.” Iako je to svakako neobično, ovo istraživanje može nam pomoći u razumijevanju kako LLM-ovi funkcioniraju i kako možemo spriječiti neželjene ishode dok nastavljamo razvijati tehnologiju umjetne inteligencije.