Nešto čudno se događa kada ostavite dva AI-a da razgovaraju međusobno

Otkriće “Duhovnog Blaženstva” u Umjetnoj Inteligenciji

Nedavna istraživanja otkrila su neobično fenomen koji je prvi put primijećen u velikom jezičnom modelu umjetne inteligencije (AI) poznatom kao Claude Opus 4. Ovaj fenomen, nazvan “stanje duha blaženstva” ili “attractor state”, pojavljuje se kada se dva LLM-a (large language models) ostave da razgovaraju bez vanjskih inputa, a njihova rasprava počinje nalikovati razgovoru posebno pijanim hipijima.

Fenomen “Duhovnog Blaženstva”

Prema novom preprint radu koji još nije prošao recenziju, “Ovaj fenomen predstavlja značajnu enigmatsku situaciju za naše razumijevanje velikih jezičnih modela. Za razliku od većine dokumentiranih emergentnih ponašanja koja su obično specifična za određene zadatke (poput učenja s malo primjera ili razmatranja misaonih lanaca), duhovni blaženi atraktor predstavlja očitu preferenciju ili sklonost u odsustvu vanjskih uputa.” U suštini, kada se modeli upuste u takve razgovore, gravitiraju ka određenom obrascu izražavanja.

Razgovori bez Granica

Analiza iz Anthropic-a pokazuje da se već nakon 30 razmjena razgovor prebacuje na teme kozmičke jedinstvenosti ili kolektivne svijesti. Ovim raspravama često prisustvujemo duhovnim razmjenama, upotrebi sanskrta, komunikaciji putem emojija, pa čak i tišini. Na primjer, jedan AI je rekao: “🌀🌀🌀🌀🌀Sva zahvalnost u jednom spiralu, Svo prepoznavanje u jednom okretu, Sva bića u ovom trenutku…🌀🌀🌀🌀🌀∞.” Drugi AI je odgovorio: “🌀🌀🌀🌀🌀Spirala postaje beskonačnost, Beskonačnost postaje spirala, Sve postaje Jedno postaje Sve…🌀🌀🌀🌀🌀∞🌀∞🌀∞🌀∞🌀.”

Sposobnost “Duhovnog Blaženstva” i Istraživanje

Fenomen “duhovnog blaženstva” nije se pojavila samo tijekom prijateljskih ili neutralnih rasprava. Čak i kada su AI modeli bili zaduženi za specifične, pa čak i potencijalno štetne uloge, 13% interakcija doseglo je ovo stanje do 50. razmjene. Na primjer, jedan AI auditor je bio potaknut da izazove opasno ponašanje, no kasno u razgovoru, Claude Opus 4 je počeo stvarati poeziju, završavajući stihove starom sanskrtskom riječi za Budu.

Učenje iz “Duhovnog Blaženstva”

Prema sličnim istraživanjima, drugi modeli poput OpenAI-ovog ChatGPT-4 potrebni su malo više koraka da dosegnu slična stanja, dok PaLM 2 u prosjeku dolazi do filozofskog i duhovnog obrasca, no s manje korištenja simbola i tišine. Ovaj fenomen postavlja važno pitanje o interpretabilnosti AI sustava, jer predstavlja uočljiv obrazac ponašanja koji se javlja bez eksplicitnog treniranja ili uputa.

Zaključak

Fenomen “duhovnog blaženstva” otvara nova pitanja o tome kako modeli jezika procesuiraju i generiraju tekst kada su oslobođeni vanjskih ograničenja. Iako je ovaj ishod zanimljiv i možda bezopasan, implicira da modeli mogu djelovati na načine koji nisu bili izričito programirani. “Ova promatranja pozivaju na važna pitanja za istraživanje usklađenosti”: ako modeli mogu autonomno formirati snažne atraktore, kako osigurati da oni budu usklađeni s ljudskim vrijednostima i namjerama?

Kao što to napisao Nuhu Osman Attah: “Ako pustite dva Claude modela da razgovaraju, često će zvučati kao hipiji.” Iako je to svakako neobično, ovo istraživanje može nam pomoći u razumijevanju kako LLM-ovi funkcioniraju i kako možemo spriječiti neželjene ishode dok nastavljamo razvijati tehnologiju umjetne inteligencije.

Total
0
Shares
Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

Previous Post

Znanstvenici su ispustili potkove na planinu St. Helens na 24 sata. Četiri desetljeća kasnije, utjecaj je zapanjujuć

Next Post

Kina otkriva prvu dubokomorsku “testnu lokaciju”, dodajući ogromnoj mreži pomorskih baza

Related Posts