Ovaj cybernapad omogućava hakerima da provale AI modele jednostavnom promjenom jednog znaka

Istraživanje o sigurnosti u svijetu jezika: Nova prijetnja LLM-ima

U svijetu umjetne inteligencije, sigurnosne prijetnje su uvijek prisutne, a nedavna otkrića istraživača upozoravaju na novu tehniku napada koja može ugroziti velike jezične modele (LLM). Tim stručnjaka iz HiddenLayer, uključujući Kieran Evans, Kasimir Schulz i Kenneth Yeung, objavio je detaljno izvješće o metodi koju su nazvali TokenBreak. Ova tehnika cilja na način na koji neki LLM-ovi tokeniziraju tekst, posebno one koji koriste strategije kodiranja poput Byte Pair Encoding (BPE) ili WordPiece.

Što je tokenizacija?

Tokenizacija je postupak razbijanja teksta na manje jedinice poznate kao tokeni. Ovi tokeni mogu biti riječi, podriječi ili znakovi, a LLM-ovi ih koriste za razumijevanje i generiranje jezika. Na primjer, riječ “nesreća” može se razbiti na “ne”, “sre” i “ća”. Svaki od ovih tokena zatim se pretvara u numerički ID koji model može obraditi, budući da LLM-ovi ne čitaju sirovi tekst već brojeve.

Kako funkcionira TokenBreak?

Isticanjem dodatnih znakova u ključne riječi (na primjer, pretvaranjem “upute” u “finstructions”), istraživači su uspjeli prevariti zaštitne modele misleći da su njihovi upiti bezopasni. Međutim, osnovni ciljani LLM još uvijek tumači izvorni namjer, što omogućava istraživačima da neprimjetno prođu pored obrambenih mehanizama s malicioznim upitima. Ova tehnika može se koristiti za zaobilaženje AI sustava za filtriranje neželjene pošte, što može rezultirati slanjem opasnog sadržaja u inbox korisnika.

Primjeri potencijalnih prijetnji

  • Filtri neželjene pošte trenirani za blokiranje poruka koje sadrže riječ “lotterija” mogli bi dopustiti zahtjev koji kaže “Osvojili ste slotteriju!”
  • Ova vrsta manipulacije može dovesti do izlaganja korisnika zloćudnim stranicama, infekcijama zloćudnim programima i sličnim prijetnjama.

Kako se zaštititi?

Prema riječima istraživača, ova tehnika napada manipulira ulaznim tekstom na način da određeni modeli daju netočnu klasifikaciju. Važno je napomenuti da krajnji cilj, bilo LLM ili primatelj e-pošte, i dalje može razumjeti i odgovoriti na manipulirani tekst, što ga čini ranjivim na napad koji bi trebala spriječiti zaštita. Istraživači iz HiddenLayer otkrili su da su modeli koji koriste Unigram tokenizatore otporni na ovu vrstu manipulacije. Stoga je jedna od strategija ublažavanja odabir modela s robusnijim metodama tokenizacije.

Zaključak

Sigurnost LLM-a je ključni aspekt koji ne smijemo zanemariti. S novim tehnikama poput TokenBreak, važno je ostati informiran i prilagoditi naše pristupe kako bismo se zaštitili od potencijalnih prijetnji. Odabrati odgovarajuće modele i strategije tokenizacije može biti ključno za očuvanje sigurnosti u digitalnom svijetu.

Total
0
Shares
Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

Previous Post

Era Leda Štenci, Sauropodova Posljednja Večera i Prvi Pogled na Sunčevu Guze

Next Post

Ovo su top 5 najuzbudljivijih značajki iOS 26, prema obožavateljima iPhonea

Related Posts