Iznenađujuće, čini se da neki AI agenti nisu baš dovoljno dobri na nekim osnovnim poslovnim testovima

Nova mjerna točka za LLM agente: CRMArena-Pro

U svijetu umjetne inteligencije, istraživači iz Salesforce AI Research nedavno su predstavili inovativnu mjeru uspjeha – CRMArena-Pro. Ova nova benchmark platforma koristi sintetičke podatke iz poslovanja kako bi procijenila učinkovitost LLM (Large Language Model) agenata u različitim CRM (Customer Relationship Management) scenarijima.

Detalji istraživanja

Prema novom istraživanju, LLM agenti su postigli otprilike 58% uspješnosti u zadacima koji se mogu dovršiti u jednom koraku. Međutim, za zadatke koji zahtijevaju više interakcija, učinkovitost pada na samo 35% – što je jedva više od jednog u tri. Iako su modeli poput gemini-2.5-pro postigli više od 83% uspješnosti u izvršenju radnih zadataka, istraživači iz Salesforcea istaknuli su neke zabrinutosti vezane uz AI agente, sugerirajući da možda nisu toliko sposobni koliko se očekivalo.

Kritike i izazovi

U radu pod naslovom ‘Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions’, objašnjeno je da LLM agenti gotovo nemaju inherentnu svijest o povjerljivosti. Njihova sposobnost obrade osjetljivih informacija poboljšava se samo uz izričito poticanje, što često dolazi na račun uspješnosti zadatka. Istraživači su također kritizirali postojeće mjerne točke zbog njihove nesposobnosti da obuhvate višekratne interakcije i situacije u B2B segmentu, kao i zbog nedovoljnog zrcaljenja realnih podataka iz poslovnog okruženja.

CRMArena-Pro: Opeđivanje sintetičkim podacima

CRMArena-Pro je izgrađen na sintetičkim podacima koje su verificirali CRM stručnjaci, pokrivajući B2B i B2C okruženja. U analizi rezultata, modeli temeljen na razmišljanju, poput gemini-2.5-pro i o1, često su nadmašivali lakše modele. Istraživači iz Salesforcea zaključili su da modeli koji traže dodatna pojašnjenja obično postižu bolje rezultate, posebno u višekratnim zadacima. Na primjer, dok je prosječna učinkovitost devet testiranih modela (po tri iz OpenAI, Googlea i Mete) iznosila 35.1%, gemini-2.5-pro je ostvario rezultat od 54.5%.

Gledajući prema budućnosti

Na kraju, CEO Salesforcea, Marc Benioff, vidi AI agente kao priliku za visoke marže, uz velike korporativne klijente, uključujući vlade, koje se oslanjaju na AI agente za povećanje učinkovitosti i dodatne uštede troškova. “Ova otkrića sugeriraju značajan raskorak između trenutnih mogućnosti LLM-a i složenih zahtjeva realnih poslovnih scenarija, a CRMArena-Pro postavlja izazovan testni okvir za vođenje budućih napredaka u razvoju sofisticiranijih, pouzdanijih i svijesnijih LLM agenata za profesionalnu upotrebu,” zaključili su istraživači.

Zaključak

CRMArena-Pro predstavlja važan korak naprijed u razumijevanju i poboljšanju učinkovitosti LLM agenata u poslovnom okruženju. Kako se tehnologija razvija, od velike je važnosti adresirati postojeće izazove kako bi se AI agenti mogli bolje adaptirati na složene zahtjeve modernih poslovnih scenarija.

Total
0
Shares
Odgovori

Vaša adresa e-pošte neće biti objavljena. Obavezna polja su označena sa * (obavezno)

Previous Post

Jeftinija tehnologija TV-a s kvantnim točkama dolazi od Samsunga, što bi mogla biti dobra vijest za cijene QLED-a, ali nažalost ne i za QD-OLED.

Next Post

Vaše Philips Hue svjetla su postala mnogo zabavnija uz besplatnu nadogradnju nanešenu AI-jem u službenoj aplikaciji

Related Posts