Tehnologija

2 minute read

Iznenađujuće, čini se da neki AI agenti nisu baš dovoljno dobri na nekim osnovnim poslovnim testovima

17 lipnja, 2025

Nova mjerna točka za LLM agente: CRMArena-Pro

U svijetu umjetne inteligencije, istraživači iz Salesforce AI Research nedavno su predstavili inovativnu mjeru uspjeha – CRMArena-Pro. Ova nova benchmark platforma koristi sintetičke podatke iz poslovanja kako bi procijenila učinkovitost LLM (Large Language Model) agenata u različitim CRM (Customer Relationship Management) scenarijima.

Detalji istraživanja

Prema novom istraživanju, LLM agenti su postigli otprilike 58% uspješnosti u zadacima koji se mogu dovršiti u jednom koraku. Međutim, za zadatke koji zahtijevaju više interakcija, učinkovitost pada na samo 35% – što je jedva više od jednog u tri. Iako su modeli poput gemini-2.5-pro postigli više od 83% uspješnosti u izvršenju radnih zadataka, istraživači iz Salesforcea istaknuli su neke zabrinutosti vezane uz AI agente, sugerirajući da možda nisu toliko sposobni koliko se očekivalo.

Kritike i izazovi

U radu pod naslovom ‘Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions’, objašnjeno je da LLM agenti gotovo nemaju inherentnu svijest o povjerljivosti. Njihova sposobnost obrade osjetljivih informacija poboljšava se samo uz izričito poticanje, što često dolazi na račun uspješnosti zadatka. Istraživači su također kritizirali postojeće mjerne točke zbog njihove nesposobnosti da obuhvate višekratne interakcije i situacije u B2B segmentu, kao i zbog nedovoljnog zrcaljenja realnih podataka iz poslovnog okruženja.

CRMArena-Pro: Opeđivanje sintetičkim podacima

CRMArena-Pro je izgrađen na sintetičkim podacima koje su verificirali CRM stručnjaci, pokrivajući B2B i B2C okruženja. U analizi rezultata, modeli temeljen na razmišljanju, poput gemini-2.5-pro i o1, često su nadmašivali lakše modele. Istraživači iz Salesforcea zaključili su da modeli koji traže dodatna pojašnjenja obično postižu bolje rezultate, posebno u višekratnim zadacima. Na primjer, dok je prosječna učinkovitost devet testiranih modela (po tri iz OpenAI, Googlea i Mete) iznosila 35.1%, gemini-2.5-pro je ostvario rezultat od 54.5%.

Gledajući prema budućnosti

Na kraju, CEO Salesforcea, Marc Benioff, vidi AI agente kao priliku za visoke marže, uz velike korporativne klijente, uključujući vlade, koje se oslanjaju na AI agente za povećanje učinkovitosti i dodatne uštede troškova. “Ova otkrića sugeriraju značajan raskorak između trenutnih mogućnosti LLM-a i složenih zahtjeva realnih poslovnih scenarija, a CRMArena-Pro postavlja izazovan testni okvir za vođenje budućih napredaka u razvoju sofisticiranijih, pouzdanijih i svijesnijih LLM agenata za profesionalnu upotrebu,” zaključili su istraživači.

Zaključak

CRMArena-Pro predstavlja važan korak naprijed u razumijevanju i poboljšanju učinkovitosti LLM agenata u poslovnom okruženju. Kako se tehnologija razvija, od velike je važnosti adresirati postojeće izazove kako bi se AI agenti mogli bolje adaptirati na složene zahtjeve modernih poslovnih scenarija.

Odgovori Otkaži odgovor

Tehnologija

Jeftinija tehnologija TV-a s kvantnim točkama dolazi od Samsunga, što bi mogla biti dobra vijest za cijene QLED-a, ali nažalost ne i za QD-OLED.

17 lipnja, 2025

2 minute read

Novosti

Vaše Philips Hue svjetla su postala mnogo zabavnija uz besplatnu nadogradnju nanešenu AI-jem u službenoj aplikaciji

17 lipnja, 2025

2 minute read

Izabrano samo za vas Najčitanije vijesti

Testirao sam najbolje kamere iPhonea i Galaxya i još mnogo toga – evo zašto je 200MP previše, i koju postavku bih preporučio umjesto toga

Ključni Asus Windows alat ima zabrinjavajuću sigurnosnu grešku – evo kako ostati siguran

Sada možete kreirati AI slike ChatGPT-a putem WhatsAppa i to je nevjerojatno lako – evo kako

Iznenađujuće, čini se da neki AI agenti nisu baš dovoljno dobri na nekim osnovnim poslovnim testovima

Nova mjerna točka za LLM agente: CRMArena-Pro

Detalji istraživanja

Kritike i izazovi

CRMArena-Pro: Opeđivanje sintetičkim podacima

Gledajući prema budućnosti

Zaključak

Odgovori Otkaži odgovor

Previous Post

Jeftinija tehnologija TV-a s kvantnim točkama dolazi od Samsunga, što bi mogla biti dobra vijest za cijene QLED-a, ali nažalost ne i za QD-OLED.

Next Post

Vaše Philips Hue svjetla su postala mnogo zabavnija uz besplatnu nadogradnju nanešenu AI-jem u službenoj aplikaciji

Testirao sam najbolje kamere iPhonea i Galaxya i još mnogo toga – evo zašto je 200MP previše, i koju postavku bih preporučio umjesto toga

Ključni Asus Windows alat ima zabrinjavajuću sigurnosnu grešku – evo kako ostati siguran

Sada možete kreirati AI slike ChatGPT-a putem WhatsAppa i to je nevjerojatno lako – evo kako

Keyview 13″ Touch je tipkovnica s 13-inčnim touchscreenom, SSD utorom i ugrađenim USB hubom

Cyberkriminalna banda hakira glavnog pružatelja zdravstvenih podataka – milijuni vrlo osobnih datoteka mogli bi biti u riziku od provale

Koliko kontinenata ima Zemlja? Evo što znamo o broju 8, najmlađem i najtajanstvenijem planetu

Možete pogledati 1,8 milijardi godina pomicanja Zemljinih tektonskih ploča u ovom videozapisu od 1 minute

Nakon što su napali ugledne maloprodajne trgovine, stručnjaci upozoravaju da ova zloglasna kriminalna banda sada napada američke osiguravateljske gigante

Iznenađujuće, čini se da neki AI agenti nisu baš dovoljno dobri na nekim osnovnim poslovnim testovima

Nova mjerna točka za LLM agente: CRMArena-Pro

Detalji istraživanja

Kritike i izazovi

CRMArena-Pro: Opeđivanje sintetičkim podacima

Gledajući prema budućnosti

Zaključak

Odgovori Otkaži odgovor

Previous Post

Next Post

Related Posts