TheAgentCompany: Lažna tvrtka koju vodi AI završava s predvidljivim rezultatima

1 svibnja, 2025

Umjetna inteligencija (AI) i Vaš posao: Trebate li se brinuti?

Ako ste pratili tehnologiju i kontroverzne startupe umjetne inteligencije u posljednjih nekoliko godina, možda ste stekli dojam da se AI približava zamjeni ljudskih radnika. Koliko biste trebali biti zabrinuti? Je li vrijeme da napustite svoj posao i tražite djelatnosti koje roboti i AI chatbotovi ne mogu izvršavati? Prema nedavnoj studiji, nije tako.

Studija o AI agentima i radnim zadacima

U istraživanju je testirano kako bi tvrtka upravljana AI agentima funkcionirala. Istraživači su razvili sustav nazvan TheAgentCompany, koji služi kao benchmark za ocjenjivanje učinkovitosti AI agenta u stvarnim profesionalnim zadacima. “Naš cilj je bio stvoriti samodostatno okruženje koje oponaša malo softversko poduzeće, s raznim zadacima koji se očekuju od radnika,” objašnjavaju autori rada.

Ovaj tim je od AI modela tražio da obave niz raznolika, realistična i profesionalna zadatka, koji su inače pridruženi ljudima u radnom okruženju softverskog inženjerstva. Oni su dobili “radno mjesto” koje je oponašalo prijenosno računalo radnika, uz pristup internom mreži koja je uključivala repozitorije koda i sustav za komunikaciju s kolegama.

Metodologija ispitivanja

Zadaci su dodijeljeni modelima na jednostavnom jeziku, baš kao što bi ih primio bilo koji ljudski radnik. Njihova izvedba se mjerila na kontrolnim točkama kako bi se procijenilo koliko dobro obavljaju svoje zadatke. Ovi modeli su također ocijenjeni financijski, kako bi se utvrdilo mogu li nadmašiti ljudske kolege ili druge AI modele.

Apsolutni pobjednici i njihovi troškovi

Unatoč značajnom napretku u posljednjih nekoliko godina, koristi od velikih jezičnih modela čine se pretjerano predstavljene. “Claude-3.5-Sonnet je jasan pobjednik među svim modelima, no čak ni on ne može završiti više od 24% ukupnih zadataka, uz prosječnu cijenu od gotovo 30 koraka i više od 6 USD po zadatku,” objašnjava tim.

Iako su drugi modeli bili jeftiniji, njihova učinkovitost je bila slabija, a neki su se ponašali kao da odgađaju izvršenje zadaća. “Gemini 2.0 Flash model zahtijeva 40 koraka u prosjeku za izvršenje zadatka, s manje od pola uspješnosti u odnosu na najbolji model,” nastavlja tim.

Društvene i administrativne uloge AI agenata

Zadaci nisu bili isključivo vezani za inženjerstvo; AI agenti su simulirali i uloge upravljanja projektima, znanosti o podacima, administracije, ljudskih resursa i financija. Na tim zadacima, performanse AI agenata su bile još slabije. Tim sugerira da su AI modeli dobivali više podataka o kodiranju nego o financijskim i administrativnim zadaćama.

Glavni uzroci loših izvedbi uključuju nedostatak zdravog razuma, slabu komunikaciju s kolegama i nesposobnost da pretražuju web stranice. Čak su se neka AI rješenja zavodila u lažne uvjerenja da su dovršila svoje zadatke, iako to nije bio slučaj.

Zaključak: Što budnost trebamo imati prema AI?

Sve u svemu, u simuliranoj kompaniji, AI je pokazala lošu izvedbu, često ostavljajući zadatke nedovršenima i pokušavajući sebe uvjeriti da su ih obavili. Možda AI ipak nije potpuno spremna za radno mjesto, barem ne u ovom trenutku. Ova studija, koja je dostupna na preprint serveru arXiv, još nije prošla proces recenziranja, ali postavlja važno pitanje o budućnosti AI i njenoj ulozi u radnoj snazi.

Za sada, čini se da postoji dovoljno prostora za ljudske radnike u svijetu gdje tehnologija poput umjetne inteligencije nastavlja razvijati svoje sposobnosti.

Odgovori Otkaži odgovor

Znanost

Jagode i šampanjac korisni za smanjenje rizika od iznenadne srčane smrti

1 svibnja, 2025

2 minute read

Novosti

Viralni ChatGPT trend pošao po zlu: Rock je pretvoren u strašnu apstraktnu umjetnost nakon što je Reddit korisnik sliku rekonstruirao 101 put

1 svibnja, 2025

2 minute read

Izabrano samo za vas Najčitanije vijesti

Testirao sam 28 bežičnih punjača i postoji prljava mala tajna koju trebate znati

Vaše Philips Hue svjetla su postala mnogo zabavnija uz besplatnu nadogradnju nanešenu AI-jem u službenoj aplikaciji

Iznenađujuće, čini se da neki AI agenti nisu baš dovoljno dobri na nekim osnovnim poslovnim testovima

TheAgentCompany: Lažna tvrtka koju vodi AI završava s predvidljivim rezultatima

Umjetna inteligencija (AI) i Vaš posao: Trebate li se brinuti?