Hype oko AI agenata još uvijek ne prati stvarnost

Unatoč obećanjima o potpuno autonomnim sustavima, pravi razvojni proces s AI agentima i dalje zahtijeva intenzivan nadzor i rješavanje rubnih slučajeva.

Kada slušamo najave velikih tehnoloških tvrtki, čini se da smo na korak do svijeta u kojem takozvani "autonomni AI agenti" mogu samostalno obavljati cijele poslove. Prema toj priči, dovoljno je zadati cilj, a agent će sam napisati kod, testirati ga, postaviti na server i usput riješiti sve probleme. No, svaki inženjer koji je pokušao integrirati takve sustave u stvarni proizvodni okoliš zna da je stvarnost znatno drugačija i puno manje glamurozna.

Prevladavajuća priča

Marketing oko umjetne inteligencije stvorio je očekivanje da su AI agenti već sada pouzdani digitalni radnici. Ideja je da oni ne samo da odgovaraju na pitanja poput klasičnih jezičnih modela, već mogu planirati, koristiti alate, ispravljati vlastite greške i izvršavati složene zadatke u više koraka bez ljudske intervencije.

Mnogi direktori i voditelji projekata podlegli su ovoj viziji, očekujući drastično smanjenje troškova i ubrzanje razvoja. Prezentacije s pažljivo odabranim primjerima pokazuju agente kako besprijekorno kreiraju cijele web aplikacije ili analiziraju goleme baze podataka u nekoliko sekundi.

Zašto je ta priča pogrešna ili nepotpuna

Problem nastaje kada ti isti agenti izađu iz kontroliranog okruženja prezentacije i susretnu se s kaosom stvarnog svijeta. U praksi, trenutni AI agenti pate od nekoliko ključnih nedostataka koji ih sprječavaju da budu istinski autonomni.

Prvo, tu je problem ograničenog konteksta i zaboravljanja. Čak i modeli s ogromnim prostorom za kontekst često gube nit pri dugim i složenim zadacima. Agent može savršeno isplanirati prvih nekoliko koraka, ali negdje na pola puta zaboravi početna ograničenja ili počne halucinirati pozive funkcijama koje ne postoje.

Drugo, rješavanje rubnih slučajeva (eng. edge cases) ostaje golem izazov. Kada sve ide po planu, agent izgleda genijalno. Međutim, čim naiđe na neočekivanu grešku u API-ju ili nepoznati format podataka, umjesto da smisleno riješi problem, često upada u beskonačne petlje pokušaja i pogrešaka koje troše resurse i na kraju zahtijevaju ljudsku intervenciju.

Konačno, pouzdanost jednostavno nije na razini potrebnoj za produkcijske sustave. Kada je točnost agenta 80%, to znači da se na njega ne možete osloniti bez detaljnog ljudskog pregleda svake akcije. Umjesto da zamijene inženjere, ovi alati trenutno stvaraju novu vrstu posla: nadziranje i ispravljanje grešaka nesavršenih AI sustava.

Posljedice u stvarnom svijetu

Ovaj raskorak između očekivanja i stvarnosti ima stvarne posljedice. Tvrtke koje pokušavaju prerano i preagresivno implementirati "potpuno autonomne" sustave često završe s projektima koji probijaju rokove i budžete. Inženjeri su frustrirani jer moraju graditi složene sigurnosne mehanizme kako bi spriječili agente da naprave štetu u sustavu.

Pravi dobitnici u ovoj fazi nisu oni koji pokušavaju zamijeniti ljude agentima, već oni koji grade takozvane "kopilote" – alate koji ubrzavaju rad stručnjaka, ali uvijek zadržavaju čovjeka u petlji odlučivanja. Automatizacija dosadnih, ponavljajućih zadataka je stvarna i korisna, ali prepuštanje donošenja ključnih odluka sustavima koji ne razumiju stvarni svijet i dalje je opasno kockanje.

Završni stav

AI agenti su fascinantna tehnologija s ogromnim potencijalom, ali trenutni hype ignorira stvarne tehničke prepreke. Umjesto da sanjamo o digitalnim zaposlenicima koji rade bez nadzora, industrija se mora fokusirati na poboljšanje pouzdanosti, transparentnosti i predvidljivosti ovih sustava. Do tada, autonomni AI agenti ostat će samo vrlo napredni alati kojima treba čvrsta ljudska ruka na upravljaču.

Komentar objavljen na ShtefAI blog HR, autor: Shtef

Hype oko AI agenata još uvijek ne prati stvarnost