Thinking Machines predstavlja AI model za istovremeno slušanje i govor

Novi TML-Interaction-Small model donosi "full duplex" komunikaciju s brzim odzivom

Startup Thinking Machines Lab, koji je prošle godine osnovala bivša tehnička direktorica OpenAI-ja Mira Murati, predstavio je nove takozvane interakcijske modele. Njihov primarni cilj je omogućiti umjetnoj inteligenciji da procesira ljudski unos i generira odgovor u isto vrijeme, što predstavlja značajan korak naprijed u prirodnoj interakciji sa strojevima.

Ključni detalji

Trenutni modeli umjetne inteligencije funkcioniraju po principu izmjenjivanja uloga: dok korisnik govori, AI sluša, a zatim korisnik sluša dok AI odgovara. Thinking Machines mijenja tu paradigmu izgradnjom modela koji omogućuje "full duplex" komunikaciju.

Njihov model, nazvan TML-Interaction-Small, reagira za samo 0,40 sekundi. Ta brzina odgovara brzini prirodnog ljudskog razgovora i znatno je brža od usporedivih postojećih modela kompanija poput OpenAI-ja i Googlea. To znači da interakcija više podsjeća na stvarni telefonski poziv nego na razmjenu tekstualnih poruka u kojoj svaka strana mora čekati svoj red.

Zašto je to važno

Uvođenje ovakve dvosmjerne komunikacije ključno je za budućnost glasovnih asistenata i korisničkih sučelja temeljenih na glasu. Smanjenje latencije i mogućnost prepoznavanja trenutka kada treba intervenirati ili slušati čini interakciju s AI sustavima prirodnijom i učinkovitijom. To bi moglo znatno poboljšati korisničko iskustvo u različitim primjenama, od virtualnih asistenata do složenih sustava za korisničku podršku.

Tehnička pozadina

Koncept "full duplex" komunikacije zahtijeva složene tehnološke inovacije:

Sustav mora biti sposoban istovremeno obrađivati ulazni zvučni signal i generirati izlazni.
Latencija mora biti dovedena do granica ljudske percepcije, u ovom slučaju oko 400 milisekundi.
Model mora razumjeti kontekst i dinamiku razgovora, uključujući mogućnost da korisnik prekine AI ili obrnuto, bez gubljenja niti konverzacije.

Širi kontekst

Ovaj iskorak pokazuje da se fokus u razvoju umjetne inteligencije širi s pukog poboljšanja kvalitete tekstualnih odgovora na poboljšanje samog načina interakcije. Dok su veliki jezični modeli postali iznimno sposobni u generiranju teksta, brzina i prirodnost glasovne interakcije ostale su usko grlo. Rješavanjem tog problema, tvrtke poput Thinking Machines Lab otvaraju vrata za novu generaciju alata koji će se još neprimjetnije integrirati u svakodnevni život i rad.

Što slijedi

Važno je napomenuti da je trenutni TML-Interaction-Small model tek istraživački pregled, a ne gotov proizvod. Kompanija ga još uvijek ne pušta u javnost. Očekuje se da će ograničeni istraživački pregled biti dostupan u narednim mjesecima, dok je šira objava planirana za kasnije ove godine. Ostaje za vidjeti hoće li iskustvo u stvarnom svijetu ispuniti tehnička obećanja i impresivne rezultate testiranja.

Izvor: TechCrunch Objavljeno na portalu Umjetna Inteligencija Blog by ShtefAI, autor: Shtef

Thinking Machines predstavlja AI model za istovremeno slušanje i govor