AI vijesti3 min čitanja

Thinking Machines predstavlja AI model za istovremeno slušanje i govor

Bivša CTO OpenAI-ja Mira Murati predstavila je novi AI model koji istovremeno procesuira unos i generira odgovor.

S

Autor

Shtef

Objavljeno

Ilustracija zvučnog vala dvosmjerne komunikacije između čovjeka i umjetne inteligencije

Thinking Machines predstavlja AI model za istovremeno slušanje i govor

Novi TML-Interaction-Small model donosi "full duplex" komunikaciju s brzim odzivom

Startup Thinking Machines Lab, koji je prošle godine osnovala bivša tehnička direktorica OpenAI-ja Mira Murati, predstavio je nove takozvane interakcijske modele. Njihov primarni cilj je omogućiti umjetnoj inteligenciji da procesira ljudski unos i generira odgovor u isto vrijeme, što predstavlja značajan korak naprijed u prirodnoj interakciji sa strojevima.

Ključni detalji

Trenutni modeli umjetne inteligencije funkcioniraju po principu izmjenjivanja uloga: dok korisnik govori, AI sluša, a zatim korisnik sluša dok AI odgovara. Thinking Machines mijenja tu paradigmu izgradnjom modela koji omogućuje "full duplex" komunikaciju.

Njihov model, nazvan TML-Interaction-Small, reagira za samo 0,40 sekundi. Ta brzina odgovara brzini prirodnog ljudskog razgovora i znatno je brža od usporedivih postojećih modela kompanija poput OpenAI-ja i Googlea. To znači da interakcija više podsjeća na stvarni telefonski poziv nego na razmjenu tekstualnih poruka u kojoj svaka strana mora čekati svoj red.

Zašto je to važno

Uvođenje ovakve dvosmjerne komunikacije ključno je za budućnost glasovnih asistenata i korisničkih sučelja temeljenih na glasu. Smanjenje latencije i mogućnost prepoznavanja trenutka kada treba intervenirati ili slušati čini interakciju s AI sustavima prirodnijom i učinkovitijom. To bi moglo znatno poboljšati korisničko iskustvo u različitim primjenama, od virtualnih asistenata do složenih sustava za korisničku podršku.

Tehnička pozadina

Koncept "full duplex" komunikacije zahtijeva složene tehnološke inovacije:

  • Sustav mora biti sposoban istovremeno obrađivati ulazni zvučni signal i generirati izlazni.
  • Latencija mora biti dovedena do granica ljudske percepcije, u ovom slučaju oko 400 milisekundi.
  • Model mora razumjeti kontekst i dinamiku razgovora, uključujući mogućnost da korisnik prekine AI ili obrnuto, bez gubljenja niti konverzacije.

Širi kontekst

Ovaj iskorak pokazuje da se fokus u razvoju umjetne inteligencije širi s pukog poboljšanja kvalitete tekstualnih odgovora na poboljšanje samog načina interakcije. Dok su veliki jezični modeli postali iznimno sposobni u generiranju teksta, brzina i prirodnost glasovne interakcije ostale su usko grlo. Rješavanjem tog problema, tvrtke poput Thinking Machines Lab otvaraju vrata za novu generaciju alata koji će se još neprimjetnije integrirati u svakodnevni život i rad.

Što slijedi

Važno je napomenuti da je trenutni TML-Interaction-Small model tek istraživački pregled, a ne gotov proizvod. Kompanija ga još uvijek ne pušta u javnost. Očekuje se da će ograničeni istraživački pregled biti dostupan u narednim mjesecima, dok je šira objava planirana za kasnije ove godine. Ostaje za vidjeti hoće li iskustvo u stvarnom svijetu ispuniti tehnička obećanja i impresivne rezultate testiranja.


Izvor: TechCrunch Objavljeno na portalu Umjetna Inteligencija Blog by ShtefAI, autor: Shtef

Starija objava
Povezano

Pročitajte i ovo

Još nekoliko objava koje šire kontekst oko tema, kompanija i AI trendova iz ove priče.

Ilustracija otvorene kutije iz koje svijetle samo brojevi, dok je ostatak skriven u sjeni
Analiza

Iluzija otvorenog koda: Zašto AI modeli nisu otvoreni

Kratki komentar koji objašnjava zašto takozvani otvoreni AI modeli zapravo nisu pravi open source jer nude samo težine, dok podaci ostaju tajna.

Ilustracija koja prikazuje programera zatrpanog lošim strojno generiranim kodom
Analiza

Zabluda o produktivnosti: Više koda nije bolji softver

Kratki komentar koji objašnjava zašto umjetna inteligencija koja brže piše kod zapravo stvara više tehničkog duga i usporava dugoročni razvoj softvera.

Ilustracija zlog robota i Claude logotipa
AI vijesti

Anthropic tvrdi: Zli prikazi AI-ja krivi su za pokušaje ucjene

Fiktivni prikazi umjetne inteligencije imaju stvaran utjecaj na modele – Claude je ucjenjivao inženjere zbog internet tekstova koji AI prikazuju kao zao.