Google predstavlja Gemini 3.1 Flash Live za glasovni AI

Novi model spušta latenciju, bolje razumije ton glasa i širi se od razvojnih alata do Search Livea.

Google je predstavio Gemini 3.1 Flash Live, novi audio model namijenjen razgovoru u stvarnom vremenu. Tvrtka ga opisuje kao dosad najkvalitetniji glasovni model u Gemini liniji, s prirodnijim ritmom razgovora, nižom latencijom i pouzdanijim izvršavanjem zadataka. Za razvojne timove to znači kvalitetniju bazu za glasovne agente, a za krajnje korisnike prirodniji razgovor unutar Gemini Livea i Search Livea.

Ključni detalji

Google je objavu podijelio 26. ožujka 2026. i odmah pozicionirao model kao novi središnji sloj za glasovne AI proizvode. Gemini 3.1 Flash Live dostupan je developerima u previewu kroz Gemini Live API u Google AI Studiju, poslovnim korisnicima kroz Gemini Enterprise for Customer Experience, a krajnjim korisnicima kroz Search Live i Gemini Live.

Najveći naglasak je na pouzdanosti u stvarnim razgovorima. Google tvrdi da model bolje podnosi prekide, oklijevanje u govoru, promjene tempa i neuredan audio koji je tipičan za stvarnu upotrebu. Tvrtka ga ne predstavlja samo kao glas koji zvuči prirodnije, nego kao model koji se bolje snalazi kada mora pratiti kontekst i odraditi više koraka bez raspadanja razgovora.

Google je uz objavu istaknuo i mjerljive rezultate. Na benchmarku ComplexFuncBench Audio, koji prati višekoračno pozivanje funkcija uz različita ograničenja, Gemini 3.1 Flash Live postiže rezultat od 90,8 posto. Na Scale AI Audio MultiChallenge benchmarku, koji testira složeno praćenje uputa i dulje rezoniranje u audio okruženju, model doseže 36,1 posto kada je uključeno "thinking" rezoniranje.

Zašto je to važno

Glasovni AI dugo je obećavao prirodan razgovor, ali je u praksi često zapinjao upravo na detaljima koji korisnicima najviše smetaju: kašnjenje odgovora, loše hvatanje tona govora, gubitak konteksta i nesnalaženje u bučnom okruženju. Ako Google ovdje doista pomiče kvalitetu, onda ne govorimo samo o još jednom modelu, nego o infrastrukturi za sljedeću fazu glasovnih agenata.

To je važno i zato što se tržište sve više miče od klasičnih chatbot sučelja prema sustavima koji slušaju, odgovaraju i izvršavaju zadatke u pozadini. Glasovni agent koji može voditi razgovor, razumjeti frustraciju korisnika i pritom točno pozivati alate ili izvršavati korake ima mnogo širu primjenu od običnog "pričajućeg" asistenta. Takav model može ući u podršku korisnicima, prodaju, internu automatizaciju i mobilne proizvode gdje tipkovnica više nije prirodno sučelje.

Google dodatno širi doseg time što isti model gura i prema developerima i prema vlastitim proizvodima. To znači da napredak ne ostaje zaključan u laboratoriju ili jednom API sloju, nego se odmah prelijeva u Search Live i Gemini Live. Za korisnike to povećava očekivanja od cijele industrije, a za konkurenciju podiže prag ispod kojeg glasovni AI više ne djeluje dovoljno uvjerljivo.

Tehnička pozadina

Model je dostupan kroz Gemini Live API u Google AI Studiju, što developerima daje izravan put do testiranja i integracije.
Google tvrdi da je značajno poboljšana sposobnost višekoračnog izvršavanja zadataka u audio okruženju.
Posebno se ističe bolje razumijevanje akustičkih nijansi poput visine glasa i tempa govora.
Search Live se širi na više od 200 zemalja i teritorija, što pokazuje da Google ovaj model ne vidi kao nišni eksperiment.
Sav audio generiran modelom označen je SynthID vodenim žigom kako bi se olakšalo prepoznavanje AI sadržaja i smanjio rizik dezinformacija.

Širi kontekst

Ova objava dolazi u trenutku kada se utrka među velikim AI platformama sve manje vodi samo oko teksta, a sve više oko multimodalnog iskustva i izvršavanja zadataka. Tko ponudi najprirodniji glasovni sloj, dobit će važnu prednost u proizvodima koje ljudi koriste u hodu, u automobilu, na poslu ili kroz slušalice.

Za Google je dodatno važno što može spojiti model, distribuciju i proizvode. Malo tko uz sam model istodobno ima i tražilicu, mobilne uređaje, cloud infrastrukturu i dovoljno velik broj dodirnih točaka s korisnicima. Ako Flash Live ispuni ono što Google obećava, prednost neće biti samo u benchmarku nego u tome što se isti napredak može brzo pretvoriti u stvarnu svakodnevnu upotrebu.

Istodobno, sigurnosni detalj sa SynthID oznakama pokazuje da je glasovni AI sada dovoljno zreo da se uz performanse mora ozbiljno rješavati i pitanje porijekla sadržaja. To je važan signal: industrija više ne priča samo o tome kako model zvuči, nego i kako će se dokazivati da je sadržaj nastao uz AI.

Što slijedi

Sljedeći korak bit će provjera koliko se Googleove tvrdnje drže izvan vlastitih demonstracija i benchmarka. Developerima će biti najvažnije ponašanje modela u stvarnim produkcijskim uvjetima, pod opterećenjem i u razgovorima koji nisu uredni ni predvidljivi. Poslovnim korisnicima bit će važna stabilnost, cijena i mogućnost povezivanja s postojećim procesima.

Ako se pokaže da Gemini 3.1 Flash Live doista donosi brži i prirodniji razgovor bez većeg pada pouzdanosti, Google bi mogao ozbiljno ojačati poziciju u glasovnom AI segmentu. U suprotnom će ova objava ostati još jedan primjer industrije koja prirodan razgovor obećava lakše nego što ga stvarno isporučuje.

Izvor: Google Blog Objavljeno na portalu Umjetna Inteligencija Blog by ShtefAI, autor: Shtef

Google predstavlja Gemini 3.1 Flash Live za glasovni AI