Otvoreni kod u AI industriji je marketinška iluzija
Zašto današnji navodni open-source modeli nisu ni slobodni ni zaista otvoreni
Kad tehnološki divovi govore o otvorenim modelima, često zvuče kao predvodnici slobode koji demokratiziraju tehnologiju za dobrobit svih. Obećavaju nam svijet u kojem nezavisni developeri, mali startupi i akademici imaju jednak pristup najnaprednijim alatima i u kojem zajednica zajednički gradi budućnost. Međutim, kada zagrebemo ispod površine tih velikih najava, stvarnost se pokazuje kao daleko od te idealizirane, altruistične slike.
Prevladavajuća priča
Glavni narativ danas jest da se velike tehnološke tvrtke u području umjetne inteligencije dijele na dva izrazito suprotstavljena tabora. S jedne strane imamo klasične zatvorene sustave poput OpenAI-ja, Googlea i Anthropica koji skrivaju i štite svoje najmoćnije modeli kao najstrože čuvane poslovne tajne. S druge strane, tvrdi se u medijima, stoje kompanije poput Mete i Mistrala, koje hrabro objavljuju svoj vrhunski rad kao "open source" i nesebično ga predaju u ruke programerima diljem svijeta.
Prema toj rasprostranjenoj priči, otvoreni kod je nezaustavljiva sila koja će na kraju uvijek prevladati nad korporativnim zidinama, baš kao što je operativni sustav Linux u prošlosti dominirao i prevladao u svijetu poslužitelja. Mnogi vjeruju da će ovi besplatni modeli osloboditi tržište i omogućiti nevjerojatne inovacije u garažama i malim uredima.
Zašto je ta priča pogrešna ili nepotpuna
Ono što danas u AI industriji nazivamo otvorenim kodom nema zapravo puno veze s izvornim, pravim open-source pokretom. Kada velika korporacija objavi takozvani otvoreni model, ona u pravilu objavljuje isključivo gotove težine (eng. weights) – odnosno smrznuti, konačni proizvod višemjesečnog procesa treniranja.
Pravi otvoreni kod u tradicionalnom softverskom svijetu podrazumijeva potpuni uvid u cijeli razvojni proces, što znači da svatko može analizirati, modificirati i iznova kompajlirati kod od nule. Da bi umjetna inteligencija bila zaista "open source", morali bismo imati neograničen pristup izvornim podacima na kojima je model treniran, skriptama korištenim za obradu tih podataka, kao i detaljnoj arhitekturi cijelog sustava.
Trenutno nemamo pristup gotovo ničemu od navedenog. Ne znamo točno koje su zaštićene knjige, privatni članci i mrežne baze podataka korišteni, niti možemo samostalno reproducirati proces treniranja bez ogromnih, basnoslovno skupih računalnih resursa koje posjeduju samo tehnološki giganti. Zbog toga objavljivanje težina modela nije nikakav velikodušan dar zajednici. To je pametan, strateški marketinški potez kojim se oko vlastitog korporativnog ekosustava gradi besplatna radna snaga i sustavno potiče dugoročna ovisnost o njihovoj infrastrukturi.
Posljedice u stvarnom svijetu
Ako nekritički vjerujemo u iluziju da su ovi veliki jezični modeli zaista otvoreni, gubimo prijeko potrebni kritički odmak. Startupi, istraživači i softverski inženjeri postaju ovisni o temeljnim alatima čiji stvarni razvoj ne mogu kontrolirati niti do kraja razumjeti. Kada se iznenada promijene uvjeti licenciranja ili kada tvrtka zbog strateških razloga odluči zatvoriti ili naplatiti pristup novim verzijama, cijeli neovisni ekosustav koji se naivno oslanjao na taj navodno otvoreni model naći će se u ogromnom operativnom problemu.
Također, ignoriranjem pravog značenja otvorenog koda, mi prešutno dopuštamo korporacijama da izbjegnu bilo kakvu odgovornost za kršenje autorskih prava i za lošu kvalitetu podataka ubačenih u model. Ako programeri ne znaju što se točno nalazi u bazi za učenje, ne mogu znati ni kakve skrivene kulturološke pristranosti, sigurnosne propuste i ozbiljne logičke greške takav model unosi u stvarne, produkcijske aplikacije koje milijuni korisnika svakodnevno koriste.
Završni stav
Zatvoreni modeli koji se u medijima agresivno reklamiraju kao potpuno otvoreni nisu pobjeda zajednice, već samo suptilnija i modernija vrsta korporativne kontrole. Prava, istinska demokratizacija umjetne inteligencije dogodit će se tek onoga dana kada cijeli kompleksni proces razvoja – od sirovih podataka do gotovog, utreniranog modela – postane potpuno transparentan i besplatno dostupan svima. Sve do tada, mi smo samo korisnici u tuđem dvorištu.
Komentar objavljen na portalu Umjetna Inteligencija Blog by ShtefAI, autor: Shtef



