
Ljudje po svetu govorijo številne jezike z različnimi naglasi in v različnih okoljih – v avtomobilih, na sestankih, na tržnici v domačem kraju in na potovanjih na drugem koncu sveta.
Pri Sonioxu so z govorno umetno inteligenco dosegli, da aplikacija natančno prepoznava govor v realnem času v več kot 60 jezikih, vključno s slovenščino. Prepozna tudi različne govorce in govor simultano prevaja in zapisuje. "To je prva tehnologija, ki zares razume človeški govor večine jezikov po svetu. Do zdaj so bili računalniki in telefoni zelo dobri za besedilo, ChatGPT za tekst, pa dotik zaslona. Ampak ni bilo še tehnologije, ki bi natančno razumela govor, to, kar mi sproduciramo z glasilkami," pojasnjuje eden od ustanoviteljev Sonioxa Klemen Simonič.
Kot smo lahko preizkusili tudi sami, aplikacija takoj prepozna jezik govorca in ga sproti zapisuje in prevaja v izbran jezik. Prav hitrost in velika natančnost, saj je zapisani govor tudi slovnično urejen, jih ločita od drugih, poudarjajo v podjetju.

Možnost prevajanja v živo sta letos predstavila tudi Apple in Google, ki pa mu je aplikacija med predstavitvijo prenehala delovati. Apple pa trenutno ponuja prevajanje le nekaj jezikov izključno znotraj njihovih aplikacij. "Mislim, da imamo vsaj eno leto prednosti v razvoju umetne inteligence, kar je neverjetno. In to oni vedo," je v slovenski produkt prepričan Simonič.
Od gluhih študentov do večjezičnih družin
Aplikacijo Soniox že uporabljajo gluhi študentje na univerzah, kjer se jim na zaslonih sproti zapisuje govor predavatelja, naglušne osebe pri dnevni komunikaciji, uporabljajo jo popotniki za sporazumevanje na potovanjih, v večjezičnih družinah lahko med seboj komunicirajo brez posebnega znanja različnih jezikov, v Ameriki zdravniki posnamejo posvet s pacientom, transkript in povzetek pa spiše aplikacija.
"Če lahko govoriš v svojem naravnem jeziku, je to veliko bolj intimno. Veliko ljudi zna govoriti angleško, ampak ob tem niso sproščeni. Ljudje se počutijo domače, ko uporabljajo svoj glas in jih računalnik razume," izkušnje in odzive uporabnikov opisuje Simonič.
Zagotavljajo do 95-odstotno natančnost zaznavanja in zapisovanja govora. Kako jim je to uspelo doseči? "Operiramo na ogromni količini podatkov, ki so na internetu. Razvili smo zelo inovativne in čisto nove algoritme, kako izkoristiti te podatke za to, da se lahko naučijo slovenščine in drugih jezikov in kako povezati avdio in tekst. Ker to sta dve modalnosti, ki sta čisto nepovezani," pojasnjuje Simonič. ChatGPT naprimer operira zgolj z besedilom, kar je občutno lažje. "Mi smo povezali avdio s tekstom. Tukaj se moraš res zakopati v najbolj inovativne stvari, v jedro umetne inteligence, kako sploh učiti take modele, kako in koliko podatkov pripraviti."
En delal na Facebooku in Googlu, drug razvijal eno najsodobnejših metod zdravljenja raka
Intenziven razvoj aplikacije je potekal pet let. Ustanovitelja podjetja Simonič in Bizjak, ki sta se spoznala med študijem matematike in računalništva na ljubljanski univerzi, sta pred Sonioxom izkušnje in znanje pridobivala v različnih panogah, tudi v tujini. Simonič se je leta 2013 preselil v ZDA, kjer je delal na Stanfordu in pri Googlu. Kot praktikant je bil del ekipe Google Brain in sodeloval z lanskim Nobelovim nagrajencem za fiziko Geoffreyjem Hintonom in Ilyo Sutskeverjem, soustanoviteljem organizacije OpenAI, ki je lansirala ChatGPT.

Pred desetimi leti se je pridružil Facebooku, ko sploh še niso imeli ekipe, ki bi se posebej ukvarjala z umetno inteligenco. Razvijal je sisteme za prepoznavanje in razumevanje zvoka v videih in prenosih v živo, kar uporabnikom omogoča, da lahko med ogledom vključijo podnapise. Sisteme uporabljajo tudi za zaznavanje neprimernih vsebin na ostalih družbenih omrežjih, ki danes spadajo pod okrilje Mete.
Bizjak pa je v podjetju Cosylab s programerskim znanjem razvijal opremo za nadzor pospeševalnikov delcev, ki se uporabljajo pri zdravljenju raka. Bil je eden osrednjih inženirjev pri razvoju protonske terapije, ene najsodobnejših metod zdravljenja. Leta 2020 sta skupaj ustanovila Soniox s sedežem v Kaliforniji, evropska razvojna ekipa ima sedež v Ljubljani. "Lepo se je izkazalo, da tudi v Evropi, če znaš ljudi organizirati in najti fokus, lahko razviješ najboljše produkte," o razvoju ljubljanske pisarne pravi Simonič, ki sicer priznava, da je eden največjih izzivov trenutno prav iskanje dobrega kadra. V Slovenijo vabijo tudi tuje strokovnjake. "Cilj je, da tukaj sestavimo enega najboljših inženirskih projektov na svetu."

Sodelovanje s Samsungom
Potrditev, da so na dobri poti, so prejeli pred dvema letoma, ko jih je kontaktiral južnokorejski tehnološki velikan Samsung, ki razvija tudi aplikacije za medicinske prepise. "Oni so v bistvu integrator naše tehnologije, prav tako gredo vsi sestanki na Samsungu skozi Soniox," pojasnjuje Simonič. Med jeziki, ki jih ponujajo, je tudi korejščina.
Soniox je preko API-vmesnika namreč na voljo tudi razvijalcem, ki želijo govorno tehnologijo vključiti v lastne aplikacije, platforme ali storitve. Ena od možnosti za v prihodnje je tudi, da bi imeli Soniox vkomponirani telekomunikacijsi ponudniki. Poenostavljeno povedano, gledalci bi na televiziji lahko gledali francosko televizijo, sproti pa bi se jim izpisovali slovenski podnapisi.

In kje sam vidi prihodnost umetne inteligence? "Mislim, da bo umetna inteligenca čisto vsepovsod, a najtežji del je, da jo nekako lepo integriramo v naše vsakdanje življenje," ocenjuje Simonič. V naslednjem koraku bo umetna inteligenca lahko sama raziskovala in izumljala ter pohitrila postopke, še napoveduje. Največji doprinos bi lahko imela v biologiji. "Gre za ogromen in kompleksen sistem s pomešano statistiko, kjer rabiš orodje, da ti ga uredi, mi imamo premalo nevronov, da bi lahko vse te podatke uredili."
Aplikacija je trenutno brezplačna, da tako ostane v določeni obliki, si bodo še naprej prizadevali. Tudi v prihodnje si ob monetizaciji želijo, da bi cena predstavljala zanemarljiv znesek in da bi bila lahko dostopna vsem.
"60 jezikov je super, ampak vsak ta jezik je zelo individualna zadeva za enega človeka. Če sem jaz Slovenec in govorim slovensko, potem je slovenščina zame zelo pomembna. V bistvu je vsak jezik svoj produkt, to je 60 produktov, zloženih v enega," poudarja Simonič, ki mu izziv predstavljajo tudi posamezni dialekti v državah. "Prav s to tehnologijo bi dialekte lahko ohranili, saj jih bomo zapisali za vedno."
Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.