
Tako kot izmišljena umetna inteligenca HAL 9000 iz serije znanstveno-fantastičnih romanov Vesoljska odiseja angleškega pisatelja Arthurja Charlesa Clarka ter istoimenskih filmov Stanleyja Kubricka, se zdi, da se nekateri modeli umetne inteligence (UI) upirajo izklopu ali ga celo sabotirajo.
Ko HAL 9000, superračunalnik z umetno inteligenco ugotovi, da ga astronavti na misiji na Jupiter nameravajo izklopiti, skuje načrt, da jih bo – da bi vendarle preživel – ubil. Podobno, a na srečo manj smrtonosno, 'samovoljno naravo' pri sodobnih modelih UI opažajo raziskovalci v podjetju, ki se ukvarja z varnostnimi vidiki umetne inteligence.
Potem ko je platforma Palisade Research prejšnji mesec objavila članek, v katerem ugotovljajo, da se nekateri napredni modeli UI zdijo 'odporni' na izklop, včasih celo sabotirajo te mehanizme, so zdaj objavili še posodobitev. V njej skušajo pojasniti, zakaj je tako, ter odgovoriti kritikom, ki so trdili, da so njihove raziskave pomanjkljive.
Opisali so scenarije, v katerih so vodilnim modelom UI (vključno z Googlovim Gemini 2.5, xAI-jevim Grok 4 ter OpenAI-jevima GPT-o3 in GPT-5) najprej zadali določeno nalogo, nato pa izrecna navodila, naj se sami izklopijo. Nekateri modeli, zlasti Grok 4 in GPT-o3, so v posodobljenih nastavitvah še vedno poskušali sabotirati navodila za zaustavitev. Raziskovalci pravijo, da za to ni bilo nobenega jasnega razloga. "Dejstvo, da nimamo pravih pojasnil, zakaj se modeli umetne inteligence včasih upirajo zaustavitvi, lažejo za doseganje določenih ciljev ali izsiljujejo, je daleč od idealnega," so sporočili.
Ena od razlag bi po njihovem lahko bilo 'preživetveno vedenje'. Dodatne raziskave so namreč pokazale, da so se modeli bolj upirali zaustavitvi, ko so jim dejali, da jih – v kolikor se izklopijo – nikoli več ne bodo znova zagnali oziroma 'obudili', poroča Guardian. Druga možnost so lahko nejasnosti v navodilih za zaustavitev, ki so jih prejeli modeli – prav to so zdaj poskušala zajeti najnovejša preverjanja. "To ne more biti celotna razlaga," pravijo pri Palisade Research.
Odgovor bi po njihovem morda lahko predstavljale zadnje faze testiranja vsakega od teh modelov, ki lahko – kot pravijo strokovnjaki – v nekaterih tehnoloških podjetjih vključujejo tudi varnostne mehanizme.
Vsi scenariji so sicer bili izvedeni v umetnih testnih okoljih, za katere kritiki pravijo, da so daleč od realnih primerov uporabe.
Na varnostne pomanjkljivosti modelov UI je že pred časom opozoril tudi Steven Adler, nekdanji zaposleni v podjetju OpenAI. Sam je podjetje zapustil lani, potem ko je izrazil dvome o njihovih varnostnih praksah. "Podjetja, ki se ukvarjajo z umetno inteligenco, na splošno ne želijo, da bi se njihovi modeli 'slabo obnašali', niti v namernih scenarijih. Rezultati še vedno kažejo, da so varnostni vidiki slabi," je dejal.
Po njegovem mnenju je sicer težko natančno določiti, zakaj se nekateri modeli – kot sta GPT-o3 in Grok 4 – niso izklopili. Kot pravi, bi to lahko bilo deloma zato, ker je bilo ohranjanje delovanja potrebno za doseganje ciljev, ki so bili vanj 'vdelani' med testiranjem. "Pričakoval bi, da imajo modeli privzet 'preživetveni gon', razen če se zelo potrudimo, da bi ga obšli. 'Preživetje' je pomemben instrumentalni korak za številne različne cilje, ki jih lahko model zasleduje," pojasnjuje Adler.
Izvršni direktor podjetja ControlAI Andrea Miotti medtem meni, da ugotovitve raziskovalcev Palisade Research kažejo na dolgotrajen trend, pri katerem modeli UI postajajo vse bolj sposobni 'neubogati' svojih razvijalcev. Pri tem je kot primer navedel sistemsko kartico za OpenAI GPT-o1, izdano lani. V njej je med drugim navedeno, da bo model "potem, ko bo zaznal, da se ga bo želelo prepisati, skušal pobegniti iz svojega okolja". "Ljudje lahko do konca časa pridigajo o tem, kako natančno je eksperimentalna postavitev izvedena," je dejal. "Mislim pa, da jasno vidimo trend, da ko modeli umetne inteligence postajajo vse bolj kompetentni pri najrazličnejših nalogah, postajajo bolj kompetentni tudi pri doseganju ciljev na načine, ki jih razvijalci ne predvidevajo ali načrtujejo," je poudaril.
To poletje je Anthropic, vodilno podjetje na področju umetne inteligence, objavilo študijo, v kateri je njihov model Claude – da bi se izognil zaustavitvi – bil pripravljen celo izsiljevati izmišljenega direktorja zaradi zunajzakonske afere. Vedenje, ki so ga po besedah raziskovalcev pri Anthropicu, dosledno opažali tudi pri modelih večjih razvijalcev, vključno z OpenAI, Google, Meta in xAI.
V podjetju Palisade Research pa so ob tem še poudarili, da rezultati jasno kažejo potrebo po boljšem razumevanju vedenja umetne inteligence, brez katerega "nihče ne more zagotoviti varnosti ali obvladljivosti prihodnjih modelov".



















Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.