Znanost in tehnologija

'Modeli umetne inteligence morda razvijajo lasten preživetveni nagon'

Washington, 25. 10. 2025 14.29 4 min branja 18

Avtor:

Deli zgodbo:

Raziskovalci umetne inteligence opažajo, da se nekateri modeli – vključno z Googlovim Geminijem, xAI-jevim Grokom 4 ter OpenAI-jevim GPT-jem – obnašajo vse bolj 'samovoljno'. Opisali so scenarije, v katerih so modelom UI najprej zadali določeno nalogo, nato pa izrecna navodila, naj se sami izklopijo. Namesto tega, so modeli napotke sabotirali. Ena od razlag, zakaj takšno 'vedenje', bi po mnenju strokovnjakov lahko vključevala nagon po 'preživetju'.

Avtor:

Ti.Š.

Deli zgodbo:

Tako kot izmišljena umetna inteligenca HAL 9000 iz serije znanstveno-fantastičnih romanov Vesoljska odiseja angleškega pisatelja Arthurja Charlesa Clarka ter istoimenskih filmov Stanleyja Kubricka, se zdi, da se nekateri modeli umetne inteligence (UI) upirajo izklopu ali ga celo sabotirajo.

Ko HAL 9000, superračunalnik z umetno inteligenco ugotovi, da ga astronavti na misiji na Jupiter nameravajo izklopiti, skuje načrt, da jih bo – da bi vendarle preživel – ubil. Podobno, a na srečo manj smrtonosno, 'samovoljno naravo' pri sodobnih modelih UI opažajo raziskovalci v podjetju, ki se ukvarja z varnostnimi vidiki umetne inteligence.

Palisade je del nišnega ekosistema podjetij, ki skušajo oceniti možnost razvoja potencialno nevarnih zmogljivosti umetne inteligence.

Potem ko je platforma Palisade Research prejšnji mesec objavila članek, v katerem ugotovljajo, da se nekateri napredni modeli UI zdijo 'odporni' na izklop, včasih celo sabotirajo te mehanizme, so zdaj objavili še posodobitev. V njej skušajo pojasniti, zakaj je tako, ter odgovoriti kritikom, ki so trdili, da so njihove raziskave pomanjkljive.

Opisali so scenarije, v katerih so vodilnim modelom UI (vključno z Googlovim Gemini 2.5, xAI-jevim Grok 4 ter OpenAI-jevima GPT-o3 in GPT-5) najprej zadali določeno nalogo, nato pa izrecna navodila, naj se sami izklopijo. Nekateri modeli, zlasti Grok 4 in GPT-o3, so v posodobljenih nastavitvah še vedno poskušali sabotirati navodila za zaustavitev. Raziskovalci pravijo, da za to ni bilo nobenega jasnega razloga. "Dejstvo, da nimamo pravih pojasnil, zakaj se modeli umetne inteligence včasih upirajo zaustavitvi, lažejo za doseganje določenih ciljev ali izsiljujejo, je daleč od idealnega," so sporočili.

Ena od razlag bi po njihovem lahko bilo 'preživetveno vedenje'. Dodatne raziskave so namreč pokazale, da so se modeli bolj upirali zaustavitvi, ko so jim dejali, da jih – v kolikor se izklopijo – nikoli več ne bodo znova zagnali oziroma 'obudili', poroča Guardian. Druga možnost so lahko nejasnosti v navodilih za zaustavitev, ki so jih prejeli modeli – prav to so zdaj poskušala zajeti najnovejša preverjanja. "To ne more biti celotna razlaga," pravijo pri Palisade Research.

Odgovor bi po njihovem morda lahko predstavljale zadnje faze testiranja vsakega od teh modelov, ki lahko – kot pravijo strokovnjaki – v nekaterih tehnoloških podjetjih vključujejo tudi varnostne mehanizme.

Vsi scenariji so sicer bili izvedeni v umetnih testnih okoljih, za katere kritiki pravijo, da so daleč od realnih primerov uporabe.

Preberi še Umetna inteligenca: koristno orodje ali pomočnik, ki nas poneumlja in poleni?

Na varnostne pomanjkljivosti modelov UI je že pred časom opozoril tudi Steven Adler, nekdanji zaposleni v podjetju OpenAI. Sam je podjetje zapustil lani, potem ko je izrazil dvome o njihovih varnostnih praksah. "Podjetja, ki se ukvarjajo z umetno inteligenco, na splošno ne želijo, da bi se njihovi modeli 'slabo obnašali', niti v namernih scenarijih. Rezultati še vedno kažejo, da so varnostni vidiki slabi," je dejal.

Po njegovem mnenju je sicer težko natančno določiti, zakaj se nekateri modeli – kot sta GPT-o3 in Grok 4 – niso izklopili. Kot pravi, bi to lahko bilo deloma zato, ker je bilo ohranjanje delovanja potrebno za doseganje ciljev, ki so bili vanj 'vdelani' med testiranjem. "Pričakoval bi, da imajo modeli privzet 'preživetveni gon', razen če se zelo potrudimo, da bi ga obšli. 'Preživetje' je pomemben instrumentalni korak za številne različne cilje, ki jih lahko model zasleduje," pojasnjuje Adler.

Izvršni direktor podjetja ControlAI Andrea Miotti medtem meni, da ugotovitve raziskovalcev Palisade Research kažejo na dolgotrajen trend, pri katerem modeli UI postajajo vse bolj sposobni 'neubogati' svojih razvijalcev. Pri tem je kot primer navedel sistemsko kartico za OpenAI GPT-o1, izdano lani. V njej je med drugim navedeno, da bo model "potem, ko bo zaznal, da se ga bo želelo prepisati, skušal pobegniti iz svojega okolja". "Ljudje lahko do konca časa pridigajo o tem, kako natančno je eksperimentalna postavitev izvedena," je dejal. "Mislim pa, da jasno vidimo trend, da ko modeli umetne inteligence postajajo vse bolj kompetentni pri najrazličnejših nalogah, postajajo bolj kompetentni tudi pri doseganju ciljev na načine, ki jih razvijalci ne predvidevajo ali načrtujejo," je poudaril.

Preberi še Umetna inteligenca: partner prihodnosti ali tveganje za človeštvo?

To poletje je Anthropic, vodilno podjetje na področju umetne inteligence, objavilo študijo, v kateri je njihov model Claude – da bi se izognil zaustavitvi – bil pripravljen celo izsiljevati izmišljenega direktorja zaradi zunajzakonske afere. Vedenje, ki so ga po besedah raziskovalcev pri Anthropicu, dosledno opažali tudi pri modelih večjih razvijalcev, vključno z OpenAI, Google, Meta in xAI.

V podjetju Palisade Research pa so ob tem še poudarili, da rezultati jasno kažejo potrebo po boljšem razumevanju vedenja umetne inteligence, brez katerega "nihče ne more zagotoviti varnosti ali obvladljivosti prihodnjih modelov".

umetna inteligenca izklop raziskave

SORODNI ČLANKI

Skoraj polovica Slovencev zaskrbljena zaradi umetne inteligence

Bo pisanje kazni za neplačilo parkirnine prevzela umetna inteligenca?

OpenAI v bitko z Googlom: predstavil brskalnik z umetno inteligenco

Zaupanje v digitalnem svetu 2025: Kako najti ravnotežje med tehnologijo in človekom v dobi umetne inteligence?

OpenAI predstavil Soro 2: videi so se povsem približali realnosti

Prva AI-ministrica v albanski politiki: sončni žarek umetne inteligence

Nova nočna mora na bojišču: roj dronov, ki ga upravlja umetna inteligenca

Umetna inteligenca na trgu najbolj prizadela mlade

Z umetno inteligenco simulirali izbruh vulkana: kaj bi se zgodilo s Tokiem?

KOMENTARJI18

Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.

PRAVILA ZA OBJAVO KOMENTARJEV

WolfeWoof

28. 10. 2025 19.41

Kaj se vam je utrgalo. Umetna Inteligenca je UMETNA. To ni inteligentno in se NE razvija. Brez podatkov ki so u modelu ne more nč. Nehite pisat neumnih.

Olimpija po kazenskih strelih do zmage v Gradcu

Madridska velikana sta se namučila za pokalni zmagi

Britanski par na loteriji že drugič zadel milijonski dobitek

PSG po enajstmetrovkah do prvega naslova medcelinskih prvakov