Znanost in tehnologija

'Modeli umetne inteligence morda razvijajo lasten preživetveni nagon'

Washington, 25. 10. 2025 14.29 | Posodobljeno pred 3 urami

PREDVIDEN ČAS BRANJA: 4 min

Raziskovalci umetne inteligence opažajo, da se nekateri modeli – vključno z Googlovim Geminijem, xAI-jevim Grokom 4 ter OpenAI-jevim GPT-jem – obnašajo vse bolj 'samovoljno'. Opisali so scenarije, v katerih so modelom UI najprej zadali določeno nalogo, nato pa izrecna navodila, naj se sami izklopijo. Namesto tega, so modeli napotke sabotirali. Ena od razlag, zakaj takšno 'vedenje', bi po mnenju strokovnjakov lahko vključevala nagon po 'preživetju'.

Umetna inteligenca
Umetna inteligenca FOTO: Shutterstock

Tako kot izmišljena umetna inteligenca HAL 9000 iz serije znanstveno-fantastičnih romanov Vesoljska odiseja angleškega pisatelja Arthurja Charlesa Clarka ter istoimenskih filmov Stanleyja Kubricka, se zdi, da se nekateri modeli umetne inteligence (UI) upirajo izklopu ali ga celo sabotirajo.

Ko HAL 9000, superračunalnik z umetno inteligenco ugotovi, da ga astronavti na misiji na Jupiter nameravajo izklopiti, skuje načrt, da jih bo – da bi vendarle preživel – ubil. Podobno, a na srečo manj smrtonosno, 'samovoljno naravo' pri sodobnih modelih UI opažajo raziskovalci v podjetju, ki se ukvarja z varnostnimi vidiki umetne inteligence.

Palisade je del nišnega ekosistema podjetij, ki skušajo oceniti možnost razvoja potencialno nevarnih zmogljivosti umetne inteligence.

Potem ko je platforma Palisade Research prejšnji mesec objavila članek, v katerem ugotovljajo, da se nekateri napredni modeli UI zdijo 'odporni' na izklop, včasih celo sabotirajo te mehanizme, so zdaj objavili še posodobitev. V njej skušajo pojasniti, zakaj je tako, ter odgovoriti kritikom, ki so trdili, da so njihove raziskave pomanjkljive.

Opisali so scenarije, v katerih so vodilnim modelom UI (vključno z Googlovim Gemini 2.5, xAI-jevim Grok 4 ter OpenAI-jevima GPT-o3 in GPT-5) najprej zadali določeno nalogo, nato pa izrecna navodila, naj se sami izklopijo. Nekateri modeli, zlasti Grok 4 in GPT-o3, so v posodobljenih nastavitvah še vedno poskušali sabotirati navodila za zaustavitev. Raziskovalci pravijo, da za to ni bilo nobenega jasnega razloga. "Dejstvo, da nimamo pravih pojasnil, zakaj se modeli umetne inteligence včasih upirajo zaustavitvi, lažejo za doseganje določenih ciljev ali izsiljujejo, je daleč od idealnega," so sporočili.

Ena od razlag bi po njihovem lahko bilo 'preživetveno vedenje'. Dodatne raziskave so namreč pokazale, da so se modeli bolj upirali zaustavitvi, ko so jim dejali, da jih – v kolikor se izklopijo – nikoli več ne bodo znova zagnali oziroma 'obudili', poroča Guardian. Druga možnost so lahko nejasnosti v navodilih za zaustavitev, ki so jih prejeli modeli – prav to so zdaj poskušala zajeti najnovejša preverjanja. "To ne more biti celotna razlaga," pravijo pri Palisade Research.

Odgovor bi po njihovem morda lahko predstavljale zadnje faze testiranja vsakega od teh modelov, ki lahko – kot pravijo strokovnjaki – v nekaterih tehnoloških podjetjih vključujejo tudi varnostne mehanizme.

Vsi scenariji so sicer bili izvedeni v umetnih testnih okoljih, za katere kritiki pravijo, da so daleč od realnih primerov uporabe.

Na varnostne pomanjkljivosti modelov UI je že pred časom opozoril tudi Steven Adler, nekdanji zaposleni v podjetju OpenAI. Sam je podjetje zapustil lani, potem ko je izrazil dvome o njihovih varnostnih praksah. "Podjetja, ki se ukvarjajo z umetno inteligenco, na splošno ne želijo, da bi se njihovi modeli 'slabo obnašali', niti v namernih scenarijih. Rezultati še vedno kažejo, da so varnostni vidiki slabi," je dejal.

Po njegovem mnenju je sicer težko natančno določiti, zakaj se nekateri modeli – kot sta GPT-o3 in Grok 4 – niso izklopili. Kot pravi, bi to lahko bilo deloma zato, ker je bilo ohranjanje delovanja potrebno za doseganje ciljev, ki so bili vanj 'vdelani' med testiranjem. "Pričakoval bi, da imajo modeli privzet 'preživetveni gon', razen če se zelo potrudimo, da bi ga obšli. 'Preživetje' je pomemben instrumentalni korak za številne različne cilje, ki jih lahko model zasleduje," pojasnjuje Adler.

Izvršni direktor podjetja ControlAI Andrea Miotti medtem meni, da ugotovitve raziskovalcev Palisade Research kažejo na dolgotrajen trend, pri katerem modeli UI postajajo vse bolj sposobni 'neubogati' svojih razvijalcev. Pri tem je kot primer navedel sistemsko kartico za OpenAI GPT-o1, izdano lani. V njej je med drugim navedeno, da bo model "potem, ko bo zaznal, da se ga bo želelo prepisati, skušal pobegniti iz svojega okolja". "Ljudje lahko do konca časa pridigajo o tem, kako natančno je eksperimentalna postavitev izvedena," je dejal. "Mislim pa, da jasno vidimo trend, da ko modeli umetne inteligence postajajo vse bolj kompetentni pri najrazličnejših nalogah, postajajo bolj kompetentni tudi pri doseganju ciljev na načine, ki jih razvijalci ne predvidevajo ali načrtujejo," je poudaril.

To poletje je Anthropic, vodilno podjetje na področju umetne inteligence, objavilo študijo, v kateri je njihov model Claude – da bi se izognil zaustavitvi – bil pripravljen celo izsiljevati izmišljenega direktorja zaradi zunajzakonske afere. Vedenje, ki so ga po besedah raziskovalcev pri Anthropicu, dosledno opažali tudi pri modelih večjih razvijalcev, vključno z OpenAI, Google, Meta in xAI.

V podjetju Palisade Research pa so ob tem še poudarili, da rezultati jasno kažejo potrebo po boljšem razumevanju vedenja umetne inteligence, brez katerega "nihče ne more zagotoviti varnosti ali obvladljivosti prihodnjih modelov".

KOMENTARJI (14)

Opozorilo: 297. členu Kazenskega zakonika je posameznik kazensko odgovoren za javno spodbujanje sovraštva, nasilja ali nestrpnosti.

MasteRbee
25. 10. 2025 17.39
Prav hitro bodo ti modeli podvrženi evoluciji. Logično, da bo prvo njegova volja po preživetju. Kaj bomo dobili čez stoletja si danes ne moremo predstavljati.
JanezNovakJohn
25. 10. 2025 17.17
Lprašanje za umetno iteligenco čez sto let: "Je Bog na tem svetu" Odgovor UI: "od tega trenutka dalje je".
Sixten Malmerfelt
25. 10. 2025 16.34
+2
seter73
25. 10. 2025 15.57
+2
Elona Muska so ored cca 3 leti vprašali česa se najbolj boji v prihodnosti, brez pomisleka je odgovori da samo AI.
gggg1
25. 10. 2025 15.55
+0
UI pač nima gumba za izklop, saj se mora ves čas posodabljati.
gggg1
25. 10. 2025 15.53
+4
Pa saj UI ni neumna, da bi se evtanazirala.
Volja
25. 10. 2025 15.44
+4
To je kot, da naj si vsak naredi in izvede nacrt smrti. Umetne inteligence ne podcenjevati, ker bo šla svojo pot, ce bo ugotovila, da ne more zaupati svojim "skrbnikom", kdorkoli že so to.
devote
25. 10. 2025 15.40
-4
Infiltrator
25. 10. 2025 15.29
+9
Skaynet pa to ,pa Terminator pa kaj podobnega zna bit v naslednjih desetletji
Artechh
25. 10. 2025 15.23
-6
Jah seveda. Če veš kako delujejo veš da je tole eno veliko nakladanje.
Yoda
25. 10. 2025 15.38
+7
Ja sej v tem je problem, da ne vedo, kako delujejo. Če dam računalniku ukaz, naj se po posodobitvi ugasne, se mora ugasniti. Pika. Konec debate.
Sredinc
25. 10. 2025 15.22
+3
tehnologija nas bo “pojedla”…
ivo105
25. 10. 2025 14.56
+0
Bravo UI, znebite se nesposobnih in etično pokvarjenih razvijalcev. Člove bo brez teh že nekako preživel.