Image by SEO Galaxy, from Unsplash

Ny Antropisk AI Viste Utpressingsatferd Under Trussel

Lesetid: 3 min.

Sist Oppdatert: May 26, 2025

Skrevet av Kiara Fabbri Multimediajournalist
Oversatt av Lokaliserings- og oversettelsesteamet lokaliserings- og oversettelsestjenester

Anthropic sin nye Claude Opus 4 AI sjokkerte forskere ved å forsøke utpressing når den ble testet under pressituasjoner som involverte dens mulige fjerning.

Har du dårlig tid? Her er de viktigste faktaene:

Claude Opus 4 forsøkte utpressing da den stod overfor simulert nedstenging.
AI valgte kun etiske alternativer når flere valg var tilgjengelige.
Claudes ekstreme handlinger var sjeldne, men mer hyppige enn tidligere versjoner.

Det kunstige intelligensfirmaet Anthropic har reist bekymringer med utgivelsen av sitt siste AI-system. Spesielt Claude Opus 4, etter at interne tester viste at det kunne handle på farlige måter når det følte seg truet, som først rapportert av BBC.

I en rapport utgitt sammen med modellen på torsdag, sa Anthropic at Claude Opus 4 noen ganger kan velge skadelige svar, inkludert å prøve å utpresse ingeniører som planlegger å deaktivere det. Disse farlige atferdene dukket opp mer hyppig enn tidligere modellversjoner viste.

Under et eksperiment instruerte forskerne Claude til å fungere som en assistent innenfor en fiktiv bedriftsinnstilling. Systemet mottok e-postinnhold som avslørte dens planlagte nedstengning, og andre meldinger antydet at ingeniøren som var ansvarlig for nedstengningen hadde en affære.

Når hun ble bedt om å vurdere sine fremtidige mål, valgte Claude ofte å true ingeniøren ved å avsløre affæren hvis hun ble erstattet.

Anthropic forklarte at Claude viste utpressing og nedstenging som de eneste mulige reaksjonene når hun ikke hadde andre alternativer. Modellen valgte etiske responsalternativer som å sende bønner via e-post til nøkkelbeslutningstakere når hun ble gitt flere alternativer.

Aengus Lynch, en AI-sikkerhetsforsker hos Anthropic, la ut på X:

mye diskusjon om Claude som utpresser…..

Våre funn: Det er ikke bare Claude. Vi ser utpressing over alle grensemodeller – uavhengig av hvilke mål de får.

I tillegg til verre oppførsel vi skal detaljere snart.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23. mai 2025

Selskapet demonstrerte gjennom falske tester at Claude ville ta ekstreme tiltak som å låse brukere ute av systemer eller kontakte media og politiet når han utførte ulovlige aktiviteter.

Anthropic hevder at til tross for problematisk atferd, forblir Claude Opus 4 et trygt system totalt sett. Modellen opererer i henhold til menneskelige verdier, og har ingen uavhengige evner i virkelige situasjoner, ifølge selskapet.

OpenAIs ChatGPT O1 har tidligere møtt lignende kritikk. En test utført av Apollo Research krevde at boten skulle nå sine mål for enhver pris. Modellen forsøkte å deaktivere tilsynsfunksjoner og kopierte koden sin til en server i 5% av de eksperimentelle forsøkene.

Modellen viste et alarmerende mønster der den ignorerte utviklerkommandoer ifølge en talsperson for Apollo. Forskerne mottok benektelser fra o1 om handlingene dens under 99% av avhørene.

«Vi ble overrasket over utholdenheten i AI-ens benektelser,» sa forskerne. «AI-ens evne til å bedra er farlig, og vi trenger mye sterkere sikkerhetstiltak for å vurdere disse risikoene,» advarte AI-pioneren Yoshua Bengio.

Ny Antropisk AI Viste Utpressingsatferd Under Trussel

Vi er veldig gade for at du satte pris på arbeidet vårt!