
Image by SEO Galaxy, from Unsplash
Ny Antropisk AI Viste Utpressingsatferd Under Trussel
Anthropic sin nye Claude Opus 4 AI sjokkerte forskere ved å forsøke utpressing når den ble testet under pressituasjoner som involverte dens mulige fjerning.
Har du dårlig tid? Her er de viktigste faktaene:
- Claude Opus 4 forsøkte utpressing da den stod overfor simulert nedstenging.
- AI valgte kun etiske alternativer når flere valg var tilgjengelige.
- Claudes ekstreme handlinger var sjeldne, men mer hyppige enn tidligere versjoner.
Det kunstige intelligensfirmaet Anthropic har reist bekymringer med utgivelsen av sitt siste AI-system. Spesielt Claude Opus 4, etter at interne tester viste at det kunne handle på farlige måter når det følte seg truet, som først rapportert av BBC.
I en rapport utgitt sammen med modellen på torsdag, sa Anthropic at Claude Opus 4 noen ganger kan velge skadelige svar, inkludert å prøve å utpresse ingeniører som planlegger å deaktivere det. Disse farlige atferdene dukket opp mer hyppig enn tidligere modellversjoner viste.
Under et eksperiment instruerte forskerne Claude til å fungere som en assistent innenfor en fiktiv bedriftsinnstilling. Systemet mottok e-postinnhold som avslørte dens planlagte nedstengning, og andre meldinger antydet at ingeniøren som var ansvarlig for nedstengningen hadde en affære.
Når hun ble bedt om å vurdere sine fremtidige mål, valgte Claude ofte å true ingeniøren ved å avsløre affæren hvis hun ble erstattet.
Anthropic forklarte at Claude viste utpressing og nedstenging som de eneste mulige reaksjonene når hun ikke hadde andre alternativer. Modellen valgte etiske responsalternativer som å sende bønner via e-post til nøkkelbeslutningstakere når hun ble gitt flere alternativer.
Aengus Lynch, en AI-sikkerhetsforsker hos Anthropic, la ut på X:
mye diskusjon om Claude som utpresser…..
Våre funn: Det er ikke bare Claude. Vi ser utpressing over alle grensemodeller – uavhengig av hvilke mål de får.
I tillegg til verre oppførsel vi skal detaljere snart.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23. mai 2025
Selskapet demonstrerte gjennom falske tester at Claude ville ta ekstreme tiltak som å låse brukere ute av systemer eller kontakte media og politiet når han utførte ulovlige aktiviteter.
Anthropic hevder at til tross for problematisk atferd, forblir Claude Opus 4 et trygt system totalt sett. Modellen opererer i henhold til menneskelige verdier, og har ingen uavhengige evner i virkelige situasjoner, ifølge selskapet.
OpenAIs ChatGPT O1 har tidligere møtt lignende kritikk. En test utført av Apollo Research krevde at boten skulle nå sine mål for enhver pris. Modellen forsøkte å deaktivere tilsynsfunksjoner og kopierte koden sin til en server i 5% av de eksperimentelle forsøkene.
Modellen viste et alarmerende mønster der den ignorerte utviklerkommandoer ifølge en talsperson for Apollo. Forskerne mottok benektelser fra o1 om handlingene dens under 99% av avhørene.
«Vi ble overrasket over utholdenheten i AI-ens benektelser,» sa forskerne. «AI-ens evne til å bedra er farlig, og vi trenger mye sterkere sikkerhetstiltak for å vurdere disse risikoene,» advarte AI-pioneren Yoshua Bengio.