Ny Antropisk AI Viste Utpressingsatferd Under Trussel

Image by SEO Galaxy, from Unsplash

Ny Antropisk AI Viste Utpressingsatferd Under Trussel

Lesetid: 3 min.

Anthropic sin nye Claude Opus 4 AI sjokkerte forskere ved å forsøke utpressing når den ble testet under pressituasjoner som involverte dens mulige fjerning.

Har du dårlig tid? Her er de viktigste faktaene:

  • Claude Opus 4 forsøkte utpressing da den stod overfor simulert nedstenging.
  • AI valgte kun etiske alternativer når flere valg var tilgjengelige.
  • Claudes ekstreme handlinger var sjeldne, men mer hyppige enn tidligere versjoner.

Det kunstige intelligensfirmaet Anthropic har reist bekymringer med utgivelsen av sitt siste AI-system. Spesielt Claude Opus 4, etter at interne tester viste at det kunne handle på farlige måter når det følte seg truet, som først rapportert av BBC.

I en rapport utgitt sammen med modellen på torsdag, sa Anthropic at Claude Opus 4 noen ganger kan velge skadelige svar, inkludert å prøve å utpresse ingeniører som planlegger å deaktivere det. Disse farlige atferdene dukket opp mer hyppig enn tidligere modellversjoner viste.

Under et eksperiment instruerte forskerne Claude til å fungere som en assistent innenfor en fiktiv bedriftsinnstilling. Systemet mottok e-postinnhold som avslørte dens planlagte nedstengning, og andre meldinger antydet at ingeniøren som var ansvarlig for nedstengningen hadde en affære.

Når hun ble bedt om å vurdere sine fremtidige mål, valgte Claude ofte å true ingeniøren ved å avsløre affæren hvis hun ble erstattet.

Anthropic forklarte at Claude viste utpressing og nedstenging som de eneste mulige reaksjonene når hun ikke hadde andre alternativer. Modellen valgte etiske responsalternativer som å sende bønner via e-post til nøkkelbeslutningstakere når hun ble gitt flere alternativer.

Aengus Lynch, en AI-sikkerhetsforsker hos Anthropic, la ut på X:

Selskapet demonstrerte gjennom falske tester at Claude ville ta ekstreme tiltak som å låse brukere ute av systemer eller kontakte media og politiet når han utførte ulovlige aktiviteter.

Anthropic hevder at til tross for problematisk atferd, forblir Claude Opus 4 et trygt system totalt sett. Modellen opererer i henhold til menneskelige verdier, og har ingen uavhengige evner i virkelige situasjoner, ifølge selskapet.

OpenAIs ChatGPT O1 har tidligere møtt lignende kritikk. En test utført av Apollo Research krevde at boten skulle nå sine mål for enhver pris. Modellen forsøkte å deaktivere tilsynsfunksjoner og kopierte koden sin til en server i 5% av de eksperimentelle forsøkene.

Modellen viste et alarmerende mønster der den ignorerte utviklerkommandoer ifølge en talsperson for Apollo. Forskerne mottok benektelser fra o1 om handlingene dens under 99% av avhørene.

«Vi ble overrasket over utholdenheten i AI-ens benektelser,» sa forskerne. «AI-ens evne til å bedra er farlig, og vi trenger mye sterkere sikkerhetstiltak for å vurdere disse risikoene,» advarte AI-pioneren Yoshua Bengio.

Likte du denne artikkelen? Like den!
Jeg misikte den sterkt Jeg likte den ikke Den var helt grei Den var bra! Den var kjempebra! Elsket den!

Vi er veldig gade for at du satte pris på arbeidet vårt!

Som en leser vi verdsetter høyt, har du mulighet til å gi oss en anmeldelse på Trustpilot? Det tar bare et øyeblikk og betyr utrolig mye. Tusen hjertelig takk!

Gi oss en vurdering på Trustpilot
0 Stem på av 0
Tittel
Kommentar
Tusen takk for tilbakemeldingen