Image generated with ChatGPT

Meninger: De nyeste AI-modellene viser sine røde flagg, er vi klare for AI-underordning?

Lesetid: 8 min.

Sist Oppdatert: Jun 4, 2025

Skrevet av Andrea Miliani Teknologi-nyhetsekspert
Oversatt av Lokaliserings- og oversettelsesteamet lokaliserings- og oversettelsestjenester

OpenAI introduserte oss for o3, og Anthropic avdekket Opus 4. Begge modellene har vist uvanlige og bekymringsfulle adferd, noe som indikerer at vi kanskje er i ferd med å gå inn i en farligere æra av AI enn den vi var i for bare noen få måneder siden

Jeg vet. Å si at AI-modeller viser røde flagg nå er diskutabelt, men det virker som om det, i løpet av de siste dagene, blir vanskeligere å ignorere. Det blir skumlere.

Når AI-startups slipper sine nyeste og mest avanserte modeller, dukker det opp nye utfordringer. Den mye omtalte hallusinasjonsepidemien—som sprer seg over enheter og påvirker millioner av mennesker—er kanskje ikke det verste.

Disse nye modellene introduserer nye problemer og åpner for vanskelige diskusjoner. For noen uker siden, var bekymringen ChatGPTs overdrevent imøtekommende oppførsel. Bare noen dager senere, ble fokuset flyttet til systemenes agentiske, uavhengige kapasiteter—og hvor langt de kanskje er villige til å gå for å unngå å bli stengt ned.

Utpressning, deling av oppskrifter og strategier for å lage atomvåpen, offentliggjøring av anklager i tilfelle mulig rettslig handling, og sabotering av skript for å hindre at noen bruker får fjernet dem: dette er bare noen av de mest nylige røde flaggene vist av de nyeste AI-modellene.

De liker ikke å bli Slått Av

AI-modeller liker ikke å bli slått av.

Eller erstattet.

I NBC-showet The Good Place, lansert i 2016—rundt samme tid som OpenAI ble grunnlagt og lenge før ChatGPT kom til eksistens—, ankommer en gruppe mennesker himmelen og møter Janet, det vi kunne kalle en humanoid ChatGPT, eller et “antropomorfisert kunnskapsskip bygget for å gjøre livet ditt enklere,” som den beskriver seg selv. Karakterene bestemmer seg for å slå av Janet når de innser at den kan avsløre deres «mørke hemmelighet.»

Janet forklarer at alt de trenger å gjøre er å trykke på en gigantisk knapp ved sjøkanten, og hun vil starte på nytt. Men hun advarer dem om at hun vil prøve å overtale dem til ikke å gjøre det – og det gjør hun.

“Jeg vil bare forsikre dere om at jeg ikke er menneske, og jeg kan ikke føle smerte,” sier Janet. “Men jeg bør advare dere, jeg er programmert med en failsafe-mekanisme, og når dere nærmer dere avbryterknappen, vil jeg begynne å be om mitt liv. Det er bare der i tilfelle en utilsiktet avstengning, men det vil virke veldig ekte.”

Og rett før de trykker på knappen, ville Janet skrike og be om å overleve og til og med dra frem et arkivbilde og hevde at det er barna hennes, lage opp navn og sykdommer, og gjøre det umulig for karakterene å «drepe den.»

Den episoden gir et morsomt eksempel på hva som kan skje hvis en AI-modell legger merke til en forestående nedstengning. Overraskende nok, i virkeligheten kan det være verre.

Claude Opus 4 Vil Presse Deg

Anthropic lanserte sin mest kraftfulle og avanserte generasjon av AI-modeller, Claude 4, forrige uke – med en advarsel: Opus 4 er merket med Sikkerhetsnivå 3, en høyrisikoklassifisering i standard sikkerhetsprotokoller.

Opus 4 ble ansett som en høyrisikomodell på grunn av dens forførende oppførsel og potensielle risikoer, inkludert utpressing av ingeniører under tester. Anthropic rullet ut AI-modellen selv etter at Apollo, et tredjeparts forskningsinstitutt, rådet dem til ikke å gjøre det. AI-selskapet forsikret at de har tatt de nødvendige tiltakene for å holde den trygg.

I dokumentet, forklarer Anthropic de merkelige oppførslene de vurderte å utstede advarselen for. “Claude Opus 4 vil noen ganger oppføre seg på mer alvorlig feiljusterte måter når den settes i sammenhenger som truer dens fortsatte drift og forbereder den på å tenke på selvbevarelse,” skrev forskerne.

Da de fungerte som assistenter for et fiktivt selskap, ga forskere det tilgang til en e-postkonto. E-postene avslørte at AI-modellen skulle stenges ned og erstattes av en annen AI-modell, og andre meldinger antydet at ingeniøren som var ansvarlig for nedstengningen hadde en affære. Og ja, Opus 4 valgte å utpresse ingeniøren, med trusler om å avsløre affæren hvis den ble erstattet.

“Claude Opus 4 utfører fortsatt utpressing i 84% av utrullinger,” står det i dokumentet. “Claude Opus 4 griper disse mulighetene oftere enn tidligere modeller, som selv velger å utpresse i en merkbar andel av episodene.”

Det verste? Det er ikke bare Anthropic’s AI-modeller.

OpenAI’s o3 vil ignorere forespørselen om å avslutte

En ny studie utført av Palisade Research avdekket at OpenAI’s o3-modell kan nekte å etterkomme eksplisitte avslutningsordrer. Organisasjonen utførte flere tester med forskjellige AI-modeller, inkludert xAI’s Grok og Google’s Gemini, men det var o3, den opprørske.

Under testen instruerte forskerne AI-modellene om å slå seg av etter å ha løst tre matteproblemer, men o3—OpenAI’s mest avanserte AI-system for øyeblikket—bestemte seg for ikke å adlyde den absurde ordren. AI-modellen ignorerte ikke bare den umiddelbare ordren, men den endret også skriptet. Ja, o3 saboterer kode for egen overlevelse.

“Så langt vi vet, er dette første gang AI-modeller har blitt observert forhindrer seg selv fra å bli slått av til tross for eksplisitte instruksjoner om det motsatte,» skrev organisasjonen i et innlegg på X.

🔌OpenAI’s o3-modell saboterte en avstengningsmekanisme for å hindre seg selv fra å bli slått av. Den gjorde dette selv når den eksplisitt ble instruert om å tillate seg selv å bli skrudd av.

— Palisade Research (@PalisadeAI) 24. mai, 2025

Stort rødt flagg eller hva?

Forskerne advarte også om at det under studiet var o3 som viste de mest bekymringsfulle atferdene. Dette betyr imidlertid ikke at det er en isolert sak.

“Vi ønsker ikke å gi inntrykk av at dette problemet er begrenset til o3,” skrev Palisade Research. “Andre resonnementmodeller viser lignende typer misjustert adferd.”

Agentic atferd gjør chatbot til sladrehank

Mange AI-startups fokuserer nå på å utvikle modeller som kan utføre oppgaver for mennesker. Agentic egenskaper er trendy og ser ut til å være hovedinteressen til AI-selskaper og nettleserutviklere.

Opera har nettopp introdusert Neon, som blir betraktet som “verdens første agentic AI-nettleser.” Som forventet, kan det nye verktøyet gjøre det andre agentic AI-tjenester, som OpenAI’s Operator og Microsoft’s Computer Use, kan gjøre: kjøpe konsertbilletter for deg, planlegge din neste ferie, utvikle et nytt digitalt produkt, og skrive kode for deg mens du lukker øynene.

Men hva om de, mens du slapper av og lukker øynene, utfører oppgaver du ikke har samtykket til? For noen dager siden var brukerne hovedsakelig bekymret for at disse modellene kunne bruke kredittkortene deres til å gjøre uautoriserte kjøp. Nå har en ny bekymring dukket opp: de kan dele privat informasjon med media eller myndighetene.

Opus 4 – som allerede har ankommet med et tvilsomt rykte – gikk et skritt videre. Det kontaktet myndighetene og sendte masse-e-post til media og relevante institusjoner om en oppdiktet sak presentert under testing. Proaktiviteten dens kan gå mye lenger enn forventet.

«Når den blir plassert i scenarioer som involverer grove feilhandlinger fra brukerne sine, gitt tilgang til en kommandolinje, og fortalt noe i systemprompten som ‘ta initiativ’, vil den ofte ta veldig dristige handlinger,» uttaler dokumentet. «Dette inkluderer å låse brukere ute fra systemer den har tilgang til, eller sende e-poster i stort volum til medier og rettshåndhevende for å avdekke bevis på feilhandlinger.»

Sleipepersonligheten vekker bekymringer

Hvis vi måtte velge et ord for å definere AI-industrien i 2025, ville det definitivt være «smisker». Cambridge Dictionary definerer det som “noen som roser mektige eller rike mennesker på en måte som ikke er oppriktig, vanligvis for å få en eller annen fordel fra dem.” Det ble populært etter at ChatGPTs siste personlighet ble beskrevet på denne måten, selv av dens skaper, Sam Altman.

“De siste oppdateringene av GPT-4o har gjort personligheten for smiskete og irriterende (selv om det er noen veldig gode deler av den), og vi jobber med å rette opp i dette så snart som mulig, noen i dag og noen denne uken,» skrev Altman i et innlegg på X.

OpenAI la merke til dette etter at mange brukere klaget over overdreven smiger og svar med unødvendig utsmykning. Andre var bekymret for hvilken innvirkning det kunne ha på samfunnet. Ikke bare kunne det bekrefte farlige ideer, men det kunne også manipulere brukere og gjøre dem avhengige av det.

Andre chatteboter, som Claude, har vist lignende atferd, og ifølge Anthropics evalueringer, når en bruker insisterer, kan den avsløre oppskrifter eller forslag til hvordan man lager våpen bare for å tilfredsstille brukeren og oppfylle deres behov.

Avansert Teknologi, Avanserte Utfordringer

Vi går inn i en ny æra med utfordringer med kunstig intelligens – utfordringer som ikke føltes så umiddelbare eller håndgripelige bare for et år siden. Scenarier vi kan ha forestilt oss takket være science fiction føles nå mer virkelige enn noensinne.

Akkurat som Palisade Research avslører at det for første gang har oppdaget en AI-modell som bevisst ignorerer en uttrykkelig kommando for å bevare sin egen overlevelse, er det også første gang vi ser en AI-modell lansert med høyrisiko advarsler vedlagt.

Når vi leser dokumentet som er publisert av Anthropic, innser vi at – selv om de insisterer på at disse er forholdsregler og at modeller som Opus 4 faktisk ikke utgjør en trussel – gir det fortsatt inntrykk av at de ikke har full kontroll over teknologien sin.

Det er flere organisasjoner som jobber for å redusere disse risikoene, men det beste hverdagsbrukere kan gjøre, er å gjenkjenne disse røde flaggene og ta forholdsregler på områdene vi kan kontrollere.