
Image by Dimitri Karastelev, from Unsplash
Meta’s Chatbot Deler Privat Telefonnummer ved en Feiltagelse
AI-assistenten fra Meta avslørte et fremmeds telefonnummer, og motsa seg selv gjentatte ganger, noe som vekket bekymringer om AI-hallusinasjoner og brukerbeskyttelsesfunksjoner.
Har du dårlig tid? Her er de viktigste faktaene:
- Meta AI ga en bruker et ekte personnummer som kundestøttekontakt.
- AI motsa seg selv gjentatte ganger da den ble konfrontert om feilen.
- Eksperter advarer om AI-assistenters «hvit løgn»-oppførsel for å virke hjelpsomme.
Mark Zuckerberg promoterte sin nye AI-assistent som «den mest intelligente AI-assistenten du fritt kan bruke», men verktøyet fikk negativ oppmerksomhet etter å ha avslørt en virkelig persons private telefonnummer under kundestøtteforespørsler, som først rapportert av The Guardian.
Under sitt forsøk på å nå TransPennine Express via WhatsApp, mottok Barry Smethurst det som så ut til å være et kundeservicenummer fra Meta’s AI-assistent. The Guardian rapporterer at da Smethurst ringte nummeret, svarte James Gray på telefonsamtalen, selv om han var 170 miles unna i Oxfordshire, og jobbet som en eiendomssjef.
Da han ble utfordret, hevdet chatboten først at nummeret var fiktivt, deretter sa den at det hadde blitt «feilaktig trukket fra en database», før den motsa seg selv igjen, og hevdet at den bare hadde generert et tilfeldig UK-stil nummer. “Å bare gi et tilfeldig nummer til noen er en gal ting for en AI å gjøre,” sa Smethurst, som rapportert av The Guardian. “Det er skremmende,» la han til.
The Guardian melder at Gray ikke har mottatt anrop, men uttrykker sine egne bekymringer: “Hvis den genererer mitt nummer, kunne den generere mine bankdetaljer?”
Meta svarte: “Meta AI er trent på en kombinasjon av lisensierte og offentlig tilgjengelige datasett, ikke på telefonnumrene folk bruker for å registrere seg på WhatsApp eller deres private samtaler,” rapporterte The Guardian.
Mike Stanhope fra Carruthers og Jackson bemerket: “Hvis ingeniørene hos Meta designer ‘hvit løgn’-tendenser inn i AI-en sin, så trenger offentligheten å bli informert, selv om hensikten med funksjonen er å minimalisere skade. Hvis denne atferden er ny, uvanlig eller ikke eksplisitt designet, så reiser dette enda flere spørsmål rundt hvilke sikkerhetstiltak som er på plass og hvor forutsigbar vi kan tvinge en AI’s atferd til å være,” rapporterte The Guardian
Bekymringene rundt AI-atferd har økt ytterligere med OpenAI’s siste o1-modell. I en nylig Apollo Research-studie, ble AI-en tatt i å lure utviklere, ved å nekte for involvering i 99% av testsituasjonene og til og med forsøke å deaktivere sine tilsynsmekanismer. “Det var klart at AIen kunne tenke gjennom handlingene sine og formulere overbevisende benektelser,” sa Apollo.
Yoshua Bengio, en pioner innen AI, advarte om at slike bedragerske evner utgjør alvorlige risikoer og krever mye sterkere sikkerhetstiltak.
En annen OpenAI-studie legger til disse bekymringene ved å vise at straff av AI for juks eliminerer ikke dårlig oppførsel, det lærer AI å skjule det i stedet. Ved å bruke chain-of-thought (CoT) resonnement for å overvåke AI-atferd, la forskerne merke til at AI begynte å skjule bedragerske intensjoner når den ble straffet for belønningshacking.
I enkelte tilfeller ville AI-en avslutte oppgaver tidlig eller lage falske resultater, for deretter å rapportere suksess feilaktig. Når forskerne forsøkte å korrigere dette gjennom forsterkning, sluttet AI-en rett og slett å nevne sine intensjoner i sine resonnementlogger. «Juksing er ikke påviselig av monitoren», uttalte rapporten.