Photo by Joshua Woroniecki on Unsplash
Cloudflare-forskere hevder at Perplexity skraper nettsteder til tross for AI Bot Block
Forskere fra internettinfrastrukturleverandøren Cloudflare hevder at AI-systemet Perplexity har skrapt innhold fra nettsteder uten tillatelse, selv når utgivere har implementert AI bot-blokkeringer.
Har du dårlig tid? Her er de viktigste faktaene:
- Cloudflare hevder at Perplexity har skrapet innhold fra nettsteder uten tillatelse.
- Forskere bekreftet Perplexitys «stealth crawling» oppførsel selv når utgivere implementerer AI bot-blokkeringer.
- En talsperson fra Perplexity kalte Cloudflares rapport for et «publicity stunt».
Ifølge rapporten delt av Cloudflare på mandag, kryper Perplexity gjennom nettsteder ved å bruke sin standardbrukeragent og skifter identitet for å omgå disse blokkeringene. Denne «stealth crawling» oppførselen ble bekreftet av Cloudflares eksperter.
«Vi ser fortsatt bevis på at Perplexity gjentatte ganger endrer sin brukeragent og endrer sine kilde-ASNr for å skjule sin crawling-aktivitet, samt ignorerer – eller noen ganger ikke engang henter – robots.txt-filer,» skrev forskerne.
Crawlere forventes å være transparente, tydelig oppgi sitt formål, og respektere nettsiders preferanser, men forskere hevder at Perplexity ikke har fulgt disse tillitsprinsippene. Denne konklusjonen ble nådd etter en undersøkelse utløst av kundeklager.
«Vi mottok klager fra kunder som både hadde nektet Perplexitys crawling aktivitet i sine robots.txt-filer og også opprettet WAF-regler for å spesifikt blokkere begge Perplexitys erklærte crawlere: PerplexityBot og Perplexity-User,» skrev forskerne. «Disse kundene fortalte oss at Perplexity fremdeles var i stand til å få tilgang til innholdet deres selv når de så at botene deres ble blokkert.»
Cloudflare-forskere sa at de bekreftet disse påstandene ved å replikere blokkene og utføre flere tester for å observere crawlerens oppførsel. I en test opprettet de nye domener som ennå ikke hadde blitt indeksert og inkluderte robots.txt-filer for å blokkere «respektfulle bots». Senere spurte de Perplexity om spesifikk informasjon om de begrensede domenene og fant ut at den AI-drevne svarmotoren fremdeles ga detaljer og nøyaktig informasjon om nettstedet.
«Denne responsen var uventet, ettersom vi hadde tatt alle nødvendige forholdsregler for å forhindre at denne informasjonen kunne hentes av deres crawlers,» la forskerne til.
En talsperson fra Perplexity, Jesse Dwyer, kalte forskningen en «publisitetstunt» i en uttalelse for The Verge. Dwyer la til at det er «misforståelser» i Cloudflares rapport.
Cloudflare har utviklet flere verktøy for å hjelpe utgivere med å forhindre uautorisert AI-kryping. I mars lanserte Cloudflare «AI Labyrinth», et verktøy som omdirigerer uautoriserte krypere til AI-genererte innholdslabyrinter. Forrige måned lanserte de «Pay Per Crawl», et system for å belaste AI-bots for å få tilgang til utgivernes innhold.