
Image by Oberon Copeland, from Unsplash
AI-roboter Overbelaster Wikipedias Servere
Wikimedia Foundation har uttrykt bekymring for det økende presset på serverne deres på grunn av automatiserte bots som skraper data for å trene kunstige intelligensmodeller.
I en fart? Her er de viktige faktaene:
- AI-boter skraper innhold fra Wikimedia på rekordnivåer.
- Boter forårsaket en 50% økning i bruk av multimediebåndbredde.
- 65% av høykostnadstrafikken kommer nå fra crawlere.
Stiftelsen rapporterte nylig i et innlegg at maskin-generert trafikk fortsetter å vokse i en enestående hastighet, mens mennesker utgjør bare en liten del av denne trafikken.
«Siden januar 2024 har vi sett båndbredden som brukes til å laste ned multimedieinnhold vokse med 50%,» står det i innlegget.
«Denne økningen kommer ikke fra menneskelige lesere, men hovedsakelig fra automatiserte programmer som skraper Wikimedia Commons’ bildekatalog av åpent lisensierte bilder for å mate bilder til AI-modeller,» la innlegget til.
Robotene som er kjent som søkebots stjeler store mengder data fra Wikimedia-prosjektene, inkludert Wikipedia og Wikimedia Commons, uten riktig kreditering eller offisielle tilgangsverktøy. Prosessen gjør det vanskelig for nye brukere å oppdage Wikimedia og legger overdreven belastning på deres tekniske systemer.
For eksempel nevner innlegget at Jimmy Carters Wikipedia-side fikk mer enn 2,8 millioner visninger den dagen han døde i desember 2024. Videoen fra debatten i 1980 forårsaket en betydelig økning i nettstedstrafikken. En video av hans debatt fra 1980 økte også trafikken. Wikimedia håndterte det – men bare så vidt. Det virkelige problemet ifølge ingeniørene er den kontinuerlige strømmen av bot-trafikk.
«65% av vår dyreste trafikk kommer fra bots,» skrev stiftelsen. Bots «masseleser» innhold, spesielt mindre populære sider, noe som utløser dyre forespørsler til Wikimedias kjerne datasentre.
Selv om Wikimedias innhold er gratis å bruke, er ikke serverne det. «Innholdet vårt er gratis, infrastrukturen vår er det ikke,» sa stiftelsen. Teamet fortsetter å utvikle metoder for å fremme «ansvarlig bruk av infrastruktur» ved å oppfordre utviklere til å bruke APIet i stedet for å skrape hele nettstedet.
Problemet påvirker Wikimedia så vel som mange andre nettsteder og utgivere. Men for verdens største åpne kunnskapsplattform, truer det stabiliteten til tjenestene millioner er avhengige av.