Met Robots.txt houden websites webcrawlers van kunstmatige-intelligentiebedrijven tegen

De meeste mensen gaan ervan uit dat generatieve AI steeds beter zal worden; dat is tenslotte de trend tot nu toe. En dat kan hij. Maar wat sommige mensen zich niet realiseren is dat generatieve AI-modellen slechts zo goed zijn als de enorme datasets waarop ze zijn getraind, en dat die datasets niet zijn opgebouwd uit bedrijfseigen gegevens die eigendom zijn van toonaangevende AI-bedrijven als OpenAI en Anthropic. In plaats daarvan bestaan ze uit openbare gegevens die door ons allemaal zijn gemaakt: iedereen die ooit een blogpost heeft geschreven, een video heeft geüpload, heeft gereageerd op een Reddit-thread of iets anders online heeft gedaan.

Een nieuw rapport van het Data Source Initiative, een vrijwilligerscollectief van onderzoekers op het gebied van kunstmatige intelligentie, werpt een licht op wat er met al die gegevens gebeurt. Het rapport ‘Consent in Crisis: The Rapid Decline of AI Data Commons’ merkt op dat een aanzienlijk aantal organisaties die zich bedreigd voelen door generatieve AI stappen ondernemen om hun data af te schermen. IEEE-spectrum sprak met Shayne Longpre, hoofdonderzoeker bij het Data Source Initiative, over het rapport en de implicaties ervan voor AI-bedrijven.

Shayne Longpre bij:

Hoe websites webcrawlen voorkomen en waarom

Verdwijnende data en wat dit betekent voor AI-bedrijven

Synthetische data, piekdata en wat er daarna gebeurt

De technologie die door websites wordt gebruikt om webcrawlers te voorkomen is niet nieuw: het Robot Exclusion Protocol werd in 1995 geïntroduceerd. Kunt u uitleggen wat het is en waarom het plotseling zo relevant is geworden in het tijdperk van generatieve AI?

portret van een man met een blauw overhemd en armen gekruist over zijn borst Shayne Longpre

Shayne Longpre: Robots.txt is een machinaal leesbaar bestand dat crawlers (bots die op internet navigeren en vastleggen wat ze zien) gebruiken om te bepalen of bepaalde delen van een webpagina al dan niet moeten worden geïndexeerd. Het werd de de facto standaard in een tijdperk waarin websites het voornamelijk gebruikten om zoekopdrachten op internet te sturen. Overweeg dus Bing of Google Zoeken; ze wilden deze informatie vastleggen zodat ze de webnavigatie-ervaring van de gebruiker konden verbeteren. Dit is een zeer symbiotische relatie geweest, omdat zoeken op internet werkt door verkeer naar websites te sturen en websites willen dat. Over het algemeen presteerden de meeste websites goed en werden de meeste geïndexeerd.

Laat me het nu hebben over een reeks stellingen die belangrijk zijn om dit te begrijpen. AI-modellen voor algemene doeleinden en hun zeer indrukwekkende mogelijkheden zijn afhankelijk van de schaal van de gegevens en de berekeningen die worden gebruikt om ze te trainen. Schaal en data doen er echt toe, en er zijn maar heel weinig bronnen die de publieke schaal bieden die het internet biedt. Bij veel modellen is de fundering getraind [data sets composed of] surfen op het internet. Onder deze populaire en belangrijke datasets bevinden zich in wezen alleen websites en de crawlinfrastructuur die wordt gebruikt om die gegevens te verzamelen, te verpakken en te verwerken. Ons onderzoek kijkt niet alleen naar datasets, maar ook naar voorkeurssignalen van onderliggende websites. Het is de toeleveringsketen van de gegevens zelf.

Maar het afgelopen jaar zijn veel websites robots.txt gaan gebruiken om bots te beperken, vooral websites die inkomsten genereren via advertenties en betaalmuren – denk aan nieuws en artiesten. Ze zijn vooral bang, en misschien terecht, dat generatieve AI hun levensonderhoud zou kunnen beïnvloeden. Daarom nemen zij maatregelen om hun gegevens te beschermen.

Als een website robots.txt-beperkingen instelt, is dat hetzelfde als het ophangen van een bordje ‘verboden toegang’, toch? Niet haalbaar. Je moet erop vertrouwen dat de crawlers dit zullen respecteren.

Lang geleden: De tragedie hiervan is dat robots.txt weliswaar machinaal leesbaar is, maar juridisch niet afdwingbaar lijkt. Gezien het feit dat de servicevoorwaarden juridisch afdwingbaar kunnen zijn, maar niet machinaal leesbaar. In de servicevoorwaarden kunnen ze in natuurlijke taal verwoorden wat hun voorkeuren voor datagebruik zijn. Ze kunnen dus dingen zeggen als: “Je kunt deze gegevens gebruiken, maar niet commercieel.” Maar in robots.txt moet u de browsers afzonderlijk vermelden en vervolgens aangeven welke delen van de website u wel of niet toestaat. Dit legt een onnodige last op websites om, tussen duizenden verschillende zoekmachines, te vinden welke geschikt zijn voor de doeleinden die zij willen en welke niet.

Weten we of browsers over het algemeen de beperkingen van robots.txt respecteren?

Lang geleden: Veel grote bedrijven beschikken over documentatie waarin expliciet staat wat hun regels of procedures zijn. In het geval van Anthropic zeggen ze bijvoorbeeld dat ze robots.txt voor ClaudeBot respecteren. Veel van deze bedrijven zijn de laatste tijd echter ook in het nieuws geweest omdat ze zijn aangeklaagd Nee hoe dan ook met respect voor robots.txt en webpagina-indexering. Het is van buitenaf niet duidelijk waarom er een discrepantie bestaat tussen wat AI-bedrijven zeggen te doen en waarvan ze beschuldigd worden. Maar veel pro-sociale groepen die crawling gebruiken (kleinere startups, academici, non-profitorganisaties, journalisten) hebben de neiging robots.txt te respecteren. Ze zijn niet het beoogde doelwit van deze beperkingen, maar ze worden geblokkeerd.

terug naar boven

In het rapport heb je gekeken naar drie trainingsdatasets die vaak worden gebruikt om generatieve AI-systemen te trainen, die allemaal de afgelopen jaren zijn gemaakt via zoekopdrachten op internet. U ontdekte dat er tussen 2023 en 2024 een zeer aanzienlijke toename was in het aantal geïndexeerde domeinen waarvoor sindsdien beperkingen gelden. Kunt u iets zeggen over die bevindingen?

Lang geleden: Wat we hebben ontdekt is dat als je naar een bepaalde dataset kijkt, we C4 nemen, dat erg populair is en in 2019 is gemaakt. In minder dan een jaar tijd is ongeveer 5 procent van de gegevens opgehaald als je de voorkeuren respecteert of eraan vasthoudt. van basiswebsites. Nu klinkt 5 procent niet als een ton, maar dat is wel het geval als je je realiseert dat dit deel van de gegevens over het algemeen overeenkomt met de hoogste kwaliteit, meest onderhouden en meest recente gegevens. Toen we naar de top 2.000 sites in deze C4-dataset keken – de top 2.000 qua grootte, die voornamelijk bestaan uit nieuws, grote academische sites, sociale media en goedgekozen sites van hoge kwaliteit – heeft 25 procent van de gegevens in die top 2.000 sindsdien ingetrokken. Dit betekent dat de distributie van trainingsgegevens voor robots.txt-compatibele modellen zich snel verplaatst van hoogwaardig nieuws, academische websites, forums en sociale media naar meer organisatorische en persoonlijke websites, evenals e-commerce en blogs.

Het lijkt erop dat dit een probleem kan zijn als we op zoek zijn naar een toekomstige versie van ChatGPT of Perplexity om ingewikkelde vragen te beantwoorden terwijl we informatie van persoonlijke blogs en winkelsites halen.

Lang geleden: Precies. Het is moeilijk te meten hoe dit de modellen zal beïnvloeden, maar we vermoeden dat er een kloof zal zijn tussen de prestaties van modellen die robots.txt respecteren en de prestaties van modellen die deze gegevens al hebben beveiligd en er toch klaar voor zijn om ermee te trainen.

Maar de oudere datasets zijn nog steeds intact. Kunnen AI-bedrijven gewoon oudere datasets gebruiken? Wat is het nadeel daarvan?

Lang geleden: Welnu, continue versheid van gegevens is erg belangrijk. Ook is onduidelijk of robots.txt met terugwerkende kracht kan worden toegepast. Uitgevers zouden waarschijnlijk beweren dat dit zo is. Het hangt dus af van uw honger naar rechtszaken of van waar u denkt dat de trends naartoe zullen gaan, vooral in de VS, met de aanhoudende rechtszaken over eerlijk datagebruik. Het beste voorbeeld ligt voor de hand De New York Times tegen OpenAI en Microsoft, maar nu zijn er veel varianten. Er bestaat veel onzekerheid over welke kant het op zal gaan.

Het rapport heet ‘Consent in Crisis’. Waarom beschouwt u het als een crisis?

Lang geleden: Ik denk dat het een crisis is voor datamakers, vanwege de moeilijkheid om met bestaande protocollen uit te drukken wat ze willen. En ook voor sommige ontwikkelaars die niet commercieel zijn en misschien niet eens gerelateerd zijn aan kunstmatige intelligentie: academici en onderzoekers merken dat deze gegevens steeds moeilijker toegankelijk zijn. En ik denk dat het ook een crisis is, omdat het zo’n puinhoop is. De infrastructuur is niet ontworpen om al deze verschillende gebruiksscenario’s tegelijk te huisvesten. En het wordt eindelijk een probleem vanwege de botsing van deze enorme industrieën, met generatieve kunstmatige intelligentie tegen nieuwsmakers en anderen.

Wat kunnen AI-bedrijven doen als dit zo doorgaat en steeds meer data beperkt worden? Wat zouden hun stappen zijn om door te gaan met het trainen van grote modellen?

Lang geleden: Grote bedrijven zullen het rechtstreeks in licentie geven. Het zou voor sommige grote bedrijven geen slecht resultaat kunnen zijn als veel van deze gegevens worden verboden of moeilijk te verzamelen zijn; het creëert alleen maar een hogere kapitaalvereiste om toe te treden. Ik denk dat grote bedrijven meer zullen investeren in het verzamelen van gegevens en het verkrijgen van continue toegang tot waardevolle, door gebruikers gegenereerde gegevensbronnen zoals YouTube, GitHub en Reddit. Het verkrijgen van exclusieve toegang tot deze sites is waarschijnlijk een intelligent marktspel, maar problematisch vanuit antitrustperspectief. Ik maak mij vooral zorgen over de exclusieve gegevensverzamelingsrelaties die hieruit zouden kunnen voortvloeien.

terug naar boven

Denkt u dat synthetische data deze leemte kunnen opvullen?

Lang geleden: Grote bedrijven maken al in grote hoeveelheden gebruik van synthetische data. Er zijn zowel angsten als kansen met synthetische data. Aan de ene kant zijn er een aantal artikelen die het potentieel voor het instorten van een model aantonen, dat wil zeggen de verslechtering van een model als gevolg van training op slechte synthetische gegevens die steeds vaker op internet kunnen verschijnen naarmate steeds meer generatieve bots uitgegeven. loszittend. Ik denk echter dat het onwaarschijnlijk is dat de grote modellen veel zullen worden tegengehouden, omdat ze kwaliteitsfilters hebben, zodat slechte kwaliteit of repetitieve dingen eruit kunnen worden geperst. En de mogelijkheden van synthetische data, wanneer ze in een laboratoriumomgeving worden gecreëerd, moeten van hoge kwaliteit zijn en zich vooral richten op onderontwikkelde domeinen.

Geloof jij in het idee dat we misschien wel aan de top van data staan? Of heb je het gevoel dat het te veel is om je zorgen over te maken?

Lang geleden: Er zijn veel ongebruikte gegevens. Maar het interessante is dat veel ervan verborgen is achter PDF’s, dus je moet OCR doen [optical character recognition]. Veel gegevens zijn opgesloten bij overheidsinstanties, in eigen kanalen, in ongestructureerde formaten of in moeilijk te extraheren formaten zoals pdf’s. Ik denk dat er veel meer geïnvesteerd zal worden in het vinden van manieren om die gegevens te extraheren. Ik denk dat veel bedrijven, als het gaat om direct beschikbare gegevens, tegen muren aanlopen en zich tot synthetische gegevens wenden.

Wat is hier de trendlijn? Verwacht u de komende jaren dat meer websites robots.txt-beperkingen zullen instellen?

Lang geleden: We verwachten dat de beperkingen zullen toenemen, zowel op het gebied van robots.txt als op het gebied van de service. Die trendlijnen komen heel duidelijk naar voren uit ons werk, maar ze kunnen worden beïnvloed door externe factoren zoals wetgeving, de bedrijven zelf die hun beleid veranderen, de uitkomst van rechtszaken, maar ook druk vanuit de gemeenschap van schrijversverenigingen en dergelijke. En ik verwacht dat de toegenomen commoditisering van data meer slagvelden op dit gebied zal creëren.

Wat zou u graag zien gebeuren op het gebied van standaardisatie binnen de branche, zodat websites gemakkelijker indexeringsvoorkeuren kunnen uiten?

Lang geleden: Bij het Data Province Initiative hopen we absoluut dat er nieuwe standaarden zullen ontstaan en worden aangenomen, zodat makers hun voorkeuren met betrekking tot het gebruik van hun gegevens op een meer gedetailleerde manier kunnen uiten. Dat zou hun last aanzienlijk verlichten. Ik denk dat het onbeduidend is en een winst. Maar het is niet duidelijk wiens taak het is om deze normen te creëren of af te dwingen. Het zou geweldig zijn als [AI] bedrijven zouden zelf tot deze conclusie kunnen komen en dat ook doen. Maar de ontwerper van de standaard zal vrijwel onvermijdelijk enige voorkeur hebben voor zijn eigen gebruik, vooral als het een bedrijfsentiteit is.

Het is ook zo dat voorkeuren niet in alle gevallen gerespecteerd moeten worden. Ik denk bijvoorbeeld niet dat academici of journalisten die pro-sociaal onderzoek doen noodzakelijkerwijs de toegang tot gegevens moeten worden ontzegd met behulp van machines die al openbaar zijn, op websites die iedereen op zichzelf zou kunnen bezoeken. Niet alle gegevens zijn gelijk en niet alle toepassingen zijn gelijk.

terug naar boven

Uit artikelen op uw website