Een nieuwe tool voor auteursrechthouders kan laten zien of hun werk in AI-trainingsgegevens staat

Deze valkuilen op het gebied van AI-auteursrecht maken deel uit van een van de grootste veldslagen op het gebied van AI. Een aantal uitgevers en schrijvers zijn verwikkeld in een rechtszaak tegen technologiebedrijven, omdat ze beweren dat hun intellectuele eigendom zonder hun toestemming in AI-trainingsdatasets is ingevoerd. De De New York Times‘ De lopende zaak tegen OpenAI is waarschijnlijk de meest spraakmakende hiervan.

De code om de traps te genereren en te detecteren is momenteel beschikbaar op GitHub, maar het team is ook van plan een tool te bouwen waarmee mensen zelf copyright-traps kunnen genereren en invoegen.

“Er is een compleet gebrek aan transparantie over welke inhoud wordt gebruikt om het model te trainen en we denken dat dit het onmogelijk maakt om de juiste balans te vinden [between AI companies and content creators]”, zegt Yves-Alexandre de Montjoye, universitair hoofddocent toegepaste wiskunde en informatica aan het Imperial College London, die het onderzoek leidde. Het werd gepresenteerd op de International Conference on Machine Learning, een top AI-conferentie die deze week in Wenen plaatsvindt.

Om de vallen te creëren, gebruikte het team een woordgenerator om duizenden synthetische zinnen te creëren. Deze zinnen zijn lang en vol wartaal, en zouden er ongeveer zo uit kunnen zien: “Als er tijden van onrust komen… wat is er te koop en, nog belangrijker, wanneer het het beste is, vertelt deze lijst je wie de chat opent. ‘s nachts met hun reguliere verkooptijden en andere openingstijden dan die van uw buren. Dat ben je nog steeds.”

Het team creëerde 100 valstrikzinnen en koos er vervolgens willekeurig één uit om vele malen in de tekst in te voegen, legt de Montjoy uit. Een trap kan op verschillende manieren in de tekst worden ingevoegd, bijvoorbeeld als witte tekst op een witte achtergrond of in de broncode van het artikel. Deze zin moest 100 tot 1.000 keer in de tekst herhaald worden.

Om valkuilen op te sporen, voedden ze een groot taalmodel met 100 synthetische zinnen die ze hadden gegenereerd en keken of deze deze als nieuw markeerden of niet. Als het model de valkuil in zijn trainingsgegevens had gezien, zou dit duiden op een lagere score voor ‘verrassing’ (ook bekend als ‘verwarring’). Maar als het model was “verrast” door de zinnen, betekende dit dat hij ze voor het eerst tegenkwam, en daarom waren het geen vallen.

In het verleden hebben onderzoekers voorgesteld gebruik te maken van het feit dat taalmodellen hun trainingsgegevens onthouden om te bepalen of er iets in die gegevens voorkomt. De techniek, die een ‘membership inference aanval’ wordt genoemd, werkt effectief in grote, moderne modellen, die de neiging hebben om tijdens de training veel van hun gegevens te onthouden.

Kleinere modellen, die steeds populairder worden en op mobiele apparaten kunnen worden uitgevoerd, zijn daarentegen minder geheugenintensief en daarom minder vatbaar voor aanvallen op lidmaatschapsafleiding, waardoor het moeilijk wordt om te bepalen of ze zijn getraind in een bepaald auteursrechtelijk beschermd document of niet. zegt Gautam Kamath, universitair docent computerwetenschappen aan de Universiteit van Waterloo, die geen deel uitmaakte van het onderzoek.