AI traint op kinderfoto's, zelfs als ouders strikte privacy-instellingen gebruiken

Human Rights Watch (HRW) blijft onthullen hoe foto’s van echte kinderen die jaren geleden terloops online zijn geplaatst, worden gebruikt om AI-modellen te trainen die beeldgeneratoren voeden – zelfs wanneer platforms scraping verbieden en gezinnen strikte privacy-instellingen hanteren.

Vorige maand vond HRW-onderzoeker Hye Jung Han 170 foto’s van Braziliaanse kinderen, gelinkt in LAION-5B, een populaire AI-dataset gemaakt van Common Crawl-opnames van het openbare web. Het heeft nu een tweede rapport uitgebracht waarin 190 foto’s van kinderen uit alle Australische staten en territoria zijn geïdentificeerd, inclusief inheemse kinderen die mogelijk bijzonder kwetsbaar zijn voor schade.

Deze foto’s zijn gekoppeld in een dataset “zonder medeweten of toestemming van de kinderen of hun families”. Ze bestrijken een hele kindertijd, waardoor AI-beeldgeneratoren realistische deepfakes van echte Australische kinderen kunnen genereren, aldus het rapport van Han. Misschien nog verontrustender is dat URL’s in de dataset soms identificerende informatie over kinderen onthullen, inclusief hun namen en de locaties waar de foto’s zijn genomen, waardoor het gemakkelijker wordt om kinderen te vinden van wie de foto’s anders niet online beschikbaar zouden zijn.

Dat brengt kinderen in gevaar voor privacy- en veiligheidsrisico’s, zei Han, en sommige ouders die denken dat ze de online privacy van hun kinderen hebben beschermd, realiseren zich misschien niet dat die risico’s bestaan.

Via een link naar een foto waarop te zien is ‘twee jongens van drie en vier jaar oud, grijnzend van oor tot oor terwijl ze verfkwasten voor een kleurrijke muurschildering houden’, kon Han ‘de volledige namen en leeftijden van de kinderen achterhalen, evenals de naam van de kleuterschool in Perth, West-Australië.” En misschien wel het meest verontrustend is dat “informatie over deze kinderen nergens anders op internet lijkt te bestaan” – wat suggereert dat de families bijzonder voorzichtig waren om de identiteit van deze jongens online te beschermen.

Er werden strengere privacy-instellingen gebruikt op een andere afbeelding die Han in de dataset aantrof. De foto toont “een close-up van twee jongens die grappige gezichten trekken, afkomstig uit een video op YouTube van tieners die feestvieren” tijdens de week na het eindexamen, meldde Han. Degene die die YouTube-video heeft gepost, heeft zijn privacy-instellingen aangepast zodat deze ‘verborgen’ is en niet in zoekopdrachten wordt weergegeven.

Alleen iemand met een link naar de video had toegang moeten hebben, maar dat weerhield Common Crawl er niet van om de afbeelding te archiveren, en de regels van YouTube verbiedden ook AI-scraping of het verzamelen van identificerende informatie.

YouTube-woordvoerder Jack Malon vertelde Ars dat YouTube “duidelijk is dat het ongeautoriseerd kopiëren van YouTube-inhoud een schending is van onze Servicevoorwaarden, en dat we actie blijven ondernemen tegen dit soort misbruik.” Maar Han maakt zich zorgen dat zelfs als YouTube een gezamenlijke inspanning heeft geleverd om afbeeldingen van kinderen uit de dataset te verwijderen, de schade al is aangericht, omdat AI-tools er al op zijn getraind. Dat is de reden waarom – nog meer dan dat ouders technologiebedrijven nodig hebben om AI-blokkerende training te bevorderen – kinderen toezichthouders nodig hebben om in te grijpen en de training te stoppen voordat deze plaatsvindt, aldus het rapport van Han.

Het rapport van Han komt een maand voordat Australië naar verwachting een hervormd ontwerp van de privacywetten van het land zal publiceren. Die hervormingen omvatten een ontwerp van de eerste Australische wet op de gegevensbescherming van kinderen, bekend als de Children’s Online Privacy Code, maar Han vertelde Ars dat zelfs mensen die betrokken zijn bij het langlopende hervormingsdebat “niet echt zeker weten hoeveel de regering in augustus zal aankondigen. “

“Kinderen in Australië wachten met ingehouden adem om te zien of de regering bescherming voor hen zal goedkeuren”, zei Han, en merkte in haar rapport op dat “kinderen niet in angst hoeven te leven dat hun foto’s kunnen worden gestolen en tegen hen kunnen worden bewapend”.

AI schaadt op unieke wijze Australische kinderen

Om foto’s van Australische kinderen te vinden, onderzocht Han “minder dan 0,0001 procent van de 5,85 miljard afbeeldingen en bijschriften in de dataset.” Omdat haar steekproef zo klein was, verwacht Han dat haar bevindingen een aanzienlijk kleiner aantal kinderen vertegenwoordigen die mogelijk getroffen worden door AI-schrapen.

“Het is verbazingwekkend dat ik uit een willekeurige steekproef van ongeveer 5.000 foto’s onmiddellijk in 190 foto’s van Australische kinderen viel”, vertelde Han aan Ars. “Je zou verwachten dat er meer foto’s van katten zijn dan persoonlijke foto’s van kinderen”, aangezien LAION-5B “een weerspiegeling is van het hele internet.”

LAION werkt samen met HRW om links naar alle gemarkeerde afbeeldingen te verwijderen, maar het opschonen van de dataset lijkt geen snel proces te zijn. Hahn vertelde Ars dat LAION, op basis van haar laatste gesprek met de Duitse non-profitorganisatie, de links naar de foto’s van Braziliaanse kinderen die het een maand geleden rapporteerde, nog niet heeft verwijderd.

LAION heeft het verzoek van Ars om commentaar afgewezen.

In juni vertelde LAION-woordvoerder Nate Tyler aan Ars dat LAION “als non-profit vrijwilligersorganisatie” zich ertoe verbindt haar steentje bij te dragen aan de “bredere en zeer verontrustende kwestie” van kindermisbruik online. Maar het verwijderen van links uit de LAION-5B-dataset betekent niet dat de afbeeldingen online worden verwijderd, merkte Tyler op, waar er nog steeds naar kan worden verwezen en gebruikt in andere AI-datasets, vooral die welke afhankelijk zijn van de Common Crawl. En Han wees erop dat het verwijderen van links uit een dataset niets verandert aan de AI-modellen die er al op getraind zijn.

“De huidige AI-modellen kunnen de gegevens waarop ze zijn getraind niet vergeten, zelfs als de gegevens later uit de trainingsdataset worden verwijderd”, aldus Han’s rapport.

Kinderen van wie de afbeeldingen worden gebruikt om AI-modellen te trainen, worden blootgesteld aan verschillende soorten schade, meldde Han, waaronder het risico dat beeldgeneratoren op overtuigendere wijze schadelijke of expliciete deepfakes zouden kunnen creëren. In Australië meldden vorige maand “ongeveer vijftig meisjes uit Melbourne dat foto’s van hun socialemediaprofielen door AI waren genomen en gemanipuleerd om seksueel expliciete deepfakes te creëren, die vervolgens online werden verspreid”, meldde Han.

Voor First Nations-kinderen – “inclusief degenen die in de bijschriften worden geïdentificeerd als Anangu, Arrernte, Pitjantjatjara, Pintupi, Tiwi en Warlpiri” – bedreigt het opnemen van links naar de foto’s unieke schade. Omdat de First Nations-volken cultureel gezien “de reproductie van foto’s van overleden mensen tijdens perioden van rouw beperken”, zei Han dat het trainen van AI de schade zou kunnen verlengen door het moeilijker te maken om te controleren wanneer de beelden worden gereproduceerd.

Wanneer een AI-model op afbeeldingen wordt getraind, zijn er andere voor de hand liggende privacyrisico’s, waaronder de bezorgdheid dat AI-modellen “berucht zijn vanwege het lekken van privé-informatie”, zei Han. Vangrails die aan beeldgeneratoren zijn toegevoegd, voorkomen deze lekken niet altijd, en sommige tools zijn “herhaaldelijk kapot gegaan”, meldde Han.

LAION raadt ouders aan om, als ze zich zorgen maken over privacyrisico’s, afbeeldingen van kinderen online te verwijderen als de meest effectieve manier om misbruik te voorkomen. Maar Hahn zei tegen Ars dat het “niet alleen onrealistisch, maar ronduit schandalig” was.

“Het antwoord is niet om kinderen en ouders aan te sporen schattige foto’s van kinderen van internet te verwijderen,” zei Han. “De oproep zou moeten zijn [for] een soort wettelijke bescherming voor deze foto’s, zodat kinderen zich niet altijd hoeven af te vragen of hun selfie misbruikt gaat worden.”