Non-profitorganisatie verwijdert illegale inhoud uit controversiële AI-trainingsdataset

Non-profitorganisatie verwijdert illegale inhoud uit controversiële AI-trainingsdataset

Nadat Stanford Internet Observatory-onderzoeker David Thiel links naar materiaal over seksueel misbruik van kinderen (CSAM) vond in een AI-trainingsdataset die beeldgeneratoren beschadigde, werd de controversiële dataset in 2023 onmiddellijk verwijderd.

Nu heeft het LAION-team (Large Artificial Intelligence Open Network) een opgeschoonde versie van de LAION-5B-dataset uitgebracht, genaamd Re-LAION-5B, en beweert dat dit “de eerste web-schaal, op tekst gebaseerde link is naar een paar afbeeldingen-dataset om grondig worden gereinigd van bekende links naar vermoedelijke CSAM.”

Om de dataset op te schonen, werkte LAION samen met de Internet Watch Foundation (IWF) en het Canadian Centre for Child Protection (C3P) om 2.236 links te verwijderen die overeenkomen met gehashte afbeeldingen in de databases van online veiligheidsorganisaties. De verwijderingen omvatten alle links die door Thiel zijn gemarkeerd, evenals inhoud die is gemarkeerd door de partners van LAION en andere waakhonden, zoals Human Rights Watch, die zorgen over de privacy naar voren bracht nadat ze foto’s van echte kinderen in de dataset had aangetroffen zonder hun toestemming.

In zijn onderzoek waarschuwde Thiel dat “het opnemen van kindermisbruikmateriaal in de trainingsgegevens van AI-modellen tools leert om kinderen in verband te brengen met illegale seksuele activiteiten en bekende beelden van kindermisbruik gebruikt om nieuwe, potentieel realistische inhoud over kindermisbruik te creëren.”

Thiel drong er bij LAION en andere onderzoekers die het internet afstruinen op zoek naar AI-trainingsgegevens op aan dat er een nieuwe beveiligingsstandaard nodig is om niet alleen CSAM beter uit te filteren, maar ook alle expliciete afbeeldingen die gecombineerd kunnen worden met foto’s van kinderen om CSAM te creëren. (Het Amerikaanse ministerie van Justitie heeft er onlangs op gewezen dat “AI-gegenereerde CSAM nog steeds CSAM is.”)

Hoewel de nieuwe dataset van LAION de modellen die op de vorige dataset zijn getraind niet zal veranderen, beweerde LAION dat Re-LAION-5B “een nieuwe beveiligingsstandaard stelt voor het opschonen van beeldgerelateerde datasets op internet”. Waar voorheen illegale inhoud door de filters van LAION ‘glipte’, hebben onderzoekers nu een verbeterd nieuw systeem ontwikkeld ‘om illegale inhoud te identificeren en te verwijderen’, aldus de blog van LAION.

Thiel vertelde Ars dat hij het ermee eens zou zijn dat LAION met de nieuwste release een nieuwe beveiligingsstandaard heeft gezet, maar “er zijn absoluut manieren om deze te verbeteren.” Echter, “voor deze methoden zouden alle originele afbeeldingen nodig zijn of een volledig nieuwe zoekopdracht”, en het bericht van LAION maakte duidelijk dat het alleen hashes van afbeeldingen gebruikte en geen nieuwe zoekopdracht uitvoerde die het risico zou kunnen lopen illegale of gevoelige inhoud op te halen. (Op Threads deelde Thiel meer gedetailleerde indrukken van de inspanningen van LAION om de dataset op te schonen.)

LAION waarschuwde dat “de huidige state-of-the-art filters alleen niet betrouwbaar genoeg zijn om bescherming tegen CSAM te garanderen in webgebaseerde scenario’s voor het samenstellen van gegevens.”

“Om een ​​betere filtering te garanderen, zijn hashlijsten met verdachte links of afbeeldingen gemaakt door professionele organisaties (in ons geval IWF en C3P) een geschikte keuze”, aldus de blogpost van LAION. “We raden onderzoekslaboratoria en andere organisaties die datasets van het publieke web samenstellen aan om samen te werken met organisaties als IWF en C3P om dergelijke hashlijsten te verkrijgen en deze te gebruiken voor filtering. Op de lange termijn kan een groter gezamenlijk initiatief worden gecreëerd om dergelijke hashlijsten te maken hashlijsten beschikbaar voor de onderzoeksgemeenschap die werkt aan de samenstelling van datasets van internet.”

Volgens LAION is de grootste zorg dat sommige links naar de bekende CSAM die in de dataset van 2022 zijn ingevoerd, meer dan een jaar later nog steeds actief zijn.

“Het is een duidelijke indicatie dat wetshandhavingsautoriteiten hun inspanningen moeten intensiveren om domeinen die dergelijke beeldinhoud hosten van het publieke web te verwijderen op basis van informatie en aanbevelingen van organisaties als IWF en C3P, waardoor het een veiliger plek wordt, ook voor verschillende soorten onderzoek.” gerelateerde activiteiten”, luidt de blog van LAION.

HRW-onderzoeker Hye Jung Han prees LAION voor het verwijderen van de gevoelige gegevens die zij had gemarkeerd, terwijl hij opriep tot meer interventie.

“De snelle verwijdering door LAION van de persoonlijke foto’s van sommige kinderen uit hun dataset is zeer welkom en zal deze kinderen helpen beschermen tegen misbruik van het AI-systeem”, vertelde Han aan Ars. “Het is nu aan de regeringen om wetten ter bescherming van kindergegevens uit te vaardigen om de privacy van alle kinderen online te beschermen.”

Hoewel de blog van LAION zei dat de verwijdering van inhoud een “bovengrens” vertegenwoordigde van de CSAM die bestond in de oorspronkelijke dataset, vertelde AI-expert en mede-oprichter van Creative.AI Alex Champandard aan Ars dat hij sceptisch was over het feit dat alle CSAM was verwijderd.

“Ze filteren alleen de eerder geïdentificeerde CSAM eruit, wat slechts een gedeeltelijke oplossing is”, vertelde Champandard aan Ars. “Statistisch gezien worden de meeste gevallen van CSAM waarschijnlijk nooit gerapporteerd of onderzocht door C3P of IWF. Een redelijkere schatting van het probleem is ongeveer 25.000 gevallen van dingen waarop je generatieve modellen nooit zou willen trainen – misschien wel 50.000.”

Champandard was het met Han eens dat er meer regelgeving nodig is om mensen te beschermen tegen schade aan AI wanneer trainingsgegevens van internet worden gehaald.

“Er is ruimte voor verbetering op alle fronten: privacy, auteursrecht, illegale inhoud, enz.”, aldus Champandard. Omdat “te veel datarechten worden geschonden met dergelijke web-sliced ​​datasets”, suggereerde Champandard dat datasets als LAION “de tand des tijds niet zullen doorstaan”.

“LAION opereert eenvoudigweg in een leemte in de regelgeving en blijft achter in het rechtssysteem totdat beleidsmakers de omvang van het probleem begrijpen”, aldus Champandard.