OpenAI heeft met het verkeerde megapopulaire ouderschapsforum geknoeid

Denk aan elk vaag opvoedingsonderwerp dat je maar kunt bedenken, en er staat waarschijnlijk een bericht over op Mumsnet, het al lang bestaande, enorm populaire, controversiële Britse ouderschapsforum voor moeders. In de ruim twintig jaar dat Mumsnet bestaat, heeft Mumsnet een archief van meer dan zes miljard woorden verzameld, geschreven door zeer betrokken gebruikers, over onderwerpen als vieze luiers en luie echtgenoten. (Om nog maar te zwijgen van het gekke dolfijngebabbel.)

Dit voorjaar, nadat Mumsnet ontdekte dat AI-bedrijven hun gegevens aan het inkorten waren, zegt het bedrijf dat het besloot te proberen licentieovereenkomsten te sluiten met enkele van de belangrijkste spelers in de ruimte, waaronder OpenAI, dat aanvankelijk de bereidheid uitsprak om een ​​deal te onderzoeken, waarna Mumsnet voor het eerst buiten bereikt. Nadat de onderhandelingen met OpenAI waren mislukt, maakte Mumsnet in juli bekend juridische stappen te zullen ondernemen.

Volgens Mumsnet vertelde het hoofd van het strategische partnerschap van OpenAI tijdens die eerste gesprekken aan het bedrijf dat datasets van ruim 1 miljard woorden van belang waren voor de AI-gigant. Het leiderschap van Mumsnet was enthousiast. “We brachten veel tijd met hen door”, vertelt Mumsnet-oprichter en CEO Justine Roberts aan WIRED. “We moesten een aantal geheimhoudingsverklaringen ondertekenen en ze vroegen ons om veel informatie.”

Ruim een ​​maand later vertelde OpenAI echter aan Mumsnet dat het bedrijf op dat moment niet langer geïnteresseerd was in de samenwerking, zo blijkt uit een e-mailuitwisseling beoordeeld door WIRED. Op de vraag waarom, karakteriseerden OpenAI-medewerkers de dataset van 6 miljard woorden van Mumsnet als te klein om een ​​licentieovereenkomst te rechtvaardigen, zegt Roberts. Ze merkten ook op dat OpenAI vooral geïnteresseerd is in grote datasets die nog niet online toegankelijk zijn voor het publiek, en dat het datasets wil die een breed scala aan menselijke ervaringen omvatten.

Dit sentiment werd door het bedrijf herhaald toen WIRED om commentaar vroeg. “We zoeken partnerschappen voor grote datasets die de menselijke samenleving weerspiegelen, en we streven niet alleen partnerschappen na voor openbaar beschikbare informatie”, zegt OpenAI-woordvoerder Kayla Wood. “We ondersteunen de keuze van uitgevers en makers, door hen manieren te bieden om hun voorkeuren over hoe hun pagina’s en inhoud met AI werken in zoekresultaten te uiten en door generatieve onderliggende AI-modellen te trainen.”

Roberts zegt dat ze “geïrriteerd” was door de gang van zaken. Ze herinnert zich dat OpenAI aanvankelijk bijzonder geïnteresseerd leek in Mumsnet vanwege de grotendeels door vrouwen geschreven inhoud van het platform. “Het zijn gespreksgegevens van zeer hoge kwaliteit”, zegt ze. “Het zijn 90 procent vrouwelijke gesprekken, wat vrij ongebruikelijk is.”

OpenAI heeft het afgelopen jaar een reeks datalicentieovereenkomsten gesloten met mediahuizen en -platforms, waaronder overeenkomsten met Vox Media, Atlantische OceaanAxel Springer, Time en WIRED-moederbedrijf Condé Nast, evenals platforms gevuld met gebruikersinhoud zoals Reddit. (Automattic, de eigenaar van WordPress.com en Tumblr, was eerder dit jaar ook in gesprek over licenties.) Omdat de details van die deals niet zijn bekendgemaakt, is het onduidelijk hoe groot hun corpus is.

Toen WIRED vroeg naar de omvang van de datasets die het in overweging zou nemen voor commerciële licenties, weigerde OpenAI die informatie te delen. Maar woordvoerster Kayla Wood benadrukt dat de partnerschappen van het bedrijf met uitgevers “gericht zijn op het weergeven van hun inhoud in onze producten en het genereren van verkeer naar hen.”