Vana is van plan gebruikers hun Reddit-gegevens te laten verhuren om AI te trainen

In het generatieve AI-boom, data zijn de nieuwe olie. Dus waarom kun je de jouwe niet verkopen?

Van grote technologiebedrijven tot startups: AI-makers verlenen licenties voor e-books, afbeeldingen, video, audio en meer van datamakelaars, allemaal in hun streven naar training voor capabelere (en juridisch verdedigbare) op AI gebaseerde producten. Shutterstock heeft contracten met Meta, Google, Amazon en Apple om miljoenen afbeeldingen te leveren voor modeltraining, terwijl OpenAI contracten heeft getekend met verschillende nieuwsorganisaties om zijn modellen te trainen in nieuwsarchieven.

In veel gevallen hebben de individuele makers en eigenaren van die gegevens nog nooit een cent geld van eigenaar zien wisselen. Een startup genaamd Vana wil daar verandering in brengen.

Anna Kazlauskas en Art Abal, die elkaar ontmoetten in een klas aan het MIT Media Lab gericht op het bouwen van technologie voor opkomende markten, waren in 2021 medeoprichter van Vana. Vóór Vana studeerde Kazlauskas informatica en economie aan MIT, en ging uiteindelijk een fintech-startup lanceren automatisering, Iambiq, uit Y Combinator. Abal is van opleiding en opleiding bedrijfsjurist en werkte als medewerker bij The Cadmus Group, een in Boston gevestigd adviesbureau, voordat hij leiding gaf aan influencers bij data-annotatiebedrijf Appen.

Samen met Vana wilden Kazlauskas en Abal een platform bouwen waarmee gebruikers hun gegevens – inclusief gesprekken, stemopnames en foto’s – kunnen ‘samenvoegen’ tot datasets die vervolgens kunnen worden gebruikt om een generatief AI-model te trainen. Ze willen ook meer gepersonaliseerde ervaringen creëren – bijvoorbeeld een dagelijkse motiverende voicemail op basis van uw welzijnsdoelen of een kunstgenererende app die uw stijlvoorkeuren begrijpt – door openbare modellen op die gegevens af te stemmen.

“De infrastructuur van Vana creëert feitelijk een schat aan gegevens die eigendom zijn van gebruikers”, vertelde Kazlauskas aan TechCrunch. “Het doet dit door gebruikers in staat te stellen hun persoonlijke gegevens op een niet-gepatenteerde manier samen te voegen… Vana stelt gebruikers in staat AI-modellen te bezitten en hun gegevens in AI-toepassingen te gebruiken.”

Hier ziet u hoe Vana zijn platform en API aan ontwikkelaars presenteert:

De Vana API verbindt de persoonlijke gegevens van gebruikers over meerdere platforms… zodat u uw app kunt personaliseren. Uw app krijgt direct toegang tot het gepersonaliseerde AI-model of de kerngegevens van de gebruiker, waardoor de onboarding wordt vereenvoudigd en zorgen over computerkosten worden geëlimineerd… We vinden dat gebruikers hun persoonlijke gegevens uit omliggende tuinen zoals Instagram, Facebook en Google naar uw app moeten kunnen overbrengen, dus u kunt een verbluffende persoonlijke ervaring creëren vanaf de eerste keer dat een gebruiker interactie heeft met uw gebruikers-AI-toepassing.

Een account aanmaken bij Van is vrij eenvoudig. Nadat je je e-mailadres hebt geverifieerd, kun je gegevens aan je digitale avatar toevoegen (zoals selfies, zelfbeschrijvingen en spraakopnamen) en apps verkennen die zijn gebouwd met Vana’s platform en datasets. De keuze aan apps varieert van chatbots in ChatGPT-stijl en interactieve verhalenboeken tot scharnierprofielgeneratoren.

Afbeeldingscredits: Vana

Waarom zou je je misschien afvragen – in dit tijdperk van toegenomen bewustzijn van gegevensprivacy en ransomware-aanvallen – zou iemand ooit vrijwillig zijn persoonlijke gegevens overdragen aan een anonieme startup, laat staan aan een startup die deze onderneming steunt? (Vana heeft tot nu toe 20 miljoen dollar opgehaald bij Paradigm, Polychain Capital en andere geldschieters.) Kan men er werkelijk op vertrouwen dat een op winst gericht bedrijf de gegevens waarmee het geld genereert, niet misbruikt of verkeerd gebruikt?

Afbeeldingscredits: Vana

In antwoord op die vraag benadrukte Kazlauskas dat het hele punt van Vana is dat gebruikers “de controle over hun gegevens terugnemen”, waarbij hij opmerkte dat Vana-gebruikers de mogelijkheid hebben om hun gegevens zelf te hosten in plaats van deze op Vana-servers op te slaan en te controleren hoe hun gegevens worden gebruikt en gedeeld met applicaties en ontwikkelaars. Ze voerde ook aan dat, omdat Vana geld verdient door gebruikers een maandelijks abonnement in rekening te brengen (beginnend bij $ 3,99) en ontwikkelaars een vergoeding voor ‘datatransacties’ in rekening brengt (bijvoorbeeld om datasets over te dragen om AI-modellen te trainen), het bedrijf geen prikkel heeft om gebruikers te exploiteren en de stapels persoonlijke gegevens die ze met zich meedragen.

“We willen modellen creëren die eigendom zijn van en beheerd worden door de gebruiker en die allemaal hun eigen data bijdragen”, zegt Kazlauskas, “en gebruikers in staat stellen hun data en modellen mee te nemen naar elke applicatie.”

Nu, dokter Vana verkoopt geen gebruikersgegevens aan bedrijven om generatieve AI-modellen te trainen (zo beweert het), maar wil gebruikers het zelf laten doen als ze dat willen – te beginnen met hun Reddit-berichten.

Deze maand lanceerde Vana wat het de Reddit Data DAO (Digital Autonomous Organization) noemt, een programma dat de Reddit-gegevens van meerdere gebruikers verzamelt (inclusief hun karma en postgeschiedenis) en hen samen laat beslissen hoe die gecombineerde gegevens zullen worden gebruikt. Nadat ze lid zijn geworden van een Reddit-account, een verzoek hebben ingediend bij Reddit voor hun gegevens en die gegevens hebben geüpload naar de DAO, krijgen gebruikers het recht om samen met andere DAO-leden te stemmen over beslissingen zoals het licentiëren van gecombineerde gegevens aan generatieve AI-bedrijven voor wederzijds voordeel. .

We hebben de cijfers gemist. ir/datadao is nu de grootste data-DAO in de geschiedenis: Fase 1 verwelkomde 141.000 Reddit-gebruikers met 21.000 volledige data-uploads.

— r/datadao (@rdatadao) 11 april 2024

Het is een soort reactie op de recente stappen van Reddit om gegevens op zijn platform te commercialiseren.

Reddit heeft niet eerder de toegang tot berichten en communities geopend met het oog op generatieve AI-training. Maar eind vorig jaar veranderde hij de koers, voorafgaand aan de beursintroductie. Sinds de beleidswijziging heeft Reddit ruim 203 miljoen dollar aan licentiekosten verdiend van bedrijven, waaronder Google.

‘Een breed idee [with the DAO is] om gebruikersgegevens vrij te maken van grote platforms die deze willen verzamelen en er geld mee willen verdienen”, aldus Kazlauskas. “Dit is een eerste en onderdeel van onze inspanning om mensen te helpen hun gegevens te bundelen in datasets van gebruikers om AI-modellen te trainen.”

Het is niet verwonderlijk dat Reddit – dat in geen enkele officiële hoedanigheid met Van samenwerkt – niet tevreden is met The DAO.

Reddit verbood Vana’s subreddit gewijd aan het bespreken van The DAO. En een woordvoerder van Reddit beschuldigde Vana ervan haar data-exportsysteem te ‘uitbuiten’, dat is ontworpen om te voldoen aan regelgeving op het gebied van gegevensprivacy, zoals de AVG en de California Consumer Privacy Act.

“Onze dataregelingen stellen ons in staat bescherming te bieden tegen dergelijke entiteiten, zelfs tegen openbare informatie”, vertelde een woordvoerder aan TechCrunch. “Reddit deelt geen niet-openbare, persoonlijke informatie met commerciële bedrijven, en wanneer Redditors een export van hun gegevens bij ons aanvragen, ontvangen zij niet-openbare persoonlijke informatie van ons in overeenstemming met de toepasselijke wetgeving. Directe partnerschappen tussen Reddit en doorgelichte organisaties, met duidelijke voorwaarden en verantwoordelijkheden, vragen, en deze partnerschappen en overeenkomsten voorkomen misbruik en misbruik van de gegevens van mensen.”

Maar heeft Reddit enige reden tot bezorgdheid?

Kazlauskas voorspelt dat de DAO zo groot wordt dat het invloed heeft op het bedrag dat Reddit gebruikers in rekening kan brengen voor zijn gegevens. Dat is een gok, ervan uitgaande dat het ooit gebeurt; De DAO heeft iets meer dan 141.000 leden, een klein deel van de 73 miljoen gebruikers van Reddit. En sommige van die leden kunnen bots of dubbele accounts zijn.

Dan is er de vraag hoe de betalingen die de DAO mogelijk ontvangt van datakopers eerlijk moeten worden verdeeld.

Momenteel kent The DAO “tokens” – cryptocurrency – toe aan gebruikers die overeenkomen met hun Reddit-karma. Maar karma is misschien niet de beste maatstaf voor de kwaliteitsbijdrage aan een dataset, vooral niet in kleinere Reddit-gemeenschappen met minder mogelijkheden om deze te verdienen.

Kazlauskas brengt het idee naar voren dat DAO-leden ervoor zouden kunnen kiezen om hun platformonafhankelijke en demografische gegevens te delen, waardoor de DAO mogelijk waardevoller wordt en aanmeldingen worden aangemoedigd. Maar het zou ook vereisen dat gebruikers nog meer vertrouwen tonen in Van om op verantwoorde wijze met hun gevoelige gegevens om te gaan.

Persoonlijk zie ik niet dat Wana’s DAO een kritische massa bereikt. Er staan te veel obstakels in de weg. Ik denk echter dat dit niet de laatste poging zal zijn om controle te krijgen over de data die steeds vaker worden gebruikt om generatieve AI-modellen te trainen.

Startups als Spawning werken aan manieren om videomakers regels op te leggen die bepalen hoe hun gegevens worden gebruikt voor trainingen, terwijl leveranciers als Getty Images, Shutterstock en Adobe blijven experimenteren met compensatieregelingen. Maar nog niemand heeft de code gekraakt. Kan het zelfs zijn gebarsten? Gezien het moordende karakter van de generatieve AI-industrie is dat zeker een hele opgave. Maar misschien vindt iemand een manier – of zullen beleidsmakers het forceren.