OpenAI beweert dat het 'onmogelijk' is om ChatGPT te trainen zonder auteursrechtelijk beschermd werk

2023 markeerde de opkomst van generatieve kunstmatige intelligentie, en 2024 zou het jaar kunnen zijn waarin de makers ervan rekening houden met de technologische gevolgen van een industriebrede wapenwedloop. Momenteel ontkent OpenAI op agressieve wijze de beweringen van recente rechtszaken dat zijn producten, waaronder ChatGPT, illegaal zijn getraind in auteursrechtelijk beschermde teksten. Bovendien doet het bedrijf een aantal gedurfde juridische beweringen over waarom hun programma’s toegang zouden moeten hebben tot het werk van anderen.

[Related: Generative AI could face its biggest legal tests in 2024.]

In een blogpost die op 8 januari werd gepubliceerd, beschuldigde OpenAI dit De New York Times over “niet het hele verhaal vertellen” in een grote auteursrechtzaak die eind vorige maand werd aangespannen door een mediabedrijf. In plaats daarvan beweert OpenAI dat het schrappen van onlinewerken onder de reikwijdte van ‘fair use’ valt. Het bedrijf beweert verder dat het momenteel samenwerkt met verschillende nieuwsorganisaties (met uitzondering van onder meer De tijden) over partnerschappen met datasets, en doet elke “terugslag” van auteursrechtelijk beschermd materiaal af als een “zeldzame bug” waaraan ze werken. Dit wordt toegeschreven aan problemen met het ‘onthouden’ die vaker voorkomen als inhoud meerdere keren in de trainingsgegevens voorkomt, bijvoorbeeld als deze op ‘veel verschillende openbare websites’ kan worden gevonden.

“Het principe dat AI-modeltraining toelaatbaar is als fair use wordt breed gedragen [people and organizations]”, schreven vertegenwoordigers van OpenAI maandag in een post, met een link naar opmerkingen die onlangs door verschillende academici, startups en makers van inhoud bij het US Copyright Office zijn ingediend.

In een steunbrief ingediend door Duolingo schreef het softwarebedrijf voor het leren van talen bijvoorbeeld dat het van mening is dat “uitvoer gegenereerd door AI die is getraind op auteursrechtelijk beschermd materiaal niet automatisch als inbreukmakend moet worden beschouwd – net zoals een werk van een menselijke auteur dat ook niet zou doen. louter als inbreukmakend beschouwd omdat de menselijke auteur leerde schrijven door auteursrechtelijk beschermde werken te lezen.” (Maandag bevestigde Duolingo dat Bloomberg heeft ongeveer 10 procent van zijn aannemers ontslagen, onder verwijzing naar de toenemende afhankelijkheid van AI.)

27 december De New York Times heeft zowel OpenAI als Microsoft (dat momenteel de GPT van eerstgenoemde gebruikt in producten als Bing) aangeklaagd wegens inbreuk op het auteursrecht. Gerechtsdocumenten ingediend door De tijden beweren dat OpenAI zijn generatieve technologie zonder toestemming of compensatie heeft getraind op miljoenen artikelen in de publicatie. Producten als ChatGPT worden nu naar verluidt gebruikt in plaats van hun bronmateriaal, ten nadele van het mediabedrijf. Als meer lezers kiezen voor AI-nieuwsoverzichten, betekent dit waarschijnlijk dat minder lezers zich zullen abonneren op feeds, beweren ze De tijden.

De New York Times de rechtszaak is slechts de laatste in een reeks soortgelijke rechtszaken wegens schending van het auteursrecht, waaronder een namens beroemde schrijvers en een andere voor beeldende kunstenaars.

Ondertussen lobbyt OpenAI bij overheidstoezichthouders over hun toegang tot auteursrechtelijk beschermd materiaal. Volgens De Telegraaf Op 7 januari werd in een recente brief van OpenAI aan het Britse House of Lords for Communications and Digital Media betoogd dat toegang tot auteursrechtelijk beschermd materiaal essentieel is voor het succes en de productrelevantie van het bedrijf.

“Aangezien het auteursrecht vandaag de dag bijna elk type menselijke expressie omvat – inclusief blogposts, foto’s, forumposts, stukjes softwarecode en overheidsdocumenten – zou het onmogelijk zijn om de toonaangevende kunstmatige intelligentiemodellen van vandaag te trainen zonder auteursrechtelijk beschermd materiaal te gebruiken”, schreef hij. OpenAI in de brief, terwijl hij ook betoogt dat het beperken van trainingsgegevens tot werk in het publieke domein “een interessant experiment zou kunnen opleveren, maar geen AI-systemen zou bieden die voldoen aan de behoeften van de hedendaagse burgers.” In de brief staat dat het deel uitmaakt van OpenAI’s “missie om ervoor te zorgen dat kunstmatige algemene intelligentie de hele mensheid ten goede komt”.

Ondertussen waren sommige critici er snel bij om de bewering van OpenAI te bespotten dat het bestaan van het programma het gebruik van auteursrechtelijk beschermde werken van anderen vereist. Op het sociale mediaplatform Bluesky vergeleek historicus en auteur Kevin M. Kruse de OpenAI-strategie met het verkopen van illegaal verkregen spullen in een pandjeshuis.

“Ruwe vertaling: we hebben geen fantastisch gelijk als je ons niet laat stelen, dus maak van stelen alsjeblieft geen misdaad!” Kunstmatige intelligentie-expert Gary Marcus woog maandag ook op X.