AI-taalmodellen getraind met teksten van Stephen King en andere grote auteurs

Overig
maandag, 21 augustus 2023 om 12:50
1h1l9wyifolcznmwdlyni1ngl2x
Een verbijsterend schandaal heeft aan het licht gebracht dat kunstmatige intelligentie (AI) taalmodellen, inclusief ChatGPT, werden gevoed met meer dan 170.000 illegaal verkregen boeken, waaronder de werken van de wereldberoemde auteur Stephen King. Deze openbaring heeft geleid tot opschudding in de literaire wereld en werpt belangrijke vragen op over ethiek en auteursrechten in AI-ontwikkeling.

Het gebruik van gestolen boeken in AI-training

AI-taalmodellen vereisen enorme hoeveelheden tekst voor training, en terwijl sommige bronnen, zoals Wikipedia, gratis beschikbaar zijn, zijn ook hoogwaardige teksten nodig om de modellen realistischer te maken. Schrijvers hadden al langer het vermoeden dat hun werken zonder toestemming werden gebruikt voor AI-training, en nu is er tastbaar bewijs van deze praktijk. De gestolen boeken waren onderdeel van een dataset genaamd 'Books3', die werd gebruikt door AI-modellen van bedrijven als Meta en Microsoft.
mmd1hnuvazfc4iuvjcnbrhdnekr 1140x570
Still 'The Shining' via TMDB

Literaire grootheden in de greep van AI

Deze dataset, afkomstig uit 'The Pile', een enorme tekstverzameling ontwikkeld door EleutherAI, bevatte niet alleen werken van bekende auteurs zoals Stephen King en Zadie Smith, maar ook diverse andere tekstbronnen. Het blijft echter onduidelijk welke bedrijven deze dataset hebben gebruikt, omdat deze lange tijd vrij beschikbaar was.

Auteursrechtelijke strijd

Shawn Presser, de maker van 'Books3', had de dataset juist gecreëerd om te voorkomen dat grote bedrijven een monopolie zouden vormen op AI-ontwikkeling. EleutherAI heeft nu beloofd een versie van 'The Pile' te ontwikkelen met uitsluitend gelicentieerde documenten. Dit schandaal legt een diepgaande kloof bloot tussen AI-ontwikkelaars en auteurs. Sommige AI-experts pleiten voor een uitgebreide vorm van 'fair use' om auteursrechtelijk beschermd materiaal op te nemen in AI-training. Anderen stellen voor dat auteurs moeten aangeven dat hun werk niet mag worden gebruikt, in plaats van andersom.
Genoten van het artikel? Trakteer ons op een (virtuele) koffie of steun The Nerd Shepherd door ons te volgen via Facebook, Twitter en Instagram!