ChatGPT – Teil 5: Urheberrechtliche Fragen beim Training generativer KI

Der gegenwärtig erreichte hohe Reifegrad generativer KI-Modelle wie ChatGPT, DallE oder Midjourney lässt die Grenze zwischen humanen Werken und künstlichen Erzeugnissen verschwimmen. Solche KI-Systeme können allerdings auch nur dann gleichwertige Ergebnisse erzielen, wenn sie mit einer Vielzahl vorbestehender Werke menschlichen Ursprungs trainiert wurden. Damit stellen „Schöpfungen“ der KI-Software auch das Urheberrecht vor neue Herausforderungen. Aus dem Training und der Verwendung generativer KI ergeben sich mehrere Fragestellungen:

Welche urheberrechtlich relevanten Handlungen lassen sich durch das Training einer KI identifizieren?
Welche lizenzrechtlichen Anforderungen ergeben sich daraus?
Sind die Erzeugnisse generativer KI schutzfähig im Sinne des Urheberrechts?
Welche Folgen hat die Verbreitung KI-generierter Erzeugnisse in verfahrensrechtlicher Sicht?

In diesem fünften Teil meiner Artikelserie untersuche ich die urheberrechtlichen Fragen beim Training von generativen KI-Modellen.

Nutzung bestehender Werke

Sobald urheberrechtlich geschützte Werke in das Training einer KI involviert sind, stellt sich die Frage, ob eine relevante Nutzungshandlung festzustellen ist. Hierbei kommt es darauf an, wie der Vorgang des Anlernens einer KI ausgestaltet ist und auf welche Weise der KI die notwendigen Informationen vermittelt werden, um die gewünschte Funktionalität zu erlangen.

Bei einer reinen Rezeption von Werken, also dem Erfassen der zugrundeliegenden Informationseinheiten, handelt es sich nicht um eine urheberrechtlich relevante Nutzung. Wenn ein Werk aber zum Anlernen einer KI z.B. in eine Datenbank kopiert wird, handelt es sich um eine urheberrechtlich relevante Vervielfältigung. Wenn dieses Werk in Form von Trainingsdaten auch im Internet zur Verfügung gestellt wird, ist zudem das Recht der öffentlichen Zugänglichmachung betroffen.

Kann eine KI Werke vervielfältigen?

Grundsätzlich nehmen generative KI-Modelle keine urheberrechtlich relevante Vervielfältigung, Bearbeitung oder Umgestaltung vor. Vielmehr werden die im Werk enthaltenen Informationen lediglich als mathematische Werte verarbeitet. So ist etwa ChatGPT nicht in der Lage, Textpassagen wörtlich wiederzugeben. Allerdings sollte man im Einzelfall immer im Blick behalten, ob eine generative KI nicht doch bestimmte Werke oder Teile hiervon originalgetreu wiedergeben kann. Das würde indizieren, dass auch eine dauerhafte Vervielfältigung des betroffenen Elements z.B. in der zur KI gehörenden Datenbank vorgenommen wurde.

Möglich erscheint auch, dass eine KI rein zufällig ein bestehendes Werk nachzeichnet und somit vervielfältigt. Außerdem ist nicht immer nur das Werk in seiner konkreten Gestalt urheberrechtlich geschützt. Auch die Grundstruktur einer Geschichte und ihr wesentliches Handlungsgeflecht können schutzfähig sein. Dies kann auch schon für eine literarische Figur gelten.

Wann sind Vervielfältigungen gestattet?

In der Praxis können Werke als Trainingsdaten häufig erst dann zu guten Ergebnissen führen, wenn sie entsprechend aufbereitet werden. Hierfür können Vervielfältigungen von geschützten Werken erforderlich sein. Sofern im Rahmen des automatisierten Auswertens lediglich flüchtige Kopien von Werken erstellt werden und diese bloß der Erfassung des Informationsgehalts dienen, sind solche Vervielfältigungen gestattet. Hiervon sind insbesondere die Fälle des sogannten Cachings erfasst. Eine eigenständige wirtschaftliche Bedeutung ist dabei auch nicht anzunehmen.

Allerdings kann es erforderlich sein, dass Werke für Trainingszwecke erst in ein maschinenlesbares Format umgewandelt oder digitalisiert werden müssen. Wenn dies dazu dient, daraus automatisiert Informationen zu gewinnen, ist die Anfertigung von Vervielfältigungen zulässig. Diese müssen allerdings rechtmäßig zugänglich sein und sind zu löschen, sobald sie nicht mehr benötigt werden. Eine Aufbewahrung ist lediglich für Forschungsorganisationen erlaubt. Gegen solche Vervielfältigungen im Wege des sog. Text und Data Minings kann ein Vorbehalt erklärt werden, welcher bei online verfügbaren Werken in maschinenlesbarer Form erklärt werden muss. Fraglich ist allerdings, welche Anforderungen an die Maschinenlesbarkeit zu stellen sind.

Weitere Schrankenbestimmungen werden in Bezug auf das Training einer KI jedoch aus verschiedenen Gründen nicht in Betracht kommen können. Die Anwendbarkeit einiger Schranken kann etwa schon daran scheitern, dass diese lediglich einzelne Vervielfältigungsstücke gestatten, was dem Wesen des Trainings einer KI anhand von Big Data nicht entspricht. Häufig wird es aber insbesondere an dem gesetzlich vorausgesetzten Zweck für die Privilegierung der Vervielfältigung in Form der Schrankenregelung fehlen, wie zum Beispiel in Bezug auf Parodie oder Pastiche.

Wir unterstützen Sie dabei, relevante Entwicklungen im IT-Recht im Blick zu behalten beraten bei allen Aspekten rund um die Digitalisierung und den Einsatz von KI und Legal Tech. Dabei helfen wir ihnen, Themen zu identifizieren und vertraglich zu regeln.

Bisher erschienen:

Dr. Daniel Kögel,
Fachanwalt für Urheber- und Medienrecht
koegel@web-partner.de