ChatGPT – Teil 12: Die Bedeutung der Data-Mining-Schranke beim Training von KI

Beim Training sind KI-Modelle wie ChatGPT auf umfangreiche Datensätze angewiesen. Diese Daten umfassen häufig urheberrechtlich geschützte Werke, von Texten bis hin zu Bildern und Musik. Nachdem das Urheberrecht das kreative Schaffen schützt und Rechteinhabern sowie Verwertern umfassende Rechte gewährt, während umgekehrt generative KI diese Bereiche jedenfalls in Teilen zu substituieren droht, stellt sich im Kontext der KI die Frage: Inwieweit ist das Training von KI-Modellen mit diesen Werken rechtlich zulässig?

Die Urheberrechtsschranke des § 44b

Wer die umfassenden Nutzungsrechte an den Werken hält, darf diese zum Training einer KI nutzen. Das ist in der Praxis bei großen Datenmengen allerdings selten der Fall oder lässt sich nicht immer eindeutig klären. Wie sieht es aber mit Werken aus, an denen der Trainer einer KI keine Nutzungsrechte besitzt? In bestimmten Grenzen ist auch dann eine Nutzung von Daten ohne die Zustimmung der Urheber möglich. Die sogenannte Text- und Data-Mining-Schranke des § 44b Urheberrechtsgesetz (UrhG) erlaubt auch im kommerziellen Bereich vorübergehende Vervielfältigungen zur automatisierten Analyse von digitalen oder digitalisierten Werken; nur für Forschungseinrichtungen gilt die besondere Privilegierung des § 60d UrhG. Auf den ersten Blick scheinen diese Regelungen ideal für das Training von KI-Modellen. Doch auch Schranken gelten nicht unbegrenzt, das trifft insbesondere auch auf den §44b UrhG zu. Die Nutzung von geschützten Werken ist schon nur unter bestimmten Voraussetzungen möglich: Die Werke müssen rechtmäßig zugänglich sein und der Rechteinhaber darf sich die Nutzung nicht wirksam vorbehalten haben. Zudem müssen die Vervielfältigungen nach Gebrauch gelöscht werden.

Die Grenzen der Schrankenregelung

Die Realität des KI-Trainings zeigt, dass viele Anwendungsfälle nicht klar durch die bestehende Schrankenregelung gedeckt sind. Insbesondere generative KI-Systeme bewegen sich in einem rechtlichen Graubereich. Die Vorschrift des § 44b UrhG wurde im Jahr 2021 als Umsetzung der DSM-RL und damit zu einem Zeitpunkt verfasst, als die spezifischen Herausforderungen und Möglichkeiten generativer KIs noch nicht antizipiert wurden. Seinerzeit fand diese Regelung keine nennenswerte Beachtung; erhöhte Aufmerksamkeit erhielt die Schranke des § 44b UrhG erst im Jahr 2023, im Nachgang zum unvermittelt auftretenden Erfolg von ChatGPT ab Ende 2022.

Während § 44b UrhG Text- und Data-Mining zu Forschungs- und Analysezwecken erlaubt, bleibt unklar, inwieweit diese Erlaubnis die umfangreiche Nutzung von urheberrechtlich geschützten Daten auch für das Training generativer KI-Modelle abdeckt. Der Prozess des KI-Trainings überschreitet oft die Grenzen der „vorübergehenden“ Nutzung, besonders wenn die Modelle ständig aktualisiert und neu trainiert werden.

Problematisch ist hieran, dass generative KI-Systeme nicht nur auf die automatisierte Analyse zwecks Informationsgewinnung beschränkt sind, sondern mit diesen auch die Replizierbarkeit der stilistischen Eigenarten vorbestehender Werke zwecks Erschaffung eigenständiger neuer Erzeugnisse angestrebt wird. Ob dies unionsrechtlichen Vorgaben standhält, ist zweifelhaft. Die DSM-RL selbst verlangt die Einhaltung des Drei-Stufen-Tests und somit, dass die reguläre Verwertbarkeit geschützter Werke erhalten bleiben muss. Diese wird durch generative KI aber gerade gefährdet.

Zugänglichkeit und Nutzungsrechte von Daten

Der Begriff „rechtmäßig zugänglich“ in der Schrankenregelung wirft ebenfalls Fragen auf. Denn im Internet ist die Rechtmäßigkeit der Zugänglichkeit von Inhalten oft schwer zu bestimmen. Darüber hinaus ist die Frage der Nutzungsrechte komplex, insbesondere wenn Daten aus verschiedenen Quellen stammen, die unterschiedliche Lizenzvereinbarungen haben.

Internationale Unterschiede im Urheberrecht

KI-Modelle werden oft mit Daten trainiert, die aus verschiedenen Ländern und damit Rechtsordnungen stammen. Die Unterschiede in den Urheberrechtsregelungen, insbesondere das Fehlen einer universellen „Fair Use“-Regelung außerhalb der USA, schaffen eine rechtliche Unsicherheit für Entwickler und Unternehmen. Und selbst in den USA ist umstritten, ob die „Fair Use“-Schranke auf das Training generativer KI Anwendung findet.

Die Rolle von Open Source und Public Domain

Während Open-Source- und Public Domain-Daten eine wertvolle Ressource für das KI-Training darstellen, ist nicht immer klar, welche Werke sicher verwendet werden können. Nicht alles, was online frei verfügbar ist, darf automatisch für das Training von KI verwendet werden.

Auch bei der automatisierten Datensammlung durch Crawler und andere Technologien zur Datenerfassung für das KI-Training müssen Nutzungsvorbehalte beachtet werden, die Rechteinhaber möglicherweise nach § 44b Abs. 3 S. 1 UrhG erklärt haben. Die Wirksamkeit dieser Vorbehalte und die Verantwortung der KI-Entwickler sind jedoch nicht immer klar definiert.

Fazit

Diese Grenzbereiche zeigen, dass die derzeitigen urheberrechtlichen Rahmenbedingungen nicht vollständig auf die Anforderungen und Realitäten der KI-Entwicklung abgestimmt sind und insbesondere das Training generativer KI-Modelle im Geltungsbereich des UrhG ohne umfassende Lizenzierung – die faktisch nicht zu erreichen ist – unzulässig sein dürfte. Es bedarf einer fortlaufenden Diskussion und möglicherweise einer Gesetzesreform, um einen ausgewogenen Ansatz zu finden, der sowohl die Rechte der Urheber schützt als auch den technologischen Fortschritt fördert. Die Entwicklung von klaren Richtlinien und eventuell neuen Rechtsnormen, die speziell auf die Herausforderungen des KI-Trainings zugeschnitten sind, wird für die Zukunft der KI-Entwicklung entscheidend sein. Unabhängig davon sollten sich Unternehmen z.B. die Frage stellen, ob sie ihre Verträge mit ihren Angestellten und Auftragnehmern anpassen und sich spezifische Trainingsrechte an deren Werken einräumen lassen. Die sich im Detail stellenden Herausforderungen sind schon aus urheberrechtlicher Sicht mannigfach.

Bisher erschienen:

Dr. Daniel Kögel,
Fachanwalt für Urheber- und Medienrecht
koegel@web-partner.de