Wikilegal/Urheberrechtsanalyse von ChatGPT

This page is a translated version of the page Wikilegal/Copyright Analysis of ChatGPT and the translation is 100% complete.

Einführung

Anfang 2023 löst der kreative Charakter neuer KI-Werkzeuge Diskussionen über die aktuellen US-Gesetze aus, die auf sie anwendbar sein könnten. Dabei geht es vor allem um Einschränkungen, die nur von Menschen geschaffenen Werken Urheberrechtsschutz gewähren. ChatGPT ist ein zentraler Teil dieser Diskussion. Als maschinelles Lernprogramm wurde ChatGPT anhand mehrerer Texte aus unterschiedlichen Quellen trainiert, von denen viele offene Texte unter der Lizenz Creative Commons waren, darunter auch Wikipedia. Dieser Artikel zielt darauf ab, zu analysieren, wie ChatGPT und andere ähnliche Werkzeuge mit den aktuellen US-Urheberrechtsgesetzen interagieren. Da es sich jedoch um ein sich entwickelndes Thema handelt und zum Zeitpunkt der Veröffentlichung noch mehrere Fälle anhängig waren, ist dieser Artikel wahrscheinlich veraltet, wenn er viel später als zum Zeitpunkt seiner Erstellung gelesen wird.

Einige andere Gerichtsbarkeiten, wie etwa das Vereinigte Königreich, vertreten in dieser Angelegenheit eine völlig andere Ansicht.

Was ist ChatGPT?

ChatGPT ist ein KI-Sprachmodell, das von OpenAI entwickelt und im November 2022 eingeführt wurde. Es besteht aus einem maschinellen Lernprogramm, das in einem Dialog mit Nutzern interagiert und es ihnen ermöglicht, Fragen in einfacher Sprache zu nahezu jedem Thema zu stellen. Auf diese Fragen generiert es Antworten in scheinbar natürlicher Sprache mithilfe eines statistischen Modells, das auf seinen Trainingsdaten basiert. Als KI-Sprachmodell kann ChatGPT für verschiedene Zwecke eingesetzt werden, darunter zum Beantworten von Fragen, zum Generieren von Texten, zum Übersetzen von Sprachen und mehr. Aufgrund der statistischen Natur seines Modells liefert es jedoch manchmal eine falsche Antwort auf eine Frage oder “halluziniert” Material, das nicht existiert.

Wie funktioniert ChatGPT?

ChatGPT nutzt maschinelle Lernalgorithmen, um aus großen Textmengen zu lernen und kontextgerechte Antworten auf Nutzereingaben zu generieren. Während des Trainings wurde ChatGPT mit einer riesigen Textmenge aus verschiedenen Quellen wie Büchern, Artikeln und Websites konfrontiert. Durch dieses Verfahren wurde das Sprachmodell so programmiert, dass es Textmuster erkennt und passende Vervollständigungen für einen gegebenen Eingabekontext generiert. Dieser Prozess wird als “unüberwachtes Lernen” bezeichnet, da der Algorithmus Muster aus unmarkierten Daten lernte, das heißt aus Daten, denen er ausgesetzt war, ohne explizit angewiesen zu werden. Wenn ein Nutzer eine Frage eingibt, generiert das Modell daher eine Antwort basierend auf der Sprache und dem Kontext der Eingabe.

ChatGPT verarbeitet Text, indem es ihn in Token aufteilt, die ungefähr die Größe eines Morphems haben, und versucht, mithilfe je eines Token auf einmal, was ungefähr einem Morphem auf einmal entspricht, die wahrscheinlichsten Vervollständigungen des Eingabetexts vorherzusagen. ChatGPT kann auf Eingaben in vielen natürlichen und konstruierten Sprachen, einschließlich Programmiersprachen, reagieren.

Auf KI-Systeme anwendbare Urheberrechtsgesetze

Nach dem US-amerikanischen Urheberrecht sind Werke, die ausschließlich von maschinellen Lernprogrammen erstellt wurden, nicht geschützt, da diese keine Rechtspersönlichkeit besitzen und nach geltendem Recht keine Rechte besitzen. Dies kann jedoch unter Umständen der Fall sein, wenn die Urheber einen erheblichen menschlichen Beitrag nachweisen und daher argumentieren können, dass ihr Werk urheberrechtlich geschützt ist. In anderen Fällen werden urheberrechtlich geschützte Daten zum Trainieren dieser Modelle verwendet. Die folgenden Fragen untersuchen diese Szenarien genauer.

Können urheberrechtlich geschützte Werke zum Trainieren von KI-Modellen verwendet werden?

Der erste Themenkomplex rund um Künstliche Intelligenz und Urheberrecht betrifft die Daten, mit denen diese Modelle trainiert werden. Die meisten dieser Systeme nutzen Inhalte aus dem gesamten Web, darunter persönliche Blogs, Kunstplattformen, Online-Enzyklopädien und mehr. Der Grund für die Verwendung einer so großen Menge an Inhalten ohne Lizenz liegt darin, dass die Verwendung dieser Bilder in den USA unter die Fair-Use-Doktrin fällt.[1] Für diese Analyse ist es wichtig zu klären, dass die Fair-Use-Doktrin nur in den USA und einigen anderen Rechtsräumen gilt, die Fair Use anerkennen, und dass ihre Anwendbarkeit in anderen Rechtssystemen abweichen kann. Nach dieser Rechtsdoktrin ist die Verwendung urheberrechtlich geschützten Materials unter bestimmten Umständen ohne Genehmigung erlaubt, solange sie einer gesellschaftlich nützlichen Aktivität wie Kritik, Berichterstattung, Forschung und Wissenschaft dient.

Das Rechtsteam der Foundation hat bereits eine Einführung zum Thema Fair Use veröffentlicht. Für diese Diskussion relevant ist, dass bei der Bestimmung, ob es sich um Fair Use handelt, verschiedene Faktoren berücksichtigt werden, darunter Zweck und Art der Nutzung, die Art des urheberrechtlich geschützten Werks, Umfang und Wesentlichkeit des verwendeten Teils im Verhältnis zum Gesamtwerk sowie die Auswirkungen auf den potenziellen Markt oder den Wert des urheberrechtlich geschützten Werks.[2] Mit anderen Worten: Diese Faktoren fragen danach, ob die Nutzung eine sozial nützliche Aktivität fördert, ob das Werk veröffentlicht oder unveröffentlicht ist, wie kreativ es ist, welcher Anteil des Originalwerks verwendet wurde und ob das Fair-Use-Werk das urheberrechtlich geschützte Werk ergänzt oder ersetzt.

In der Vergangenheit wurde großflächiges Kopieren als Fair Use eingestuft. Dazu gehören die massenhafte Reproduktion von Bildern für Bildsuchergebnisse und das Abrufen von Buchfragmenten zur digitalen Archivierung. Es gibt jedoch einige wesentliche Unterschiede zwischen dem Training eines Programms wie ChatGPT und diesen früheren Präzedenzfällen. Insbesondere berücksichtigt Fair Use die kommerziellen Auswirkungen und den Ersatz der Originalwerke, ein Thema, das im Zusammenhang mit KI-Werkzeugen noch erforscht wird. Sollte sich herausstellen, dass ChatGPT oder ähnliche Programme die zu ihrem Training verwendeten Werke ersetzen und so die kommerzielle Nutzung dieser Werke beeinträchtigen, ist es möglich, dass sie nicht als Fair Use eingestuft werden.

In diesem Zusammenhang ist es wichtig zu beachten, dass Creative-Commons-Lizenzen die freie Vervielfältigung und Wiederverwendung erlauben. KI-Programme wie ChatGPT könnten daher Text aus einem Wikipedia-Artikel oder ein Bild von Wikimedia Commons kopieren. Es ist jedoch noch unklar, ob das massive Kopieren von Inhalten aus diesen Quellen einen Verstoß gegen die Creative-Commons-Lizenz darstellt, wenn die Namensnennung nicht erfolgt. Insgesamt ist es in Anbetracht der aktuellen Präzedenzfälle wahrscheinlicher, dass Trainingssysteme mit urheberrechtlich geschützten Daten in den USA unter das Fair-Use-Prinzip fallen. Zum Zeitpunkt der Erstellung dieses Beitrags besteht jedoch erhebliche Unsicherheit.

Können KI-Ausgaben urheberrechtlich geschützt werden und wenn ja, wem gehören die Inhalte?

Ein zweites Problem betrifft die Möglichkeiten, die mit den Ergebnissen von KI-Programmen genutzt werden können. Im September 2022 erteilte das US Copyright Office erstmals Urheberrechte für Kunstwerke, die mithilfe von KI-gestützter latenter Diffusion erstellt wurden.[3] Am 22. Februar 2023 überdachte das USCO jedoch den von ihm gewährten Urheberrechtsschutz für Kunstwerke, die von Midjourney, einem KI-Bildgenerator, der Bilder aus Texteingaben erzeugt, erstellt wurden.[4] In seiner Entscheidung stellte das USCO fest, dass die Bilder “nicht das Produkt menschlicher Urheberschaft” seien. Die Entscheidung basierte hauptsächlich darauf, dass die Ergebnisse zufällig und nicht im Voraus bestimmbar waren. Für das USCO bedeutete dies, dass es sich nicht um das Werk menschlicher Urheberschaft, sondern um einen zufälligen mechanischen Prozess handelte. Für das USCO erfordert das Urheberrecht nach US-amerikanischem Recht ausreichend menschliche Kreativität und es beschloss daher, die Registrierung zu annullieren. Einige Wochen später veröffentlichte das US Copyright Office detaillierte Richtlinien, die seine Verfahren zur Prüfung und Registrierung von Werken erläutern, die Material enthalten, das mithilfe von künstlicher Intelligenz erstellt wurde.[5]

Geht man jedoch davon aus, dass manche Werke das Ergebnis origineller und kreativer menschlicher Urheberschaft sein könnten, müssen bei der Entscheidung, wem das urheberrechtlich geschützte Werk gehört, mehrere Elemente berücksichtigt werden:

Das Urheberrecht schließt Arbeiten im Bereich der künstlichen Intelligenz nicht ausdrücklich aus. Nach dem Copyright Act muss jedes Werk jedoch die folgenden Kriterien erfüllen:[6]

  • Originalwerke der Urheberschaft.
  • In einem greifbaren Medium fixiert.
  • Ein minimales Maß an Kreativität.

Wenn ein Kunstwerk nicht alle drei Voraussetzungen erfüllt, hat es keinen Anspruch auf Urheberrechtsschutz, auch wenn es von einem Menschen stammt.

Das Urheberrecht liegt beim Urheber, sodass dieser über die ausschließlichen Rechte verfügt, über die zukünftige Verwendung seines Werks zu entscheiden.

Vor diesem Hintergrund bestehen einige Bedenken hinsichtlich der Eigentumsverhältnisse an KI-generierten Werken. Insbesondere könnten Ansprüche wegen Urheberrechtsverletzung auf Grundlage der in die KI eingegebenen urheberrechtlich geschützten Kunstwerke geltend gemacht werden, was die Rechte der Urheberrechtsinhaber verletzen könnte. In diesem Zusammenhang sind einige Überlegungen anzustellen, insbesondere wenn das endgültige KI-Ergebnis das Urheberrecht eines bestehenden Werks verletzt. Daher ist die Anwendung des Standards der wesentlichen Ähnlichkeit relevant, da er hilft festzustellen, ob ein Autor ein bestehendes urheberrechtlich geschütztes Werk reproduziert hat, selbst wenn seine Schöpfung nicht mit dem ursprünglichen geschützten Werk identisch ist.

Es gibt keine Formel, um festzustellen, ob eine wesentliche Ähnlichkeit vorliegt. Stattdessen prüfen Gerichte in der Regel den Sachverhalt und die Kreativität, die in den Prozess einfließt. Allerdings ist nicht jedes Kopieren strafbar. Beispielsweise ist das Kopieren nur kleiner Teile eines Werks, wenn die kopierten Teile gemeinfrei sind, legal.[7] Insgesamt zielt der Test darauf ab, das Kopieren eines geschützten Werks im Wesentlichen zu verhindern.

Ein weiterer wichtiger Aspekt ist, dass KI häufig Reproduktionen urheberrechtlich geschützter Werke enthält, die zur Schaffung neuer Kunstwerke verwendet werden. Ein solches neues Werk könnte eine nicht autorisierte Ableitung sein und somit eine Urheberrechtsverletzung darstellen. Auch die unberechtigte Speicherung von Kopien urheberrechtlich geschützter Werke stellt eine Urheberrechtsverletzung dar.

In einigen Fällen kann der Eigentümer der KI für die Rechtsverletzung haftbar gemacht werden, wenn die Schuld an der Rechtsverletzung bei ihm zu liegen scheint.

Dies führt zu einer ungewöhnlichen Rechtslage: Da KI-generierte Kunstwerke nach geltendem Recht nicht urheberrechtlich geschützt sind, haben vermutlich weder der Nutzer noch das KI-Unternehmen Rechte an dem Kunstwerk. Verletzt das Ergebnis jedoch das Urheberrecht eines bestehenden Werks, ist es möglich, dass der Nutzer oder das KI-Unternehmen für die Rechtsverletzung haftbar gemacht werden.

Urheberrechtliche Bedenken bei modifizierten KI-generierten Bildern

Wenn ein KI-Modell anhand von Millionen von Bildern trainiert und zur Generierung neuer Bilder verwendet wird, stellt dies in den USA möglicherweise keine Urheberrechtsverletzung dar, sofern die Trainingsmethode dem Fair Use entspricht. Unter Berücksichtigung der jüngsten USCO-Entscheidung ist es jedoch möglich, dass ein Mensch, der ein KI-generiertes Werk modifiziert, das Urheberrecht an seiner Modifikation eines gemeinfreien KI-Werks besitzt. Dies würde den Standardregeln für abgeleitete Werke folgen, wobei die Hauptfrage ist, ob die menschlichen Modifikationen ausreichend kreativ sind, um für ein eigenes Urheberrecht in Frage zu kommen.

Zusammenfassung

Für weitere Informationen siehe substantial similarity.

Angesichts der aktuellen Diskussion, dass ChatGPT und andere KI-Plattformen mit Inhalten aus Wikimedia-Projekten, darunter Wikipedia-Artikel und Bilder der freien Kultur, trainiert und zur Erstellung von Werken verwendet werden könnten, ist es wichtig, die vielfältigen möglichen rechtlichen Konsequenzen zu verstehen. Bisher sind alle Möglichkeiten offen, da wichtige Fälle zu KI und Urheberrecht noch ungeklärt sind. Die Trennung und das Verständnis der Ausgabe- und Eingabefragen ist jedoch möglicherweise der erste Schritt zur Gestaltung der Zukunft von KI-Werken. Mit anderen Worten: Es ist entscheidend zu klären, ob das, was ein KI-Modell erstellt, urheberrechtlich geschützt werden kann und ob urheberrechtlich geschützte Daten zum Trainieren von KI-Modellen verwendet werden können. Wir ermutigen die Wikimedia-Communitys, diese Themen bei der Überprüfung von KI-Werken in den Projekten und der Entwicklung neuer Richtlinien für den Einsatz dieser Werkzeuge zu berücksichtigen.

Einzelnachweise

  1. “17 U.S. Code § 107 - Limitations on Exclusive Rights: Fair Use.” Legal Information Institute. Accessed March 22, 2023. https://www.law.cornell.edu/uscode/text/17/107
  2. “Copyright and Fair Use: A Guide for the Harvard Community,” Office of the General Counsel, February 16, 2023, https://ogc.harvard.edu/pages/copyright-and-fair-use#:~:text=Fair%20use%20is%20the%20right,law%20is%20designed%20to%20foster.
  3. Adam Schrader, “NYC Artist Granted First Known Registered Copyright for AI Art,” United Press International, September 24, 2022, https://www.upi.com/Top_News/US/2022/09/24/nyc-artist-granted-first-known-registered-copyright-ai-art/4081664063008/.
  4. “Zarya of the Dawn.” Reuters. United States Copyright Office, February 21, 2023. https://fingfx.thomsonreuters.com/.
  5. Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, U.S. Copyright Office. Federal Register. 88 FR 16190. 2023-05321. March 16, 2023. https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence
  6. U.S. Congress. United States Code: Copyright Office, 17 U.S.C. §§ 201-216. 1958. Periodical. https://www.loc.gov/item/uscode1958-004017003/.
  7. Balganesh, Shyamkrishna and Manta, Irina D. and Wilkinson-Ryan, Tess, Judging Similarity (2014). 100 Iowa Law Review 267 (2014), U of Penn Law School, Public Law Research Paper No. 14-15, Hofstra Univ. Legal Studies Research Paper No. 2014-09, Available at SSRN: https://ssrn.com/abstract=2409811