Um zu wachsen, greift generative KI auf Bücher zurück

type="image/webp">>

Ein Mann geht vor einem Schild, auf dem es um künstliche Intelligenz (KI) geht, während der Frankfurter Buchmesse, Deutschland, 16. Oktober 2024. (AFP / Kirill KUDRYAVTSEV)

Wahrung des Urheberrechts durch Verhandlungen mit Plattformen: Angesichts des ständig wachsenden Bedarfs an generativer künstlicher Intelligenz beginnt auch die Verlagswelt, Verträge mit ihren Stakeholdern abzuschließen, um ihre Inhalte zu monetarisieren.

Der große amerikanische Verlag HarperCollins hat gerade einigen seiner Autoren einen Vertrag mit einem Unternehmen für künstliche Intelligenz (KI) – dessen Identität vertraulich ist – angeboten, der es diesem erlaubt, ihre veröffentlichten Werke zu verwenden, um sein generatives künstliches Intelligenzmodell zu trainieren.

In einem von AFP konsultierten Brief bietet das KI-Unternehmen 2.500 US-Dollar pro ausgewähltem Buch, um sein Sprachmodell (LLM) über einen Zeitraum von drei Jahren zu trainieren.

Denn um auf eine einfache Abfrage hin alle Arten von Inhalten in Alltagssprache produzieren zu können, müssen generative KI-Modelle mit immer größeren Datenmengen gefüttert werden.

Der Verlag wurde kontaktiert und bestätigte den Vorgang. „HarperCollins hat mit einem Technologieunternehmen für künstliche Intelligenz eine Vereinbarung getroffen, um die eingeschränkte Nutzung bestimmter Titel (…) zum Trainieren von KI-Modellen zu erlauben, um die Qualität und Leistung der Modelle zu verbessern“, schreibt er.

Der Verlag erklärt außerdem, dass die Vereinbarung „die Herstellung von Modellen klar regelt, die das Urheberrecht respektieren“.

Allerdings wurde das Angebot in der Verlagsbranche unterschiedlich bewertet und Autoren wie der Amerikaner Daniel Kibblesmith lehnten es scharf ab: „Ich würde es wahrscheinlich für eine Milliarde Dollar machen. Ich würde es für eine Geldsumme machen, die ich nicht mehr benötige.“ zu funktionieren, denn das ist das Endziel dieser Technologie“, empörte sich der Autor im sozialen Netzwerk Bluesky.

– Neue Materialien –

type="image/webp">
>

Ein Stand, der ein weit aufgeschlagenes Buch darstellt, auf der Frankfurter Buchmesse, Deutschland, 17. Oktober 2024. (AFP / Kirill KUDRYAVTSEV)

Wenn HarperCollins bislang einer der größten Verlage ist, der eine solche Vereinbarung getroffen hat, ist es nicht der erste. Der amerikanische Verlag für wissenschaftliche Bücher Wiley gewährte „einem großen Technologieunternehmen für 23 Millionen US-Dollar Zugang zum Inhalt akademischer und professioneller Bücher, die speziell für die Verwendung in Trainingsmodellen veröffentlicht wurden“, gab er im März dieses Jahres bei der Präsentation seiner Finanzergebnisse bekannt.

Diese Art der Zusammenarbeit verdeutlicht die Probleme, die mit der Entwicklung generativer künstlicher Intelligenz verbunden sind, die auf riesigen Datenmengen basiert, die im Internet gesammelt werden, was zu potenziellen Urheberrechtsverletzungen führen kann.

Für Giada Pistilli, Leiterin der Ethikabteilung bei Hugging Face, einer französisch-amerikanischen Open-Access-KI-Plattform, ist diese Ankündigung ein Fortschritt, da der Inhalt der Bücher monetarisiert wird. Sie bedauert jedoch einen begrenzten Verhandlungsspielraum für die Autoren.

„Was wir sehen werden, ist ein Mechanismus für bilaterale Vereinbarungen zwischen neuen Technologieunternehmen und Herausgebern oder Urheberrechtsinhabern, während wir meiner Meinung nach ein breiteres Gespräch brauchen, um etwas mehr Interessengruppen einzubeziehen“, sagt sie.

„Wir fangen bisher an“, kommentiert Julien Chouraqui, der Rechtsdirektor der französischen Verlagsgewerkschaft (SNE). „Das ist ein Fortschritt: Die Tatsache, dass es eine Vereinbarung gibt, bedeutet, dass es einen Dialog und den Wunsch gegeben hat, ein Gleichgewicht zwischen der Nutzung von Quelldaten, die Rechte unterliegt, und der Wertschöpfung zu erreichen“, sagt er.

Angesichts dieser Fragen organisieren sich auch Presseverleger. Ende 2023 leitete die amerikanische Tageszeitung The New York Times ein Verfahren gegen OpenAI, den Erfinder der ChatGPT-Software, sowie Microsoft, seinen Hauptinvestor, wegen Urheberrechtsverletzung ein. Andere Medien haben Vereinbarungen mit OpenAI getroffen.

Technologieunternehmen haben möglicherweise keine andere Wahl mehr, um ihre Produkte zu verbessern, als tief in die Materie einzutauchen, insbesondere da ihnen allmählich die neuen Materialien für den Antrieb der Modelle ausgehen.

Die amerikanische Presse berichtete kürzlich, dass die neuen Modelle in der Entwicklung offenbar an ihre Grenzen gestoßen seien, insbesondere bei Google, Anthropic und OpenAI.

„Im Internet sammelt man legale und illegale Inhalte sowie viele Raubkopien. Das stellt ein rechtliches Problem dar. Ohne das Problem der Datenqualität zu vergessen“, bemerkt Julien Chouraqui vom SNE: „Wenn wir die Entwicklung ernst nehmen.“ Um einen Markt auf positiver Grundlage zu gestalten, ist es daher notwendig, alle Akteure einzubeziehen.

Related posts