eine Goldmine für Unternehmen der künstlichen Intelligenz

Tuesday 26th November 2024 06:33 AM

Da der Einsatz künstlicher Intelligenztechnologien immer weiter verbreitet wird, entsteht eine Debatte über die Legitimität bestimmter Praktiken. Die massive Nutzung von Untertiteln aus Filmen und Serien zum Trainieren dieser KI wirft Fragen zur Achtung des Urheberrechts auf. In diesem Zusammenhang werden mehrere große Technologieunternehmen hervorgehoben.

Verwendung von Untertiteln zum Trainieren von Sprachmodellen

Seit mehreren Jahren nutzen Giganten wie Apple, Meta, Nvidia und Salesforce erhebliche Datenmengen, um ihre Sprachmodelle zu perfektionieren. Zu diesen Daten gehören Untertitel aus einer Vielzahl von Filmen und Fernsehserien. Verschiedenen Quellen zufolge ermöglichen diese Dialogwiederholungen den Modellen, die menschliche Sprache auf kolossale Weise zu imitieren, über akademische oder journalistische Texte hinaus.

Diese Methode basiert insbesondere auf der Aufnahme von Untertiteln in Datenbanken wie z Der Haufengehostet auf OpenSubtitles.org. Diese Plattform bietet mehr als 53.000 Filme und 85.000 Serienepisoden und stellt damit eine umfangreiche Bibliothek für KI-Entwickler dar.

Die betroffenen Unternehmen und ihre Vorgehensweise

Es wurde festgestellt, dass mehrere Unternehmen diese Methode verwenden. Dies ist insbesondere der Fall beiAnthropischdas diese Untertitel für seinen direkten ChatGPT-Konkurrenten Claude verwendet. Meta und Apple tun dasselbe, um ihre LLM- bzw. OPT-Modellfamilien zu entwickeln. Auch andere Player wie Nvidia, Bloomberg und EleutherAI nutzen diese Datenmasse, um ihre Fähigkeiten im Bereich der künstlichen Intelligenz zu stärken.

Alle diese Unternehmen sind bestrebt, Systeme zu entwickeln, die natürlichere und menschlichere Dialoge ermöglichen. Tatsächlich ist „gut schreiben“ eine seltene Ressource in der Welt der KI-Trainingsdaten. Daher bietet der Rückgriff auf schriftliche Dialoge für Untertitel einen wertvollen Einblick in die Nuancen und Rhythmen, die für gesprochene Gespräche charakteristisch sind.

Eine umstrittene Verwendung und Quelle rechtlicher Konflikte

Allerdings ist diese Ausbeutung nicht unumstritten. Gegen die belasteten Unternehmen wurden mehrere Klagen eingereicht, denen die unerlaubte Nutzung urheberrechtlich geschützter Werke vorgeworfen wird. Drehbuchautoren, Autoren und Verlage behaupten Verletzungen ihrer Rechte. Der Schöpfer von Breaking Bad, Vince Gilligan, bezeichnete die Praxis vor dem US-amerikanischen Urheberrechtsamt als „außerordentlich komplexes und energieintensives Plagiat“.

Zu ihrer Verteidigung behaupten die Unternehmen, dass die Schulung von KI-Systemen an urheberrechtlich geschützten Werken eine faire Nutzung darstelle, obwohl diese Behauptung noch auf eine endgültige rechtliche Validierung wartet. Aus urheberrechtlicher Sicht könnten Gerichte Untertitel als abgeleitete Werke betrachten und somit den gleichen Schutz vor rechtswidriger Vervielfältigung und Verbreitung genießen.

Die Rolle von Untertiteln bei der KI-Leistung

Warum diese besondere Untertitelauswahl? Weil sie eine rohe und wesentliche Form des schriftlichen Dialogs darstellen. Im Gegensatz zu Lehrbüchern oder wissenschaftlichen Artikeln erfassen Bildunterschriften den Ablauf, den Ton und den Rhythmus menschlicher Gespräche genau. Dies ermöglicht es Chatbots, die auf diesen Daten basieren, eine Sprache zu erzeugen, die natürlich menschlich klingt.

Der Beitrag der Untertitel endet hier nicht. Diese Textfragmente werden auch verwendet, um automatisch generierte Antworten in verschiedenen Kontexten zu modulieren – im Fernsehen, im Kino und sogar im Bildungsbereich. Sie helfen künstlichen Intelligenzen, ihr sprachliches Repertoire zu bereichern und gehen über die großen literarischen Klassiker hinaus, um die Vielfalt aktueller verbaler Interaktionen darzustellen.

Die Position der ursprünglichen Schöpfer

Leider stellt diese Verwendung von Untertiteln ein ethisches und rechtliches Dilemma dar. Einerseits profitieren Entwickler und Forscher von einer Fülle kostenloser und zugänglicher sprachlicher Informationen. Andererseits sehen Autoren und Urheber, dass ihre Werke ohne ihr Wissen und ohne angemessene Vergütung genutzt werden.

Eine Meinung teilen auch die Vertreter britischer Autoren (WGGB), die eine strenge Regulierung und die Einführung einer Entschädigung für die von dieser Praxis betroffenen Urheber fordern. Sogar einige Ersteller von Datensätzen, wie etwa Jörg Tiedemann, äußern Bedenken hinsichtlich des Missbrauchs ihres ursprünglichen Beitrags, der als nützlich erachtet wird, nun aber als invasiv für den Kreativmarkt gilt.