Wenn KI Ton ins Bild bringt

Wenn KI Ton ins Bild bringt
Wenn KI Ton ins Bild bringt
-

Das DeepMind-Labor von Google hat einen bedeutenden Durchbruch auf dem Gebiet der generativen künstlichen Intelligenz erzielt. Seine Forscher haben gerade ein System namens V2A entwickelt, das in der Lage ist, Soundtracks, Soundeffekte und Dialoge zu Videos zu produzieren.

Bisher konnten existierende KI-Modelle Videos erzeugen, blieben jedoch stumm und konnten keinen Ton zu ihrer Untermalung erzeugen. DeepMind hat es dank seines V2A-Systems geschafft, diese Lücke zu schließen, um „ Video-zu-Audio„. Dieser technologische Fortschritt könnte die Welt der audiovisuellen Produktion durchaus revolutionieren.

Das V2A-System basiert auf einem KI-Modell, das auf einem großen Datensatz bestehend aus Tönen, Dialogtranskripten und Videomaterial trainiert wird. Sehr fortgeschrittene Ausbildung, die es ihm ermöglicht, das zu analysieren Rohpixel eines Videos und erzeugen eine perfekte Tonbegleitung synchronisiert.

Ob musikalischer Soundtrack, Soundeffekte oder auch Dialoge, alles kann von dieser KI passend zu visuellen Inhalten erstellt werden. Und das Überraschendste ist, dass diese Audiogenerierung ohne vorherige Textbeschreibung durchgeführt werden kann.

Aktuelle Einschränkungen

Obwohl diese Technologie insbesondere im Bereich der audiovisuellen Denkmalpflege vielversprechende Perspektiven eröffnet, ist ihre Qualität noch nicht perfekt. DeepMind erkennt, dass es dem von seiner KI erzeugten Klangergebnis derzeit an Natürlichkeit und Realismus mangelt.

Das System hat insbesondere Schwierigkeiten, Videos zu verarbeiten, die beeinträchtigt sind oder Artefakte enthalten. Daher sind noch Verbesserungen erforderlich, bevor eine großflächige Verbreitung möglich ist. Tatsächlich plant DeepMind vorerst nicht, V2A der breiten Öffentlichkeit zugänglich zu machen.

Das Unternehmen möchte außerdem eingehende Bewertungen der Sicherheit und potenziellen ethischen Auswirkungen seines leistungsstarken Systems durchführen. Dies könnte leicht umgeleitet werden, um parodistische Inhalte zu produzieren, verleumderisch oder das Urheberrecht ohne Zustimmung der Rechteinhaber verletzen. Derzeit laufen Konsultationen mit Fachleuten für audiovisuelle Medien.

Arbeitsplätze im audiovisuellen Bereich sind bedroht

Über die technischen Herausforderungen hinaus werfen V2A und ähnliche Technologien Fragen nach ihrem zukünftigen Einfluss auf die Film- und audiovisuelle Industrie auf. Wenn diese Tools weit verbreitet wären, könnten sie dies möglicherweise tun bedrohen viele kreative Berufe im Zusammenhang mit der audiovisuellen Produktion.

Filmmusikkomponisten, Soundeffekte und Soundeffekt-Ersteller oder sogar Synchronschauspieler könnten sehen, dass ihre Dienste durch KI-Systeme, die diese Audioelemente automatisch generieren können, weitgehend überflüssig werden. A Gefahr von Dequalifizierung und massive Arbeitsplatzverluste würde dann über diesen Berufen schweben.

Angesichts dieser Bedrohungen muss die Branche einen regulatorischen und rechtlichen Rahmen für den Einsatz dieser Technologien vorbereiten und darüber nachdenken. Es müssen Maßnahmen zum Schutz der Beschäftigung und des geistigen Eigentums ergriffen werden.

Teilen Sie den Artikel:


Facebook


LinkedIn

Unser Blog wird von Lesern betrieben. Wenn Sie über Links auf unserer Website einkaufen, verdienen wir möglicherweise eine Affiliate-Provision.

-

PREV Android 15 Beta 3.1 verfügbar: mehrere wichtige Korrekturen
NEXT OpenAI führt kritisches GPT ein, um GPT-4 zu beheben