MMAudio – Ein Tool zum Synchronisieren von Audio und Video

Forscher der University of Illinois in Urbana-Champaign und Sony AI haben gerade eine besonders beeindruckende technische Leistung auf dem Gebiet der generativen KI enthüllt. Tatsächlich rief ihr neues Projekt an MMAudio ermöglicht Ihnen die automatische Generierung von Soundtracks, die perfekt mit jedem Video synchronisiert sind.

Im Gegensatz zu den meisten bestehenden Lösungen, die Videos oft nur umständlich mit Soundeffekten überlagern, bietet MMAudio Innovationen durch einen multimodalen Ansatz, der Text und Video kombiniert. Das System analysiert parallel visuelle Inhalte und Textbeschreibungen, um genau zu verstehen, was auf dem Bildschirm passiert, und realistische und stimmige Töne zu erzeugen.

Hier ist eine Demo, die Videos ohne Ton zeigt, auf die dann MMAudio angewendet wurde:

Das Modell wurde auf mehreren großen Datensätzen trainiert, darunter AudioSet, Freesound, VGGSound und AudioCaps. Durch diesen multimodalen Trainingsansatz vermittelt MMAudio ein hervorragendes Verständnis der Zusammenhänge zwischen Bild und Ton und liefert weitaus bessere Ergebnisse als bisherige Lösungen.

Wenn Sie beispielsweise ein Video von Wellen zeigen, die auf einen Strand krachen, mit der Beschreibung „Wellengeräusch an einem einsamen Strand“, erzeugt MMAudio ein realistisches Brandungsgeräusch, das sorgfältig mit den Bewegungen des Wassers synchronisiert wird. Es ist nicht schlecht, oder?

Trotz seiner Komplexität bleibt die Installation von MMAudio einfach. So geht’s:

Klonen Sie das Repository:

git clone https://github.com/hkchengrex/MMAudio.git

Installieren Sie die Abhängigkeiten:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

Dann installieren Sie MMAudio:

cd MMAudio pip install -e .

Und schon sind Sie bereit, Ihre ersten Soundtracks zu erstellen!

Die große Stärke von MMAudio liegt in seiner Geschwindigkeit, da das System auf einer modernen GPU in der Lage ist, 8 Sekunden Audio in nur 1,23 Sekunden zu erzeugen.

Zur Anpassung an unterschiedliche Einsatzzwecke werden mehrere Varianten angeboten:

16-kHz-Version für „Standard“-Sounds
44,1-kHz-Version für CD-ähnliche Qualität
Verschiedene Modellgrößen (S, M, L) je nach gewünschter Leistung und Detaillierungsgrad

Die Einsatzmöglichkeiten von MMAudio erstrecken sich auf viele Bereiche. Beispielsweise würde das System im Bereich der Videoproduktion Inhalte automatisch mit passenden Soundscapes anreichern. Auch der Videospielbereich könnte von der Möglichkeit profitieren, reaktive Sounds zu erzeugen, die sich an die Aktionen des Spielers anpassen. Auch die virtuelle Realität wird wahrscheinlich von wirklich immersiven Audioumgebungen profitieren.

Allerdings unterliegt MMAudio wie jedes künstliche Intelligenzsystem bestimmten Einschränkungen. Die Erzeugung menschlicher Stimmen bleibt eine große Herausforderung und bedarf noch erheblicher Verbesserungen. Besonders komplexe Musikklänge können in der Qualität variieren und das System hat immer noch Schwierigkeiten, einige sehr spezifische Klangkonzepte wiederzugeben. Nach Angaben des Entwicklungsteams können diese Einschränkungen durch die Anreicherung der Trainingsdaten überwunden werden.

Aus ethischer Sicht haben die Macher von MMAudio einen verantwortungsvollen Ansatz gewählt. Sie entschieden sich dafür, den Quellcode offen und transparent zu gestalten und ihn mit einer ausführlichen Dokumentation zu versehen, in der die Fähigkeiten und Einschränkungen des Systems detailliert beschrieben werden. Vor der Veröffentlichung wurden umfangreiche Tests durchgeführt, wobei besonderes Augenmerk auf die Einhaltung der Lizenzen der verwendeten Datensätze gelegt wurde.

Wenn Sie nun Ihren Videos Ton hinzufügen möchten, finden Sie hier eine Online-Demo.

Vielen Dank an Lorenper für das Teilen dieser Entdeckung!

Quelle

Related posts