Die Magier von NVIDIA haben gerade eine Technologie vorgestellt, die die Audiowelt erschüttern wird. Sein Spitzname? Fugattoein Modell der künstlichen Intelligenz, das jeden Ton auf einfache Textanfrage hin buchstäblich umwandelt.
Diese vielseitige KI kann alle Arten von Geräuschen jonglieren: Stimmen, Musik, Soundeffekte … Es kann neue Klänge erzeugen, bestehende Klänge modifizieren oder sogar völlig neue Klänge erfinden, die es in der Natur nicht gibt.
Haben Sie davon geträumt, eine Trompete miauen zu lassen? Ihrer Stimme einen italienischen Akzent verleihen? Oder vielleicht Ihre alte Akustik-Demo in einen aufgeladenen Elektro-Track verwandeln? Also Fugatto kann es und noch viel mehr!
Das Prinzip ist überraschend einfach: Sie liefern Audio und/oder eine Textbeschreibung dessen, was Sie wollen, und die KI kümmert sich um den Rest. Du könntest ihn zum Beispiel fragen: „Lassen Sie diese Gitarre so klingen, als würde sie unter Wasser gespielt” oder “Verwandeln Sie diese Stimme in die eines melancholischen Roboters“. Und das Faszinierendste ist das Fugatto versteht diese poetischen Anweisungen perfekt!
Was diese Technologie wirklich unglaublich macht, ist ihre Vielseitigkeit, denn im Gegensatz zu anderen KI-Modellen, die entweder auf Musik (Hallo Suno) oder auf Stimme spezialisiert sind, Fugatto zeichnet sich in allen Bereichen aus. Alle Tests zeigen, dass es spezialisierten Modellen bei ihren jeweiligen Aufgaben gleichkommt oder diese übertrifft und gleichzeitig eine hervorragende Flexibilität bietet.
Die Einsatzmöglichkeiten sind endlos… Musikproduzenten werden in der Lage sein, schnell Prototypen für verschiedene Arrangements zu erstellen, Videospielentwickler werden in der Lage sein, dynamische Klanglandschaften zu erzeugen, die sich an das Spielgeschehen anpassen, Werbeagenturen werden in der Lage sein, ihre Spots einfach mit unterschiedlichen Akzenten anzupassen und App-Entwickler werden in der Lage sein, für Zauberer personalisierte Vocals zu erstellen .
Die wahre technische Leistungsfähigkeit von Fugatto liegt in seiner Fähigkeit, Anweisungen zu verfassen, die er während seiner Ausbildung noch nie zusammen gesehen hat. Sie können ihn beispielsweise bitten, den Klang eines Gewitters zu erzeugen, der sich nach und nach in Vogelgezwitscher oder Elektromusik verwandelt.
Diese Vielseitigkeit basiert auf einer ausgefeilten Architektur mit 2,5 Milliarden Parametern, trainiert auf mehr als 50.000 Stunden Audiodaten. Das Forscherteam unter der Leitung von Rafael Valle entwickelte einen innovativen Ansatz namens ComposableARTwas eine genaue Kontrolle über jeden Aspekt der Audioerzeugung ermöglicht.
Diese Technologie profitiert außerdem von einer Interpolationsfunktion, die eine präzise Messung der Intensität der Effekte ermöglicht. Möchten Sie eher einen leichten Marseille-Akzent als einen starken? Oder eine Stimme, die allmählich von fröhlich zu traurig wechselt? Dieses Modell kann dies mit bemerkenswerter Finesse.
Die Vielfalt des internationalen Teams, das diese Technologie entwickelt hat, mit Forschern aus Indien, Brasilien, China, Jordanien und Südkorea, hat wesentlich zur Mehrsprachigkeit und Multiakzentfähigkeit des Modells beigetragen. Ich hätte das Ding gerne getestet, aber NVIDIA hat noch keinen öffentlichen Veröffentlichungstermin bekannt gegeben… JA!
Es gibt jedoch bereits andere Alternativen: Meta bietet ein Open-Source-Audio-Entwicklungskit an und Google verfügt über ein eigenes Text-zu-Musik-Modell namens MusicLM.
Du wirst es verstanden haben, Fugatto ist ein großer Durchbruch, der die Art und Weise, wie wir Klang erzeugen und manipulieren, sicherlich verändern wird. Ich freue mich wirklich darauf, es auszuprobieren!
Erfahren Sie mehr über Fugatto
Related News :