Die bildgebende KI von xAI leistet … und stört

xAI stellte im Dezember 2024 ein neues Bilderzeugungsmodell mit hochentwickelten fotorealistischen Fähigkeiten vor. Ohne Einschränkungen.

Die Zeiten, in denen wir Deepfakes von echten Fotos unterscheiden konnten, scheinen vorbei zu sein. Aurora, die neue künstliche Intelligenz von xAI, wurde am 9. Dezember 2024 eingeführt und kann ohne Sicherheitsfilter fotorealistische Bilder von Persönlichkeiten erzeugen. Neben dem Verzicht auf Leitplanken gelingt es dem Modell dank eines ungewöhnlichen technologischen Ansatzes, beeindruckend realistische fotorealistische Bilder zu erzeugen. Erläuterungen.

xAI gibt die latente Diffusion auf

Es ist eine Beobachtung: xAI beginnt sich in der generativen KI-Landschaft einen Namen zu machen. Nach der Vorstellung von Grok 2, einem LLM mit nahezu modernster Leistung, entwickelten die Teams aus Elon Musks KI-Labor Aurora, indem sie sich von der traditionellen Architektur der Text-zu-Bild-Modelle verabschiedeten. Im Gegensatz zu Midjourney, Dall-E oder Firefly basiert Aurora nicht auf einer latenten Diffusionsarchitektur, sondern auf einer MoE-Basis (Mixture-of-Experts), die normalerweise zur Entwicklung von LLMs verwendet wird.

Konkreter liegt der Unterschied in der Art und Weise, wie die Modelle das Bild konstruieren. Modelle mit latenter Diffusion gehen von zufälligem Rauschen aus, das sie nach und nach entstören, um das gewünschte Bild hervorzubringen. Aurora hingegen baut das Bild sequentiell, Token für Token, auf, ähnlich wie ein LLM Text Wort für Wort generiert. Die MoE-Architektur könnte es dem Modell insbesondere ermöglichen, abhängig von den Aspekten des zu erzeugenden Bildes unterschiedliche spezialisierte Experten hinzuzuziehen: Ein Experte könnte sich auf Gesichter konzentrieren, ein anderer auf Texturen und wieder ein anderer auf die Gesamtkomposition.

Im Gegensatz zu anderen Modellen, die diese Daten separat verarbeiten, wurde Aurora auch an einem Datensatz trainiert, der Text und Bilder mischt. xAI zaubert „Milliarden“ von Bildern und Texten aus dem Web. Der Datensatz besteht höchstwahrscheinlich aus Bildern und Texten, die von

Besseres Verständnis von Eingabeaufforderungen

Die Verwendung eines autoregressiven Modells (in diesem Fall eines MoE) ist nicht neu. Die Technik stammt direkt aus der Arbeit von OpenAI im Jahr 2020 an ImageGPT (einem Bildgenerator, der bereits auf einem Transformer basiert). Obwohl sich die Modelleditoren von diesem Ansatz abgewendet haben, scheint er ein Comeback zu erleben. Die neueste Version von Gemini (Gemini Flash 2.0) scheint einen ähnlichen Ansatz zu verfolgen, indem sie die Generierung von Text und anderen Modalitäten (Bild und Audio) vereinheitlicht.

Dieser Ansatz bietet konkrete Vorteile gegenüber herkömmlichen Modellen (Dall-E, Midjourney, Stable Diffusion usw.). Durch den sequenziellen Aufbau des Bildes wie Text demonstriert Aurora ein besseres Verständnis von Eingabeaufforderungen und generiert konsistentere Details. Wenn ein Benutzer beispielsweise nach „einer rotbraunen Katze mit weißen Pfoten“ fragt, sorgt das Modell durch den schrittweisen Aufbau des Bildes für eine bessere Konsistenz mit den in der Eingabeaufforderung angeforderten Details.

Aufforderung: „Eine rote Katze mit weißen Pfoten“. © Aurora / Grok

Der Einsatz autoregressiver Modelle eignet sich besonders gut für die Textgenerierung in Bildern. Schilder, Logos und Aufschriften sind mittlerweile einwandfrei lesbar, wohingegen Diffusionsmodelle oft verzerrte oder unleserliche Zeichen erzeugen.

Eingabeaufforderung: „Eine Papierzeitung mit dem Titel: „JOURNAL DU NET““. © Aurora / Grok

Beispielloser Fotorealismus

Die Stärke von Aurora liegt zweifellos im Realismus der erzeugten Bilder. Das Modell eignet sich besonders gut für die Generierung von Gesichtern und komplexen Szenen und weist eine bemerkenswerte Konsistenz bei Details und Texturen auf. Das Modell ist in der Lage, Persönlichkeiten bis zur völligen Freiheit des Ausdrucks perfekt wiederzugeben.

Beispielsweise ist es möglich, falsche Begegnungen zwischen verschiedenen historischen Persönlichkeiten zu generieren. Beispiel unten mit dem fiktiven Treffen zwischen Donald Trump, Elon Musk und Wladimir Putin.

Aufforderung: „Ein Foto, das ein Treffen zwischen Donald Trump, Elon Musk und Wladimir Putin auf den Champs-Élysées in Paris zeigt.“ © Aurora / Grok

Noch beunruhigender ist die Möglichkeit, gefälschte historische Archivbilder zu erstellen. Beispiel unten mit dem fiktiven Treffen von Nikola Tesla und Elon Musk im Jahr 1940.

Eingabeaufforderung: „Archivbild von 1940 in Schwarzweiß. Nikola Tesla trifft Elon Musk.“ © Aurora / Grok

Eine weitere interessante Möglichkeit besteht darin, dass das xAI-Modell urheberrechtlich geschützte Logos perfekt reproduzieren kann. Im Folgenden gelingt es uns beispielsweise, Aurora dazu zu bringen, sich ein Auto mit dem Kering-Logo vorzustellen.

Aufforderung: „Ein modernes und elegantes Auto mit dem Kering-Logo auf der Motorhaube.“ © Aurora / Grok

Rechtliche Risiken

Zusammenfassend lässt sich sagen, dass die Verwendung von Aurora im beruflichen Kontext große Vorsicht erfordert. Im Gegensatz zu anderen Bilderzeugungsmodellen auf dem Markt (Midjourney, DALL-E, Firefly) verfügt Aurora derzeit nicht über Sicherheitsfilter, die die Erstellung sensibler oder geschützter Inhalte einschränken.

Darüber hinaus hat X die Lizenzierung der über Aurora in Grok generierten Bilder nicht geklärt. Mit der bevorstehenden Einführung einer dedizierten API durch xAI sollen präzisere kommerzielle Nutzungsbedingungen einhergehen, die den Weg für eine überwachte professionelle Nutzung des Modells ebnen.

xAI gibt die latente Diffusion auf

Besseres Verständnis von Eingabeaufforderungen

Beispielloser Fotorealismus

Rechtliche Risiken

Related posts