Stability AI kündigt die Einführung von Stable Diffusion 3 Medium an, einem leichten, aber leistungsstarken Open-Source-Text-to-Image-Modell

Stability AI kündigt die Einführung von Stable Diffusion 3 Medium an, einem leichten, aber leistungsstarken Open-Source-Text-to-Image-Modell
Stability AI kündigt die Einführung von Stable Diffusion 3 Medium an, einem leichten, aber leistungsstarken Open-Source-Text-to-Image-Modell
-

Im vergangenen Februar kündigte Stability AI seine beiden neuesten Text-zu-Bild-Modelle an: Stable Cascade und Stable Diffusion 3 sowie die Eröffnung der Warteliste für eine frühe Vorschau dieser neuesten Version seines Flaggschiffmodells. Das Startup hat kürzlich Stable Diffusion 3 (SD3) Medium veröffentlicht, ein Open-Source-Modell mit 2 Milliarden Parametern, das es als sein bislang ausgefeiltestes Bildgenerierungsmodell anpreist.

Die SD3-Familie umfasst Modelle mit 800 Millionen bis 8 Milliarden Parametern und bietet Benutzern eine Reihe von Optionen, die ihren spezifischen kreativen Anforderungen gerecht werden.

Kleinere Modelle wie SD3 Medium bieten eine ausgewogene Kombination aus Leistung, Zugänglichkeit und Effizienz. Sie lassen sich leichter recyceln und für bestimmte Anwendungsfälle weiterverarbeiten und sind für einen breiteren Benutzerkreis zugänglich, da sie mit Verbraucherhardware kompatibel sind.

SD3-Medium

Laut Stabilitäts-KI „Die geringe Größe des SD3-Mediums macht es perfekt für den Betrieb auf Consumer-PCs und Laptops sowie GPUs der Unternehmensebene.“.
Das zum Betrieb von Stable Diffusion Medium erforderliche Minimum beträgt tatsächlich nur 5 GB VRAM (Videospeicher). Stability AI empfiehlt dennoch 16 GB VRAM für eine wirklich komfortable und optimale Nutzung.

SD3 ist ein latentes Diffusionsmodell, das aus drei verschiedenen Text-Encodern (CLIP L/14, OpenCLIP bigG/14 und T5-v1.1-XXL), einem neuen multimodalen Diffusionstransformator-Modell (MMDiT) und einem 16-Kanal-Variations-Autoencoder besteht ( VAE-Modell ähnlich dem für Stable Diffusion XL verwendeten Modell

Modellleistung

Laut Stability AI zeichnet sich SD3 Medium durch seinen Fotorealismus, die Einhaltung von Eingabeaufforderungen, seine Fähigkeit zur Textgenerierung und die Möglichkeiten zur Feinabstimmung aus.

Es bietet mehrere wesentliche Verbesserungen:

  • Gesamtqualität und Fotorealismus : Stable Diffusion 3 Medium erzeugt Bilder von außergewöhnlicher Qualität mit präzisen Details, lebendigen Farben und realistischer Beleuchtung. Dank der Integration eines 16-Kanal-VAE gelingt es ihm, die typischen Herausforderungen von KI-Modellen zu meistern, einschließlich der Realität von Händen und Gesichtern;
  • Schnelles Verständnis : SD3 Medium kann lange und komplexe Eingabeaufforderungen verarbeiten und eignet sich hervorragend für den Umgang mit räumlichem Denken, kompositorischen Elementen, Aktionen und Stilen. Benutzer können Leistung und Effizienz mit drei integrierten Text-Encodern optimieren;
  • Typografie : Die Diffusion Transformer-Architektur erreicht eine unübertroffene Textqualität und reduziert Rechtschreib-, Kerning-, Buchstabenbildungs- und Abstandsfehler.
  • Ressourcenschonung : Stable Diffusion 3 Medium läuft dank seines geringen VRAM-Fußabdrucks perfekt auf Standard-Consumer-GPUs ohne Leistungseinbußen;
  • Feinabstimmung : Dieses Modell ist darauf ausgelegt, nuancierte Details aus kleinen Datensätzen zu absorbieren und eignet sich daher ideal für individuelle Anpassungen und spezifische Anwendungen.

Hier sind einige vom Modell generierte Bilder und ihre von Stability AI geteilten Eingabeaufforderungen:

Zusammenarbeit mit NVIDIA und AMD

Stability AI arbeitete mit NVIDIA zusammen, um die Leistung seiner Modelle, einschließlich Stable Diffusion 3 Medium, mithilfe von NVIDIA® RTX™- und TensorRT™-GPUs zu optimieren. TensorRT-optimierte Versionen bieten eine Leistungssteigerung von 50 % und sorgen so für beispiellose Effizienz.

Darüber hinaus hat AMD die Inferenz für Stable Diffusion 3 Medium für verschiedene Geräte optimiert, darunter die neuesten APUs, Consumer-GPUs und MI-300X Enterprise-GPUs von AMD, um branchenführende Kompatibilität und Leistung für eine breite Palette von Geräten sicherzustellen.

Zugänglichkeit und Lizenzen

Stable Diffusion 3 Medium ist ein Open-Source-Modell, das unter der Stability Non-Commercial Research Community-Lizenz veröffentlicht wurde und das Engagement von Stability AI für offene generative KI bekräftigt. Für die kommerzielle Nutzung können Künstler, Designer und Entwickler für 20 US-Dollar pro Monat auf eine neue Creator-Lizenz upgraden. Für Unternehmen, die eine groß angelegte kommerzielle Nutzung anstreben, bietet Stability AI geeignete Lizenzen an und lädt Sie ein, sich für weitere Einzelheiten mit ihnen in Verbindung zu setzen.

Probieren Sie Stable Diffusion 3 aus

Stable Diffusion 3 Medium ist jetzt über eine von Fireworks AI unterstützte API verfügbar. Benutzer können auch andere Versionen der Stable Diffusion 3-Serie, wie SD3 Large und SD3 Ultra, mit einer dreitägigen kostenlosen Testversion auf dem Stable Assistant-Chatbot und auf Discord über Stable Artisan ausprobieren.

-

NEXT OpenAI führt kritisches GPT ein, um GPT-4 zu beheben