Stability AI veröffentlicht Stable Diffusion 3 Medium, ein kompaktes Bilderzeugungsmodell

Die Fortschritte in der generativen künstlichen Intelligenz gehen weiter. Das Start-up Stability AI setzt seine Bemühungen in diesem Bereich trotz seiner schlechten Finanzlage fort. Neueste Ankündigung: die Einführung von Stable Diffusion 3 (SD3) Medium, dem neuesten und fortschrittlichsten Text-Bild-KI-Modell der Stable Diffusion 3-Serie. Mit 2 Milliarden Parametern bietet dieses relativ kompakte Modell einige bemerkenswerte Funktionen.

Es ist in der Lage, Bilder mit Details, Farben und Beleuchtung zu liefern, die dem Fotorealismus nahekommen, mit einer Qualität in verschiedenen Stilrichtungen. Das Start-up führt diesen Erfolg auf Innovationen wie das 16-Kanal-VAE zurück, das unter anderem eine realistischere Darstellung von Händen und Gesichtern ermöglicht. Die Vorlage enthält auch lange und komplexe Textaufforderungen mit räumlichem Denken, Kompositionselementen, Aktionen und Stilen. Ein weiterer Vorteil: Textqualität. Stability AI bemerkt dank seiner Diffusion Transformer-Architektur weniger Rechtschreib-, Buchstabenbildungs- und Abstandsfehler.

Wir arbeiten Hand in Hand mit Nvidia und AMD an der Optimierung des Modells

Das britische Start-up hat außerdem eine strategische Fusion mit mehreren Technologieunternehmen vollzogen, um ein Qualitätsmodell anzubieten. Nvidia hat seine RTX- und TensorRT-GPUs zur Verfügung gestellt, um die Leistung aller Modelle des Unternehmens, einschließlich SD3 Medium, zu verbessern. „TensorRT-basierte Builds liefern die beste Leistung ihrer Klasse, was zu einer Leistungssteigerung von 50 % führt.“ zeigt Stabilitäts-KI an.

Parallel dazu übernahm AMD die Aufgabe, die Inferenz für SD3 Medium für verschiedene AMD-Geräte zu optimieren, darunter die neuesten APUs, Consumer-GPUs und MI-300X Enterprise-GPUs. Das Ergebnis: LLM ist ressourceneffizienter und kann daher ohne Leistungseinbußen auf Standard-Consumer-GPUs ausgeführt werden. Es ist auch in der Lage, nuancierte Details aus kleinen Datensätzen zu absorbieren, was ein Plus für die Personalisierung ist.

Ein Modell, das unter einer nichtkommerziellen Lizenz veröffentlicht wurde

Generative KI und Open Source scheinen endlich miteinander auszukommen. Ein Beweis dafür ist die Verfügbarkeit des Stable Diffusion 3 Medium-Modells für die wissenschaftliche Gemeinschaft. Letzteres wird tatsächlich unter der nichtkommerziellen Forschungsgemeinschaftslizenz von Stability veröffentlicht. Was das künstlerische Umfeld betrifft, hat Stability eine spezielle Lizenz eingeführt und fördert „Professionellen Künstlern, Designern, Entwicklern und KI-Enthusiasten die Möglichkeit, unsere neue Creator-Lizenz für kommerzielle Zwecke zu nutzen.“ Neben der offenen Version ist Stable Diffusion 3 Medium über die API verfügbar.

Außerdem wurde ein Text-to-Audio-Modell veröffentlicht

Wie viele seiner Konkurrenten versucht Stability AI, seinen Tätigkeitsbereich durch die Veröffentlichung verschiedener Modelle zu erweitern, um im Rennen zu bleiben. Wenige Tage zuvor hatte das Start-up bereits die Veröffentlichung eines weiteren Modells angekündigt, dieses Mal Text-to-Audio. Dieses 1,21 Milliarden Parameter umfassende Modell namens Stable Audio Open, das als Open Source auf Hugging Face veröffentlicht wurde, kann bis zu 47 Sekunden Samples und Soundeffekte generieren.

Es wurde auf Audiodaten von Freesound und Free Music Archive trainiert. „Dadurch konnten wir ein offenes Audiomodell erstellen und gleichzeitig die Rechte der Urheber respektieren.“ gibt den Start an. Benutzer können Drumbeats, Instrumentenriffs, Umgebungsgeräusche, Geräusche und Produktionselemente erstellen. Die Vorlage ermöglicht auch Audiovariationen und die Stilübertragung von Audiobeispielen.

Ausgewählt für dich

Related posts