Pixtral 12B von Mistral AI: multimodal und Open Source

Pixtral 12B von Mistral AI: multimodal und Open Source
Pixtral 12B von Mistral AI: multimodal und Open Source
-

Mit seinen 12 Milliarden Parametern bietet Pixtral 12B keine Bildgenerierung, sondern Bildanalyse. Es handelt sich um das erste multimodale Modell des französischen Start-ups. Die gute Nachricht: Es kann verwendet, geändert und verbessert werden, da es Open Source ist.

Mistral AI hat sich multimodalen Modellen zugewandt und das ist, gelinde gesagt, ein Meisterstück. Pixtral 12B, so der Name, ist von Haus aus multimodal. Es wird mit interlaced Bild- und Textdaten trainiert.

Die Architektur umfasst einen neuen, von Grund auf trainierten Vision-Encoder mit 400 Millionen Parametern. Der multimodale Decoder mit 12 Milliarden Parametern basiert auf Mistral Nemo. Die gewählte Lizenz ist Open Source, Apache 2.0. Alle Eingabeaufforderungen werden Open Source sein.

Mit Pixtral können komplexe Diagramme, Tabellen und Dokumente in hoher Auflösung präzise verstanden werden, während gleichzeitig schnelle Inferenzgeschwindigkeiten für kleine Bilder wie Symbole, Cliparts und Gleichungen gewährleistet werden.

Mistral erklärt, dass er „ eine Reihe von Open-Source- und proprietären Modellen unter Verwendung desselben Bewertungsrahmens neu bewertet: Für jeden Datensatz wurde die Eingabeaufforderung so gewählt, dass die Ergebnisse bekannter multimodaler Modelle (GPT-4o und Claude-3.5-Sonnet) reproduziert wurden. Alle Modelle wurden dann unter Verwendung derselben Eingabeaufforderung bewertet “.

Insgesamt würde Pixtral laut Mistral AI alle Open-Source-Modelle seiner Größe übertreffen. In einigen Fällen würde es proprietäre Modelle wie Claude 3 Haiku übertreffen. Bei multimodalen Benchmarks erreicht Pixtral die Leistung von viel größeren Modellen wie LLaVa OneVision 72B. Schließlich würde es Qwen2-VL 7B, LLaVa-OneVision 7B und Phi-3.5 Vision bei der Befehlsverfolgung übertreffen.

Sie können Pixtral 12B auf der Plattform oder im Chat testen. Der einfachste Weg, Pixtral lokal auszuführen ist zu verwenden Mistral-Inferenz. Alle Details liefert Mistral AI in diesem sehr technischen Blog-Artikel (auf Englisch), der sich insbesondere an Entwickler richtet.

Ich mag das:

Ich mag Laden…

-

PREV ein Angebot, das Sie nicht verpassen sollten!
NEXT viele Qualitäten und nur ein (großer) Makel