Der große Vorteil des französischen Modells

Das neue Multi-Agenten-Modell von Mistral AI vereint Leistung und maximale Effizienz. Es bietet für viele Anwendungsfälle eine glaubwürdige Open-Source-Alternative.

Mistral schlägt immer noch hart zu. Das Pariser Start-up, das sich auf den Abschluss einer 5-Milliarden-Dollar-Finanzierungsrunde vorbereitet, hat für … 9 Tage Ein neues, hochmodernes Open-Source-LLM vorgestellt. Mixtral 8x22B wurde am 10. April als rohe Torrent-Datei enthüllt und am 17. April von Mistral AI mit neuen Informationen über sein Training offiziell gemacht. Weniger als 24 Stunden später reagierte Meta mit der Vorstellung von Llama 3. Ein Modell, das das des Pariser Start-ups in Benchmarks übertrifft. Mixtral 8x22B ist nicht dafür gedacht, unten in der Schublade aufbewahrt zu werden, ganz im Gegenteil.

Mixtral 8x22B: die Leistung einer SMoE-Architektur

Das Neueste von Mistral hat gegenüber Llama 3 einen großen Vorteil: seine Architektur. Basierend auf einem Sparse-Mixture-of-Experts-Modell ist Mixtral bei gleichen Parametern effizienter. Die Architektur wurde durch Mistral AI mit Mixtral 8x7B populär gemacht und wuchs schnell im Open-Source-Ökosystem. Letztere stellt einen völlig anderen Betrieb dar als die klassische Transformatorarchitektur, die immer noch von den meisten LLMs auf dem Markt verwendet wird. Bei einer Sparse Mixture-of-Experts-Architektur besteht das Modell aus mehreren Agenten, die jeweils auf bestimmte Arten von Aufgaben oder Wissen spezialisiert sind. Wenn dem Modell eine Eingabe präsentiert wird, wählt ein „Routing“-Mechanismus dynamisch aus, welche Experten aktiviert werden, um Diese Eingabe optimal zu verarbeiten.

Im Gegensatz zu einem dichten Modell, bei dem alle Parameter verwendet werden, werden in der SMoE-Architektur nur die Parameter ausgewählter Experten für eine bestimmte Eingabe aktiviert. Dadurch wird das Modell kompakter und effizienter. Insgesamt verfügt Mixtral 8x22B also nur über 39 Milliarden aktive Parameter von insgesamt 141 Milliarden. Diese Funktion bietet ein hervorragendes Preis-Leistungs-Verhältnis. Die Inferenz ist auch viel schneller. Gleichzeitig erleichtert dieser Ansatz die Aufnahme neuer Experten und die Anpassung an neue Aufgaben.

Konkret: Wenn Llama 3 während der Inferenz 70 Milliarden Parameter gleichzeitig verwendet, verwendet Mixtral nur 39. Obwohl Meta die Transformationsarchitektur von Llama 3 verbessert hat, schneidet das französische Modell im Vergleich zum Riesen von Meta etwas schlechter ab, wird aber viel schneller und weniger sein Die Einrichtung innerhalb einer Cloud- oder lokalen Infrastruktur ist teuer.

Beste Leistung

Bei der Entwicklung von Mixtral 8x22B haben die KI-Teams von Mistral ihr Augenmerk auf die native Unterstützung europäischer Sprachen gelegt. Mixtral 8x22B unterstützt Englisch, Französisch, Italienisch, Deutsch und Spanisch. Auch seine Fähigkeiten in Mathematik und Codeverständnis/-generierung wurden verbessert. Es unterstützt nativ Funktionsaufrufe, was den Aufruf des LLM innerhalb eines Programms vereinfacht. Das Modell unterstützt ein Kontextfenster von 64.000 Token, wodurch es möglich ist, relativ lange Dokumente zu verarbeiten. Zum Vergleich: Llama 3 70B wird mit einem Kontext von 8.000 Token angeboten.

Beim MMLU-Benchmark zur Messung des Sprachverständnisses bei mehreren Aufgaben zeigt Mixtral 8x22B einen Wert von 77,75 % im Vergleich zu 79,5 % für Meta. Auch ihre Leistungen bei Denk- und Allgemeinwissenstests wie HellaSwag, Wino Grande und ARC Challenge sind mit Werten von etwa 88–91 % bemerkenswert. Diese guten Ergebnisse machen es zum Modell der Wahl für die Analyse komplexer Dokumente. Mixtral 8x22B kann als primäres LLM für einen personalisierten Agenten oder Coach in einer Vielzahl von Bereichen betrachtet werden. Eine weitere Stärke ist, dass die Leistung von Mixtral 8x22B in Mathematik und Programmierung einfach die beste unter den offenen Sprachmodellen ist, hinter Llama 3. Mit 88,4 % bei HumanEval, 71,2 % bei MBPP und 90,8 % bei GSM8K zeigt das Modell führende Fähigkeiten für anspruchsvolle Aufgaben komplexe Argumentation. Mixtral 8x22B kann als sehr gutes Modell für die Codegenerierung/das Codeverständnis angesehen werden. Es kann auch ganz einfach an eine bestimmte Sprache angepasst werden, um noch effizienter zu sein.

Benchmark	Meta Lama 3 70B	Mixtral 8x22B	Interpretation des Benchmarks
MMLU 5-Schuss	79,5	77,7	Beurteilung des Sprachverständnisses über mehrere Bereiche hinweg
AGIEval Englisch 3-5-Schuss	63,0	61.2	Messung der Argumentations- und Verständnisfähigkeiten in Englisch
BIG-Bench Hard 3-Schuss, CoT	81,3	79,2	Beurteilung der Fähigkeiten zum komplexen Denken und zur Texterstellung
ARC-Challenge 25-Schuss	93,0	90,7	Messung des Verständnisses wissenschaftlicher Erkenntnisse und Argumentation
DROP 3-Schuss, F1	79,7	77,6	Beurteilung des Textverständnisses und des logischen Denkens

Der Test unter realen Bedingungen

Um die Fähigkeiten von Mixtral 8x22B zu testen, haben wir beschlossen, das Modell (Instruct-Version) in mehreren gängigen Anwendungsfällen zu testen und seine Leistung mit Llama 3 von Meta zu vergleichen. Die Ergebnisse sind durchaus interessant. Bei der Codegenerierung bietet Mixtral einfachen, prägnanten und relativ gut optimierten Code. Dem Code fehlt jedoch eine besser lesbare Dokumentation. Lama 3 bietet eine passendere Antwort für dieselbe Aufgabe. Mixtral könnte jedoch nach der Feinabstimmung auf eine bestimmte Sprache eine bessere Leistung erbringen.

Zusammenfassend bietet Mixtral ein qualitatives Ergebnis, das laut unseren verschiedenen Tests besser ist als Llama 3. Andererseits hat das Mistral-KI-Modell Schwierigkeiten, der anfänglichen Aufforderung mit perfekter Genauigkeit zu folgen. Eine anspruchsvollere Ansteuerung erscheint notwendig. Bei der Textgenerierung liefert Mixtral auf Anhieb ein recht sauberes Ergebnis. Der Stil ist ziemlich ausführlich und es mangelt ihm an Flüssigkeit. Der Unterschied zu Llama 3 ist winzig. Das Meta-Modell bietet einen etwas flüssigeren Text mit einem reichhaltigeren und vielfältigeren Wortschatz. Bei der Textgenerierung bleibt Mixtral zurück und Llama sticht heraus. Durch eine erweiterte Feinabstimmung hochwertiger Texte könnte Mixtral an Präzision und Flüssigkeit gewinnen, und das zu geringeren Kosten als das Meta-Modell.

Ein Bild mit Text, Screenshot, Schriftart und Buchstabenbeschreibung wird automatisch generiert — © Screenshot / JDN

Mixtral vs. Llama, ein KI-Duell an der Spitze

Mixtral stieg durch seine aggressive Position 9 Tage lang an die Spitze der Rangliste der besten LLMs auf dem Open-Source-Markt, bevor es in der Gesamtleistung schnell von Llama 3 von Meta eingeholt wurde. Das Mistral-KI-Modell ist etwas weniger effizient als das von Meta, bietet aber entschieden einen zuverlässigen und robusten Kompromiss mit hervorragender Effizienz für die meisten Anwendungsfälle.

Um ein wirklich qualitatives Ergebnis zu erhalten, ist es notwendig, das Modell mit einer präzisen und einfachen Eingabeaufforderung zu führen. Für eine optimale Leistung kann eine Feinabstimmung erforderlich sein. Wenn sich Llama 3 als neuer unangefochtener Spitzenreiter in Sachen Rohleistung etabliert, sticht Mixtral 8x22B durch seine einzigartige Architektur und seine bemerkenswerte Effizienz hervor.

Tags Ein Diese Preis Wahl F1

Mixtral 8x22B: die Leistung einer SMoE-Architektur

Beste Leistung

Der Test unter realen Bedingungen

Mixtral vs. Llama, ein KI-Duell an der Spitze

Related posts