GPT-4o von OpenAI und Claude 3.5 Sonnet von Anthropic.
DeepSeek ist nicht nur effizienter als seine Konkurrenten, sondern stellt auch ein auf Open Source basierendes Wirtschaftsmodell dar. Transparenz, die es Entwicklern und Forschern ermöglicht, frei auf das Modell zuzugreifen, es entsprechend ihren Bedürfnissen anzupassen und zu verbessern. Diese Offenheit fördert kollaborative Innovationen und bietet mehr Flexibilität für verschiedene Anwendungen.
DeepSeek-V3 zeichnet sich durch seine MoE-Architektur (Mixture of Experts) aus, die 671 Milliarden Parameter integriert, von denen 37 Milliarden durch Token aktiviert werden, wodurch Effizienz und Leistung optimiert werden. Die MoE-Architektur ist ein maschineller Lernansatz, der ein Modell der künstlichen Intelligenz in mehrere spezialisierte Teilnetzwerke, sogenannte „Experten“, unterteilt. Jeder Experte ist darauf geschult, in einem bestimmten Bereich der Eingabedaten hervorragende Leistungen zu erbringen. Ein Mechanismus bestimmt, welche Experten für eine bestimmte Aufgabe am relevantesten zu aktivieren sind. Indem nur die Experten aktiviert werden, die für eine bestimmte Aufgabe benötigt werden, reduziert die MoE-Architektur die Rechenlast im Vergleich zu herkömmlichen dichten Modellen.
Ein Kontextfenster mit 128.000 Token
Basierend auf einem Datensatz von 14,8 Billionen Token gewährleistet es ein genaues Textverständnis und eine genaue Textgenerierung. Sein erweitertes Kontextfenster mit einer Kapazität von 128.000 Token ermöglicht die Verwaltung langer Gespräche und komplexer Aufgaben, ohne die kontextuelle Konsistenz zu beeinträchtigen. Darüber hinaus werden bis zu 60 Token pro Sekunde generiert, was einer Verbesserung von 300 % gegenüber der Vorgängerversion DeepSeek-V2 entspricht.
In Bezug auf die Leistung schneidet DeepSeek-V3 bei verschiedenen Benchmarks besser ab als seine Konkurrenten. Beispielsweise erreicht es beim MMLU-Pro (Exact Match) eine Punktzahl von 75,9 %, übertrifft GPT-4o (72,6 %) und nähert sich Claude 3,5 (78 %), was seine Fähigkeit zur Bewältigung von Frage-Antwort-Aufgaben unter Beweis stellt. Beim MATH 500-Test erreichte er 90,2 %, vor Claude 3,5 (78,3 %) und GPT-4o (74,6 %), was eine fortgeschrittenere Begabung im mathematischen Denken verdeutlicht. Darüber hinaus liegt es bei Codeforces bei 51,6 Prozent und übertrifft GPT-4o (23,6).
Höhere Kosten- und Ressourceneffizienz
Einer der bemerkenswertesten Aspekte von DeepSeek-V3 ist seine Kosten- und Ressourceneffizienz. Seine Entwicklung erforderte etwa 2,788 Millionen GPU-Stunden, was geschätzten Gesamtkosten von 5,57 Millionen US-Dollar entspricht, einem Bruchteil der Ressourcen, die normalerweise für Modelle dieser Größenordnung erforderlich sind. Auf diese Weise untergräbt es den aktuellen Diskurs über die Kostspieligkeit von Modellen, die von Wettbewerbern mit großem Aufwand entwickelt werden, und zeigt, dass es möglich ist, ein Hochleistungsmodell für einen Bruchteil der von bestimmten Herausgebern angegebenen Kosten zu trainieren. Im Vergleich dazu kostet die GPT-4-Schulung schätzungsweise mehr als 100 Millionen US-Dollar.
Darüber hinaus ist DeepSeek-V3 im Gegensatz zu geschlossenen Modellen Open Source und bietet Entwicklern und Forschern die Möglichkeit, es entsprechend ihren Bedürfnissen anzupassen und zu verbessern. Die API von DeepSeek ist auch mit OpenAI-Formaten kompatibel, was die Integration für Entwickler, die mit diesen Umgebungen vertraut sind, einfacher macht. Proprietäre Modelle sind zwar effizient, weisen jedoch häufig Einschränkungen hinsichtlich Kosten und Anpassungsfähigkeit auf. DeepSeek-V3 berücksichtigt diese Bedenken als Open-Source-Alternative, die mit Marktführern konkurrieren kann und gleichzeitig eine stärkere Anpassung ermöglicht.
Abgesehen von Leistung und Schulungskosten betritt DeepSeeker und damit auch China den Markt für generative KI durch die Haustür. Der Verlag hat sich die Zeit genommen, ein Modell zu entwickeln, das einen anderen Weg vorgibt als die Konkurrenz. Es verfolgt eine Strategie zur Durchdringung des generativen KI-Marktes, die sich deutlich von der seiner amerikanischen Konkurrenten wie OpenAI, Anthropic oder Google DeepMind unterscheidet. Der Ansatz des chinesischen Unternehmens basiert auf einer Kombination aus technologischer Innovation, strategischer Differenzierung und Demokratisierung mit der Vision einer globalen Erreichbarkeit, insbesondere in Schwellenländern.
Eine glaubwürdige und zugängliche Alternative
Im Gegensatz zu seinen Konkurrenten, die sich seit Beginn der aktuellen Welle (2020–2022) beeilten, den Bereich der generativen KI zu erobern, nahm sich DeepSeek die Zeit, ein solides technologisches Angebot zu entwickeln. Sein Open-Source-Modell basiert auf einer fortschrittlichen Architektur, die es ihm ermöglicht, 671 Milliarden Parameter zu integrieren und dabei ressourcenschonend zu bleiben. Diese technische Wahl ist nicht nur eine Frage der Leistung, sondern auch eine strategische Entscheidung zur Minimierung der Schulungs- und Betriebskosten.
Durch die Reduzierung der Entwicklungskosten zeigt DeepSeek, dass es möglich ist, hochmoderne Modelle zu erstellen und gleichzeitig den exorbitanten Bedarf an Rechenleistung zu minimieren. Diese Leistung sendet eine klare Botschaft: Innovationen in der KI sind nicht Technologiegiganten mit unbegrenzten Ressourcen vorbehalten.
DeepSeek positioniert sich dank seines Open-Source-Engagements auch als ernstzunehmende Alternative zu amerikanischen Vorbildern. Offener Code ermöglicht es lokalen Entwicklern, Modelle an die spezifischen Sprachen, Kulturen und Bedürfnisse ihres Marktes anzupassen. Dieser Ansatz fördert die internationale Zusammenarbeit, Community-Innovation und die Übernahme durch Organisationen, die sich möglicherweise keinen Zugang zu proprietären Modellen leisten können.
Eine Strategie, die sich auf Schwellenländer konzentriert
Die Strategie von DeepSeek scheint besonders geeignet zu sein, in die Märkte von Schwellenländern einzudringen, die von großen amerikanischen Playern oft vernachlässigt werden. Länder, in denen lokale Unternehmen und Regierungen nach technologischen Lösungen suchen, die an ihre wirtschaftlichen Realitäten angepasst sind. Diese Demokratisierungsstrategie hat für chinesische Unternehmen bereits in anderen Bereichen Früchte getragen, insbesondere in der Telekommunikation mit Huawei oder im E-Commerce mit Alibaba.
Die Positionierung von DeepSeek ist auch eine direkte Reaktion auf das Technologiemonopol amerikanischer Unternehmen in der generativen KI. In China fördern die Behörden die Entwicklung lokaler Lösungen, um die Abhängigkeit von westlichen Technologien zu verringern, insbesondere angesichts der von den Vereinigten Staaten auferlegten Beschränkungen für Halbleiter und den Zugang zu Spitzentechnologien. Indem DeepSeek wettbewerbsfähige Technologie zu geringeren Kosten anbietet, stärkt es die technologische Autonomie Chinas und festigt gleichzeitig seine Präsenz auf der internationalen Bühne.
Auf dem globalen KI-Markt könnte die Einführung von DeepSeek-V3 die aktuelle Dynamik des generativen KI-Marktes stören. Indem DeepSeek das Dogma in Frage stellt, dass nur Unternehmen mit enormen Ressourcen dieses Problem bewältigen können, öffnet es die Tür zu einer größeren Vielfalt an Akteuren. Diese Entwicklung könnte einen faireren Wettbewerb fördern, Innovationen fördern und vor allem die Vorteile der KI auf bisher marginalisierte Regionen und Sektoren ausdehnen.