KI-Innovation, die ChatGPT O1 mit 2.048 GPUs bei Sanktionen in den Schatten stellt

KI-Innovation, die ChatGPT O1 mit 2.048 GPUs bei Sanktionen in den Schatten stellt
KI-Innovation, die ChatGPT O1 mit 2.048 GPUs bei Sanktionen in den Schatten stellt
-

Das neue Argumentationsmodell von Deepseek mit dem Namen R1 stellt die Leistung von Chatgpt O1 von Openai in Frage, trotz begrenzter materieller Ressourcen und eines relativ begrenzten Budgets.

In einem Kontext, der von amerikanischen Exportkontrollen geprägt ist, die den Zugang zu fortgeschrittenen Flöhen einschränken, zeigt das vom Investmentmanager Liang Wenfeng gegründete chinesische Startup für künstliche Intelligenz, wie die Effizienz und gemeinsame Nutzung von Ressourcen die Entwicklung von KI vorantreiben kann.

Der Aufstieg des Unternehmens erregte die Aufmerksamkeit von Technologiekreisen sowohl in China als auch in den Vereinigten Staaten. Das R1-Modell von Deepseek bietet eine fortschrittliche Leistung und wird gleichzeitig gemäß den Richtlinien der Kommunistischen Partei Chinas zensiert.

Der Aufstieg von Deepseek

Das Abenteuer von Deepseek begann im Jahr 2021, als Liang, der vor allem für seinen quantitativen Handelsfonds High-Flyer bekannt ist, begann, Tausende von NVIDIA-GPUs zu erwerben.

Diese Entscheidung schien damals ungewöhnlich. Einer von Liangs Geschäftspartnern sagte gegenüber der Financial Times: „Als wir ihn zum ersten Mal trafen, war er ein sehr geekiger Typ mit einer wenig schmeichelhaften Frisur und sprach davon, einen 10.000-Chip-Cluster aufzubauen, um seine eigenen Modelle zu trainieren. Wir haben es nicht ernst genommen. ”

Laut derselben Quelle „Er wusste nicht wirklich, wie er seine Vision ausdrücken sollte, außer zu sagen: Ich möchte das bauen, und das wird die Situation ändern.“ Wir dachten, das sei nur Giganten wie Bytedance und Alibaba möglich. ”

Trotz dieser anfänglichen Skepsis konzentrierte sich Liang auf die Vorbereitung angesichts möglicher amerikanischer Exportkontrollen. Diese Weitsicht ermöglichte es Deepseek, eine große Menge an NVIDIA-Geräten, darunter A100- und H800-GPUs, zu sichern, bevor allgemeine Beschränkungen in Kraft traten.

Deepseek machte Schlagzeilen, als es bekannt gab, dass es sein R1-Modell mit einer Kapazität von 671 Milliarden Parametern zu einem Preis von nur 5,6 Millionen US-Dollar mit einer H800-GPU im Wert von 2.048 US-Dollar entwickelt hat.

Obwohl die Leistung des H800 aufgrund der von den USA auferlegten Beschränkungen bewusst auf den chinesischen Markt beschränkt ist, haben die Deepseek-Ingenieure den Trainingsprozess optimiert, um Ergebnisse auf hohem Niveau zu deutlich geringeren Kosten zu erzielen, als sie normalerweise mit großer Sprache verbunden sind Modelle.

In einem von MIT Technology Review veröffentlichten Interview erklärt Zihan Wang, ehemaliger Forscher bei Deepseek, wie es dem Team gelungen ist, den Speicherverbrauch und die Berechnungszeit zu reduzieren und gleichzeitig die Genauigkeit zu bewahren.

Er erwähnte, dass die technischen Einschränkungen sie dazu veranlasst hätten, innovative technische Strategien zu erforschen, die es ihnen ermöglichten, gegenüber besser finanzierten amerikanischen Technologielabors wettbewerbsfähig zu bleiben.

Bemerkenswerte Ergebnisse bei Mathematik- und Programmierbewertungen

Das R1-Modell zeigt hervorragende Fähigkeiten in verschiedenen mathematischen und Programmier-Benchmarks. Deepseek ergab, dass R1 bei Math-500 eine Punktzahl von 97,3 % (Pass@1) und bei AIM 2024 eine Punktzahl von 79,8 % erreicht hatte.

Diese Ergebnisse konkurrieren mit denen der O1-Serie von Openai und verdeutlichen, wie eine sorgfältige Optimierung Modelle, die auf stärkeren Flöhen trainiert wurden, herausfordern kann.


Dimitris PapaiLiopoulos, Hauptforscher am AI Frontiers-Labor bei Microsoft, sagte gegenüber MIT Technology Review: „Deepseek zielt auf spezifische Antworten ab, anstatt jeden logischen Schritt im Detail zu beschreiben, wodurch die Berechnungszeit verkürzt und gleichzeitig ein hohes Maß an Effizienz aufrechterhalten wird.“

Über das Hauptmodell hinaus hat Deepseek auch kleinere R1-Versionen veröffentlicht, die auf Verbrauchergeräten betrieben werden können. Aravind Srinivas, CEO von Perplexity, twitterte in Bezug auf diese kompakten Varianten: „Deepseek antwortete weitgehend auf O1-Mini und machte es Open Source.“

Argumentation in einer Gedankenkette und R1-Null

Zusätzlich zum Standard-R1-Training erkundete Deepseek das Lernen durch reine Kräftigung mit einer Variante namens R1-Zero. Bei diesem Ansatz, der in der Forschungsdokumentation des Unternehmens detailliert beschrieben wird, wird die überwachte Feinabstimmung zugunsten der Optimierung der relativen Gruppenrichtlinie (GRPO) aufgegeben.

Durch den Verzicht auf ein separates kritisches Modell und die Verwendung gruppierter Referenzwerte lieferte R1-Zero eine Begründung für Denkketten- und Selbstreflexionsverhalten. Das Team erkannte jedoch, dass R1-Zero zu wiederholten Ausfahrten oder in gemischten Sprachen führte, was darauf hindeutet, dass eine teilweise Überwachung erforderlich ist, bevor es in täglichen Anwendungen eingesetzt werden kann.

Die Ethik der Open Source, die Deepseek zugrunde liegt, unterscheidet es von vielen privaten Laboren. Während amerikanische Unternehmen wie Openai, Meta und Google Deepmind ihre Trainingsmethoden oft geheim halten, macht Deepseek seinen Code, seine Modellgewichte und seine Trainingsrezepte öffentlich zugänglich.

Laut Liang entspringt dieser Ansatz dem Wunsch, eine Forschungskultur zu etablieren, die Transparenz und kollektiven Fortschritt fördert. In einem Interview mit dem chinesischen Medium 36kr erklärte er, dass viele chinesische KI-Unternehmen im Vergleich zu ihren westlichen Pendants mit Effizienz zu kämpfen haben und dass das Schließen dieser Lücke eine Zusammenarbeit sowohl beim Material als auch bei den Schulungsstrategien erfordert.

-

Er behauptet, dass der Boom bei Open-Source-Modellen stark expandiert, wobei Alibaba Cloud mehr als 100 Open-Source-Modelle eingeführt hat und 01.ai, gegründet von Kai-Fu Lee, kürzlich eine Partnerschaft mit Alibaba Cloud zur Gründung von An geschlossen hat industrielles KI-Labor.

Die Reaktion der globalen Technologiegemeinschaft war eine Mischung aus Bewunderung und Besonnenheit. Zu X schrieb Marc Andreessen, Miterfinder des Webbrowsers „Mosaic“ und heute führender Investor bei Andreessen Horowitz: „Deepseek R1 ist einer der erstaunlichsten und beeindruckendsten Durchbrüche, die ich je gesehen habe – und als Open Source ist es ein großes Geschenk für die Welt.“

Yann Lecun, Chefwissenschaftler für KI bei Meta, betonte auf LinkedIn, dass, wenn Deepseeks Leistung darauf hindeutet, dass China die Vereinigten Staaten dominiert hat, es fairer wäre zu sagen, dass Open-Source-Modelle gemeinsam mit alternativen Eigentümern aufholen.

„Deepseek hat sich die Vorteile offener Forschung und Open Source zunutze gemacht (wie Pytorch und Llama de Meta)“ er erklärte. „Sie hatten neue Ideen und bauten sie auf der Arbeit anderer auf. Da ihre Arbeit veröffentlicht und Open Source ist, kann jeder davon profitieren. Es ist die Stärke von Open Research und Open Source. ”

Mark Zuckerberg, Gründer und CEO von Meta, sprach von einem anderen Weg für KI im Jahr 2025 und kündigte massive Investitionen in die Infrastruktur von Rechenzentren und GPUs an.

Auf Facebook schrieb er: „Dieses Jahr wird für die KI entscheidend sein. Ich gehe davon aus, dass Meta Ai im Jahr 2025 der führende Assistent für mehr als eine Milliarde Menschen sein wird, dass Llama 4 zum fortschrittlichen Modell wird und dass wir einen IA-Ingenieur aufbauen, der beginnen wird, immer mehr Code in unsere Forschungs- und Entwicklungsbemühungen einzubringen. Um dies zu unterstützen, baut Meta ein Rechenzentrum mit mehr als 2 GW, das so groß wäre, dass es einen erheblichen Teil Manhattans abdecken würde. ”

„Wir werden im Jahr 2025 ca. 1 GW Rechenleistung online stellen und das Jahr mit mehr als 1,3 Millionen GPUs abschließen. Wir planen, in diesem Jahr 60 bis 65 Milliarden US-Dollar in Sachinvestitionen zu investieren und gleichzeitig unsere KI-Teams erheblich zu vergrößern, und wir verfügen über das Kapital, um in den kommenden Jahren weiter zu investieren. Es handelt sich um eine monumentale Anstrengung, die in den kommenden Jahren unsere Produkte und unser Unternehmen voranbringen, eine historische Innovation ermöglichen und die Technologieführerschaft Amerikas ausbauen wird. Lasst uns bauen! ”

Zuckerbergs Ausführungen deuten darauf hin, dass Strategien, die viele Ressourcen erfordern, bei der Konfiguration des KI-Sektors weiterhin ein Faktor höherer Gewalt sind.

Erweiterte Auswirkungen und Zukunftsperspektiven

Die Kombination aus lokalen Talenten, einem frühen GPU-Angebot und der Betonung von Open-Source-Methoden brachte Deepseek ins Rampenlicht, das normalerweise großen Technologieunternehmen vorbehalten ist. Im Juli 2024 sagte Liang, sein Team wolle eine Lücke in der Effizienz der chinesischen KI schließen, wie er es nannte.

Er hat beschrieben, dass viele lokale IA-Unternehmen doppelt so viel Rechenleistung benötigen, um ausländische Ergebnisse abzugleichen, ein Problem, das immer noch kompliziert ist, wenn man die Datennutzung berücksichtigt. Die Vorteile des Hedgefonds-Überfliegers bieten Deepseek einen Stempel gegen unmittelbaren kommerziellen Druck und ermöglichen es Liang und seinen Ingenieuren, sich auf ihre Forschungsprioritäten zu konzentrieren. Liang sagte:

„Wir glauben, dass die besten inländischen und ausländischen Modelle einen Unterschied in der Struktur des Modells und der Trainingsdynamik aufweisen können. Allein aus diesem Grund müssen wir doppelt so viel Rechenleistung verbrauchen, um den gleichen Effekt zu erzielen. ”

„Darüber hinaus könnte es auch einen Unterschied in der Dateneffizienz geben, das heißt, wir müssen doppelt so viele Trainings- und Berechnungsdaten verbrauchen, um den gleichen Effekt zu erzielen.“ Gemeinsam müssen wir viermal mehr Rechenleistung verbrauchen. Wir müssen diese Unterschiede kontinuierlich verringern. ”

Der Ruf von Deepseek in China wurde auch gestärkt, als Liang als einziger KI-Chef zu einem hochrangigen Treffen mit Li Qiang, dem zweiten Manager des Landes, eingeladen wurde, bei dem er ermutigt wurde, sich auf die Entwicklung grundlegender Technologien zu konzentrieren .

Analysten sehen darin ein zusätzliches Signal, wonach Peking stark darauf setzt, dass kleinere lokale Innovatoren trotz der materiellen Einschränkungen die Grenzen der KI verschieben.

Während die Zukunft ungewiss bleibt – alles mit amerikanischen Restriktionen, die noch verstärkt werden können – zeichnet sich Deepseek durch seine Fähigkeit aus, Herausforderungen anzunehmen, um Einschränkungen in schnelle Möglichkeiten zur Problemlösung umzuwandeln.

Durch die Veröffentlichung seiner Durchbrüche und das Angebot kleinerer Trainingstechniken hat das Start-up eine breitere Diskussion darüber ausgelöst, wie die Wirksamkeit von Ressourcen tatsächlich mit riesigen Superkalkülen konkurrieren kann.

Während Deepseek sein R1-Modell weiter verfeinert, überwachen Ingenieure und Entscheidungsträger auf beiden Seiten des Pazifiks sorgfältig, ob die Errungenschaften dieses Modells in einer Zeit evolutionärer Einschränkungen einen dauerhaften Weg für den KI-Fortschritt ebnen können.

Zusammenfassend lässt sich sagen, dass die Entwicklung von Deepseek interessante Fragen zu den jüngsten Herausforderungen aufwirft, denen sich die Technologiebranche stellen muss. Während der Wettbewerb insbesondere zwischen China und den Vereinigten Staaten immer intensiver wird, ist es von entscheidender Bedeutung, darüber nachzudenken, wie diese Entwicklungen die Zukunft der globalen technologischen Innovation beeinflussen werden. Kann Open Source die Machtdynamik im Bereich der KI und allgemeiner in der Technologie wirklich neu definieren?

---

PREV Die chinesische Kaizhong -Präzisionstechnologie kündigt die Schaffung einer Automobil Tochtergesellschaft in Marokko an, 55 Millionen Dirhams engagiert
NEXT Die Regie dieser Schauspielerin gab Steven Spielberg “den Wunsch, Vater zu sein”