Ein kleines chinesisches künstliches Intelligenzlabor hat die Welt in dieser Woche verblüfft, indem er das technische Rezept für sein modernes Modell enthüllte und seinen zurückgezogenen Führer in einen Nationalhelden verwandelte, der sich den US-Versuch widersetzte, Chinas High-Tech-Ambitionen zu stoppen.
Deepseek, der vom Hedgefonds -Manager Liang Wenfeng gegründet wurde, veröffentlichte am Montag sein R1 -Modell und erklärte in einem detaillierten Papier, wie man ein großes Sprachmodell auf einem Bootstrap -Budget erstellt, das sich automatisch ohne menschliche Aufsicht selbst lernen und verbessern kann.
US -Unternehmen, darunter OpenAI und Google DeepMind, waren Pionierarbeit in Argumentationsmodellen, einem relativ neuen Bereich der KI -Forschung, das versucht, Modelle zu ermöglichen, die kognitiven Fähigkeiten des Menschen entsprechen. Im Dezember veröffentlichte das in San Francisco ansässige Openai die Vollversion seines O1-Modells, hielt jedoch ihre Methoden geheim.
Deepseeks R1 -Veröffentlichung löste eine rasende Debatte im Silicon Valley darüber aus, ob bessere AI -Unternehmen, einschließlich Meta und Anthropic, ihren technischen Vorsprung verteidigen können.
Inzwischen ist Liang zu einem zentralen Punkt des Nationalstolzes zu Hause geworden. Diese Woche war er der einzige KI, der ausgewählt wurde, der an einem publizierten Treffen von Unternehmern mit dem zweitmächtigsten Führer des Landes, Li Qiang, teilnahm. Den Unternehmern wurde gesagt, sie sollten sich „die Bemühungen konzentrieren, wichtige Kerntechnologien zu durchbrechen“.
Im Jahr 2021 kaufte Liang Tausende von Nvidia-Grafikverarbeitungseinheiten für sein KI-Nebenprojekt, während er seinen Quant Trading Fund-High-Flyer leitete. Branchenkenner betrachteten es als die exzentrischen Aktionen eines Milliardärs, der nach einem neuen Hobby suchte.
„Als wir ihn zum ersten Mal trafen, war er dieser sehr nerdige Kerl mit einer schrecklichen Frisur, die darüber sprach, einen 10.000-Chip-Cluster zu bauen, um seine eigenen Models zu trainieren. Wir haben ihn nicht ernst genommen “, sagte einer der Geschäftspartner von Liang.
„Er konnte seine Vision nicht artikulieren, als zu sagen: Ich möchte das aufbauen, und es wird eine Spielveränderung sein. Wir dachten, dies sei nur von Riesen wie Bytedance und Alibaba möglich “, fügte die Person hinzu.
Liangs Status als Außenseiter im KI -Feld war eine unerwartete Kraftquelle. Bei High-Flyer baute er ein Vermögen, indem er AI und Algorithmen einsetzte, um Muster zu identifizieren, die die Aktienkurse beeinflussen könnten. Sein Team wurde geschickt darin, Nvidia -Chips zu verwenden, um Geldhandel mit Aktien zu verdienen. Im Jahr 2023 startete er Deepseek und kündigte seine Absicht an, KI auf Menschenebene zu entwickeln.
“Liang hat ein außergewöhnliches Infrastruktur -Team gebaut, das wirklich versteht, wie die Chips funktioniert haben”, sagte ein Gründer eines konkurrierenden LLM -Unternehmens. “Er hat seine besten Leute vom Hedgefonds nach Deepseek mitgenommen.”
Nachdem Washington Nvidia verboten hatte, seine mächtigsten Chips nach China zu exportieren, waren lokale KI -Unternehmen gezwungen, innovative Wege zu finden, um die Rechenleistung einer begrenzten Anzahl von Onshore -Chips zu maximieren – ein Problem mit dem Team von Liang wusste bereits, wie man es löst.
“Deepseeks Ingenieure wissen, wie man das Potenzial dieser GPUs freischaltet, auch wenn sie nicht auf dem neuesten Stand der Technik sind”, sagte ein KI -Forscher in der Nähe des Unternehmens.
Branchenkenner sagen, dass Deepseeks einzigartiger Fokus auf Forschung es zu einem gefährlichen Konkurrenten macht, weil es bereit ist, seine Durchbrüche zu teilen, anstatt sie für kommerzielle Gewinne zu schützen. Deepseek hat kein Geld von externen Mitteln gesammelt oder erhebliche Schritte unternommen, um seine Modelle zu monetarieren.
“Deepseek ist wie die frühen Tage von DeepMind geführt”, sagte ein KI -Investor in Peking. “Es konzentriert sich nur auf Forschung und Ingenieurwesen.”
Liang, der persönlich an Deepseeks Forschung beteiligt ist, nutzt den Erlös aus seinem Hedgefondshandel, um die besten Gehälter für das beste KI -Talent zu zahlen. Zusammen mit Tiktok-Eigentümer Bytedance ist Deepseek dafür bekannt, dass sie den KI-Ingenieuren in China die höchste Vergütung geben, wobei Mitarbeiter in Büros in Hangzhou und Peking ansässig sind.
-“Die Büros von Deepseek fühlen sich wie ein Universitätscampus für ernsthafte Forscher”, sagte der Geschäftspartner. “Das Team glaubt an Liangs Vision: der Welt zu zeigen, dass die Chinesen kreativ sein und etwas von Null aufbauen können.”
Deepseek und High-Flyer antworteten nicht auf eine Anfrage nach Kommentaren.
Liang hat Deepseek als ein einzigartiges „lokales“ Unternehmen bezeichnet, das mit Doktoranden von Top chinesischen Schulen, Peking-, Tsinghua- und Beihang -Universitäten und nicht von Experten aus US -Institutionen besetzt ist.
In einem Interview mit der Inlandspresse im letzten Jahr sagte er, sein Kernteam habe keine Leute, die aus Übersee zurückgekehrt sind. Sie sind alle lokal. . . Wir müssen das Top -Talent selbst entwickeln. “ Deepseeks Identität als rein chinesisches LLM -Unternehmen hat es zu Hause im Lob gewonnen.
Deepseek behauptete, es habe nur 2.048 NVIDIA H800s und 5,6 Mio. USD verwendet, um ein Modell mit 671 Mrd. Parametern zu trainieren.
Ritwik Gupta, AI -Politikforscher an der University of California in Berkeley, sagte, Deepseeks jüngste Modellveröffentlichungen zeigen, dass „es keinen Wassergraben in Bezug auf KI -Fähigkeiten gibt“.
“Die erste Person, die Modelle trainiert, muss viele Ressourcen ausgeben, um dorthin zu gelangen”, sagte er. “Aber der zweite Mover kann dort billiger und schneller dorthin gelangen.”
Gupta fügte hinzu, dass China einen viel größeren Talentpool von Systemingenieuren hatte als die USA, die verstehen, wie man die Rechenressourcen am besten nutzt, um Modelle billiger zu trainieren und zu betreiben.
Branchenkenner sagen, dass Deepseek zwar beeindruckende Ergebnisse mit begrenzten Ressourcen gezeigt hat, es bleibt offen, ob es weiterhin wettbewerbsfähig sein kann, wenn sich die Branche entwickelt.
Kehrt in High-Flyer zurück, sein großer Unterstützer, der 2024 zurückgeblieben ist und die eine Person in der Nähe von Liang der Aufmerksamkeit des Gründers beschuldigte, sich hauptsächlich auf Deepseek zu konzentrieren.
Die US -Rivalen stehen nicht still. Sie bauen Mega „Cluster“ von Nvidias Blackwell-Chips der nächsten Generation und schaffen die Rechenleistung, die wieder eine Leistungslücke mit chinesischen Konkurrenten schaffen droht.
Diese Woche sagte OpenAI, dass es ein Joint Venture mit Japans SoftBank mit dem Namen Stargate geschaffen habe und plant, mindestens 100 Mrd. USD für die KI -Infrastruktur in den USA auszugeben. Elon Musks XAI erweitert seinen Colossus -Supercomputer massiv, um mehr als 1 Mio. GPUs zu enthalten, um seine Grok AI -Modelle zu trainieren.
“Deepseek hat einen der größten fortgeschrittenen Computercluster in China”, sagte Liangs Geschäftspartner. “Sie haben vorerst genug Kapazität, aber nicht viel länger.”
Zusätzliche Berichterstattung von Wenjie Ding in Peking