DayFR Deutsch

Warum Deepseeks KI-Modell gerade zur höchsten App in den USA wurde

-

Deepseeks Assistent für künstliche Intelligenz machte am Montag große Wellen, wurde zur bestbewerteten App im Apple Store und sandte Tech-Aktien in einen Abwärtskoffer. Worum geht es in der ganzen Aufregung?

Das chinesische Start-up, Deepseek, überraschte die Tech-Industrie mit einem neuen Modell, das die Fähigkeiten des jüngsten Modells von OpenAI mit weitaus weniger Investitionen und Verwendung von Chips mit reduzierter Kapazität konkurriert. Die US-amerikanischen Exporte hochmoderner Computerchips nach China verboten und begrenzt den Umsatz von Chipmaking-Geräten. Deepseek mit Sitz in der östlichen chinesischen Stadt Hangzhou hatte Berichten zufolge einen Vorrat an Hochleistungs-Nvidia A100-Chips aus Zeiten vor dem Verbot-daher hätten seine Ingenieure diejenigen verwenden können, um das Modell zu entwickeln. In einem wichtigen Durchbruch hat das Start-up stattdessen viel niedrigere Nvidia H800-Chips verwendet, um das neue Modell mit dem Namen Deepseek-R1 zu trainieren.

„Wir haben bisher gesehen, dass der Erfolg großer Technologieunternehmen, die in AI arbeiteten “Ich denke, wir werden viel mehr darauf achten, was die Technik für die verschiedenen Produkte dieser Unternehmen steuert.”


Über die Unterstützung des Wissenschaftsjournalismus

Wenn Sie diesen Artikel genießen, sollten Sie unseren preisgekrönten Journalismus unterstützen abonnieren. Durch den Kauf eines Abonnements tragen Sie dazu bei, die Zukunft wirkungsvoller Geschichten über die Entdeckungen und Ideen zu gewährleisten, die unsere heutige Welt prägen.


Bei gemeinsamen KI-Tests in Mathematik und Codierung stimmte Deepseek-R1 laut VentureBeat mit den Punktzahlen des O1-Modells von Open AI überein. US -Unternehmen geben die Kosten für die Schulung ihrer eigenen großartigen großartigen Modelle (LLMs) nicht offen, die Systeme, die beliebte Chatbots wie ChatGPT untergraben. Sam Altman, CEO von OpenAI, sagte jedoch einem Publikum am MIT im Jahr 2023, dass die Schulung von Chatgpt-4 über 100 Millionen US-Dollar kostet. Deepseek-R1 ist für Benutzer kostenlos heruntergeladen, während die vergleichbare Version von ChatGPT 200 US-Dollar pro Monat kostet.

Die 6 -Millionen -Dollar -Zahl von Deepseek spiegelt nicht unbedingt die Kosten für den Bau eines LLM von Grund auf wider, sagt Nesarikar. Diese Kosten können eine Feinabstimmung dieser neuesten Version darstellen. Dennoch, sagt sie, würde die verbesserte Energieeffizienz des Modells für mehr Menschen in mehr Branchen die KI zugänglicher machen. Die Steigerung der Effizienz könnte eine gute Nachricht sein, wenn es um die Umweltauswirkungen von AI geht, da die Berechnungskosten für die Generierung neuer Daten mit einem LLM vier- bis fünfmal höher sind als eine typische Suchmaschinenabfrage.

-

Da es weniger Rechenleistung erfordert, sind die Kosten für den Betrieb von Deepseek-R1 ein Zehntel der Kosten ähnlicher Wettbewerber, sagt Hanchang Cao, ein ankommender Assistenzprofessor für Informationssysteme und Betriebsmanagement an der Emory University. „Für akademische Forscher oder Start-ups bedeutet dieser Unterschied in den Kosten wirklich viel“, sagt Cao.

Deepseek hat seine Effizienz in mehrfacher Hinsicht erreicht, sagt Anil Ananthaswamy, Autorin von Warum Maschinen lernen: die elegante Mathematik hinter der modernen KI. Das Modell verfügt über 670 Milliarden Parameter oder Variablen, von denen es während des Trainings lernt, was es zum bisher größten Open-Source-Modell ist, das bisher große Sprachmodell ist, erklärt Ananthaswamy. Das Modell verwendet jedoch eine Architektur namens „Mischung von Experten“, so dass nur ein relevanter Bruchteil dieser Parameter – zahlreiche Milliarden anstelle von Hunderten von Milliarden – für eine bestimmte Abfrage aktiviert werden. Dies senkt die Rechenkosten. Die Deepseek LLM verwendet auch eine Methode, die als mehrköpfige latente Aufmerksamkeit bezeichnet wird, um die Effizienz ihrer Schlussfolgerungen zu steigern. Und anstatt eine Antwort von Wort für Wort vorherzusagen, erzeugt es mehrere Wörter gleichzeitig.

Das Modell unterscheidet sich weiter von anderen wie O1, wie es das Lernen während des Trainings verstärkt. Während viele LLMs ein externes „Kritiker“ -Modell haben, das neben ihnen läuft, korrigiert Fehler und die LLM in Richtung verifizierter Antworten, verwendet Deepseek-R1 eine Reihe von Regeln für das Modell, um es zu lehren, welche der möglichen Antworten, die sie generiert, am besten ist. “Deepseek hat diesen Prozess optimiert”, sagt Ananthaswamy.

Ein weiterer wichtiger Aspekt von Deepseek-R1 ist, dass das Unternehmen den Code hinter dem Produkt Open-Source hergestellt hat, sagt Ananthaswamy. (Die Schulungsdaten bleiben proprietär.) Dies bedeutet, dass die Ansprüche des Unternehmens überprüft werden können. Wenn das Modell so rechnerisch effizient ist, wie Deepseek behauptet, werde es wahrscheinlich neue Möglichkeiten für Forscher eröffnen, die KI in ihrer Arbeit verwenden, um dies schneller und billiger zu tun. Es wird auch mehr Erforschung der inneren Funktionsweise von LLMs selbst ermöglichen.

“Eines der großen Dinge war diese Kluft, die zwischen Wissenschaft und Industrie eröffnet wurde, da die Wissenschaft nicht mit diesen wirklich großen Modellen zusammenarbeiten oder auf sinnvolle Weise recherchieren konnte”, sagt Ananthaswamy. “Aber so etwas ist es jetzt in Reichweite der Wissenschaft, weil Sie den Code haben.”