DeepSeek Coder V2, das neue Referenzmodell für Code

-

DeepSeek Code V2, ein am 17. Juni veröffentlichtes Open-Source-Codemodell, entthront OpenAIs GPT-4 in Benchmarks.

China beginnt im KI-Wettlauf aufzuholen. Nachdem mehrere chinesische Labore LLMs und multimodale Referenzmodelle vorgestellt haben, sind jetzt Codemodelle an der Reihe, die auf den Kopf gestellt werden. Neuestes Beispiel mit der Einführung der zweiten Version von DeepSeek-Coder am 17. Juni, dem LLM, der für den Code des chinesischen DeepSeek optimiert ist. DeepSeek Coder V2 übertrifft den GPT-4 Turbo von OpenAI bei Codegenerierungsaufgaben, eine Premiere in der Welt der Open-Source-KI.

DeepSeek Coder V2 schlägt sogar GPT-4o

Insbesondere übertrifft DeepSeek-Coder-V2 geschlossene Modelle wie GPT-4 Turbo, Claude 3 Opus und Gemini 1.5 Pro bei Codierungs- und Mathematik-Benchmarks deutlich. DeepSeek-Coder-V2 sticht bei Codegenerierungs-Benchmarks wie HumanEval (Programmierproblem), MBPP+ (Python-Generierungsproblem) und LiveCodeBench (diversifiziertes Codeproblem) heraus. Dies zeigt in der Praxis seine fortgeschrittenen Fähigkeiten im mathematischen Denken und Code-Verständnis.

Darüber hinaus erzielt DeepSeek-Coder-V2-Lite-Base bei Code-Completion-Benchmarks wie RepoBench (hauptsächlich basierend auf Python und Java) sehr wettbewerbsfähige Ergebnisse und demonstriert seine Fähigkeit, Kontexte zu erfassen und relevante Vorschläge anzubieten. Wenn es schließlich um Codekorrektur-Benchmarks wie Defects4J (Fehlerbehebung) oder SWE-Bench (von GitHub gesammelte Probleme) geht, übertrifft DeepSeek-Coder-V2-Instruct (noch) seine Konkurrenten deutlich. Bei Aids (Codebearbeitung) übertrifft DeepSeek Coder V2 sogar die neueste Version von OpenAI: GPT-4o.

In den Benchmarks erweist sich DeepSeek-Coder-V2 letztlich als Referenz-LLM im Juni 2024 für Code-Generierung, automatische Vervollständigung und sogar für Code-Bearbeitung und Fehlerbehebung.

Eine leistungsstarke und effiziente MoE-Architektur

Um DeepSeek Coder V2 zu trainieren, bauten die DeepSeek-Forscher auf einer Zwischenversion der Gewichte von DeepSeek V2 auf, indem sie sie anhand neuer Daten trainierten. Der Datensatz umfasst insbesondere 60 % Quellcode, 10 % mathematische Inhalte und 30 % Korpus natürlicher Sprache. Der Quellcode (rund 1170 Milliarden Token) stammt hauptsächlich von GitHub und CommonCrawl. Theoretisch sind mehr als 338 Programmiersprachen vertreten (Python, Java, C, C++, C#, JavaScript, PHP, Ruby, Go, Swift, R, Scala, Rust usw.), verglichen mit 86 für die erste Version der Modell.

DeepSeek Coder V2 basiert logischerweise auf derselben Architektur wie DeepSeek V2: dem MoE. Es handelt sich nun um eine Architektur, die aufgrund ihres Hauptvorteils, ihres sehr guten Leistungs-/Effizienzverhältnisses, Einzug in die Codes hält. DeepSeek Coder V2 ist daher in zwei Versionen verfügbar. Lite mit 16 Milliarden Gesamtparametern und 2,4 Milliarden aktiven Parametern für die Inferenz. Und die klassische Version, die effizienteste, mit 236 Milliarden Gesamtparametern und 21 Milliarden aktiven Parametern für die Inferenz. Das Modell kann bis zu 128.000 Token verarbeiten, ein Kontextfenster, das groß genug ist, um lange Codedateien zu verarbeiten.

Effizienter und gut kommentierter Code

Kleiner Test: Wir bitten GPT-4o und DeepSeek Coder V2, ein Programm in Python zu generieren, das eine Liste von Ganzzahlen als Eingabe verwendet und die Summe aller geraden Zahlen in der Liste zurückgibt.

GPT-4o:

 def sum_of_even_numbers(int_list):      # Initialize sum to 0      even_sum = 0           # Iterate over each number in the list      for num in int_list:          # Check if the number is even          if num % 2 == 0:              # Add the even number to the sum              even_sum += num           return even_sum   # Example usage  if __name__ == "__main__":      # Example list of integers      numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]      # Call the function and print the result      print("Sum of even numbers:", sum_of_even_numbers(numbers))

DeepSeek Coder V2:

 def sum_even_numbers(numbers):      """      This function takes a list of integers and returns the sum of all even numbers in the list.           :param numbers: List of integers      :return: Sum of even numbers      """      return sum(num for num in numbers if num % 2 == 0)   # Example usage:  if __name__ == "__main__":      user_input = input("Enter a list of integers separated by spaces: ")      numbers = list(map(int, user_input.split()))      result = sum_even_numbers(numbers)      print("The sum of even numbers is:", result)  

GPT-4o bietet Code, der gut strukturiert ist, aber für mehr Prägnanz verbessert werden könnte. Der DeepSeek Coder V2-Code ist nahezu perfekt und die Kommentare sind besonders gut geschrieben. Dank der Verwendung der Funktion „sum()“ ist es auch am effizientesten. Der Vorteil ist hier also DeepSeek Coder V2.

Wie verwende ich DeepSeek Coder V2?

Während DeepSeek Coder auf seinen breiteren Einsatz bei den wichtigsten Cloud-Anbietern wartet, kann es kostenlos von Hugging Face heruntergeladen werden. Es werden vier Versionen angeboten. Die klassische Version verfügt über 236 Milliarden Parameter in Basis (nicht fein abgestimmt) und instruieren (fein abgestimmt für die Interaktion mit natürlicher Sprache). Die Lite-Version bietet eine Basis- und eine Befehlsversion mit 16 Milliarden Parametern. Die Schlussfolgerung des Lite- oder Classic-Modells erfordert weiterhin eine erhebliche Hardwarekonfiguration. Geeignet wären nur fortgeschrittenere Nvidia-RTX-GPU-Modelle.

Für Entwickler, die das Modell nutzen möchten, gibt es auf der DeepSeek-Website online eine Version in Form eines Konversationsagenten. Seien Sie vorsichtig, erklärt das chinesische Labor in seinen Nutzungsbedingungen, dass es Benutzerdaten und insbesondere die an die KI gesendeten Eingabeaufforderungen sammelt. DeepSeek bietet jedoch eine Alternative: vergünstigten API-Zugriff. DeepSeek Coder V2 ist für 0,14 $ pro Million Token für die Eingabe und 0,28 $ für die Ausgabe erhältlich. Die API scheint derzeit von Huawei Cloud in Singapur gehostet zu werden.

Der Preis pro Million Token der Modelle für den Code. © DeepSeek

Daher ist DeepSeek Coder V2 eine großartige Open-Source-Vorlage zum Codieren. Ob zur Generierung, Bearbeitung (Code-Review) oder sogar zur Autovervollständigung. Das Modell hat es sogar geschafft, Gründer amerikanischer Start-ups zu beeindrucken, die ebenfalls KI zur Codegenerierung entwickeln, wie unsere Kollegen von The Information berichten. Ein Insider, den man genau verfolgen sollte.

-

PREV Das Nothing Phone (2), ein Original-Smartphone, Preissenkung für den Verkauf
NEXT Franche-Comté. Mit der NASA wird die Musik des Victor-Hugo-Orchesters zum Mond geschickt