o3, das neueste OpenAI-Modell mit erweiterten Argumentationsfunktionen

Monday 23rd December 2024 05:45 AM

Der erste der „12 Tage von OpenAI“ stand im Zeichen der Ankündigung von ChatGPT Pro und dem OpenAI o1-Modell, die zuvor in der Vorschau waren. Am 20. Dezember schloss das Start-up die Serie mit der Vorstellung der o3-Familie ab, die sich noch in der Testphase befindet und mit deutlich verbesserten Argumentationsfunktionen ausgestattet ist.

OpenAi o3 ist die verbesserte Version seines Vorgängers o1. Da O2 der Name des größten Mobilfunknetzbetreibers im Vereinigten Königreich ist, hat OpenAI es vorgezogen, o2 zu ignorieren, um Konflikte zu vermeiden.

Die erweiterten Argumentationsfunktionen von OpenAI o1 und o3 basieren auf Gedankenketten und Reinforcement Learning (RL). Kettendenken ist ein Prozess, bei dem KI ein komplexes Problem in einfachere Teilprobleme zerlegt, bevor eine Lösung gefunden wird. Mithilfe von Reinforcement Learning perfektionieren Modelle diese Gedankenkette und verfeinern ihre Strategien. Sie lernen, ihre Fehler zu erkennen und zu korrigieren, komplexe Schritte in einfachere Schritte zu zerlegen und einen anderen Ansatz auszuprobieren, wenn der aktuelle Ansatz nicht funktioniert.

Die Fähigkeit, ein Problem in Schritte zu zerlegen und zu versuchen, die gegebenen Antworten kritisch zu beurteilen, um menschliches Denken zu simulieren, ist besonders nützlich in Bereichen, die langwierige und differenzierte Überlegungen erfordern:

Komplexe Mathematik : Mehrstufige Problemlösung, bei der eine einfache Berechnung oder ein logischer Fehler in einem Schritt das Endergebnis gefährden kann;
Programmierung : Analyse von Fehlern in einem Code und Entwicklung einer optimalen Lösung nach Abwägung mehrerer Optionen;
Wissenschaften : Verständnis und Anwendung komplexer wissenschaftlicher Theorien zur Lösung vielschichtiger Fragen.

Die OpenAI o3-Familie

Die neue Familie umfasst zwei Modelle: o3 und o3-mini, eine schnellere und wirtschaftlichere Version, die ähnliche Funktionen zu einem Bruchteil der Kosten und Latenzzeiten des o1-mini-Modells bietet, das sich laut OpenAI insbesondere in den Bereichen Mathematik und Codierung auszeichnet .

o3-Leistung

Zum Benchmark „Abstract and Reasoning Corpus for Artificial General Intelligence“ (ARC-AGI), der vom Erfinder von Keras, der Open-Source-Deep-Learning-Bibliothek, François Chollet, entwickelt wurde, um die Wirksamkeit des Kompetenzerwerbs durch KI bei unbekannten Aufgaben zu messen, o3 erzielte die besten Ergebnisse: Es verdreifachte nicht nur die Leistung von o1 mit einem Ergebnis von 75,7 % bei einer halbprivaten Bewertung, bei der die Rechenressourcen begrenzt sind, sondern erreichte auch die Leistung von 87,5 % bei der hohen Berechnungseinstellung.

François Chollet weist jedoch darauf hin, dass die Punktzahl von o3 beim nächsten ARC-AGI-2-Benchmark, der für 2025 geplant ist, selbst bei hoher Berechnung möglicherweise auf weniger als 30 % sinken könnte (während ein intelligenter Mensch immer noch in der Lage wäre, mehr Punkte zu erzielen). 95 % ohne Schulung).

Auch bei anderen Benchmarks wie dem GPQA Diamond in Mathematik, dem Frontier Math Benchmark von EpochAI oder Codeforces zeigte es eine beeindruckende Leistung.

Sicherere Modelle

OpenAI gibt an, für seine „O“-Modelle eine neue Sicherheitstechnik namens „Deliberative Alignment“ entwickelt zu haben, die die Argumentationsfähigkeiten der Modelle nutzt, um sichere und unsichere Eingabeaufforderungen besser zu identifizieren und so ihre Sicherheitsleistung zu verbessern.

Zur IAG?

Wenn das Modell OpenAI etwas näher an AGI heranführt, hat es immer noch Schwierigkeiten, einfache Aufgaben zu lösen. Darüber hinaus ist es teuer und erfordert beträchtliche Rechenressourcen, um seine optimale Leistung zu erzielen: etwa 20 US-Dollar pro Aufgabe bei geringer Rechenleistung, mehrere Tausend US-Dollar pro Aufgabe bei Konfigurationen mit hoher Rechenleistung, was den Einsatz in großem Maßstab behindern kann.

OpenAI hat Sicherheitsforschern den frühen Zugang zu den Modellen o3 und o3-mini eröffnet, um die Modelle vor ihrer öffentlichen Einführung zu testen, die für Ende Januar für o3-mini und kurz danach für o3 geplant ist.