Die neue o3-Modellfamilie wurde im Rahmen der „12 Days of OpenAI“-Konferenz vorgestellt, die, wie der Name schon sagt, satte 12 Tage dauerte. Das Unternehmen wartete auch bis zum Ende seines Marathons, um bekannt zu geben, was als Höhepunkt der Show in Reserve gehalten wurde. Für OpenAI ist die Ankündigung umso wichtiger, als sie es uns ermöglicht, zwei aktuelle Probleme anzugehen: die Zuverlässigkeit von Antworten und den Wettlauf um AGI.
Außerdem, warum o3 und nicht o2? Laut The Information befürchtete OpenAI einen möglichen Konflikt mit dem Betreiber O2 im Vereinigten Königreich. Laut TechCrunch hat der CEO von OpenAI selbst, Sam Altman, dies am Freitag halbherzig bestätigt. Wir sind immer noch überrascht, dass der Name o1 gewählt werden konnte, obwohl man wusste, dass o2 ein Problem darstellen würde.
Was ist o3?
Die Familie besteht derzeit aus zwei Modellen, o3 und o3-mini. Letzterer wird als erster herauskommen. Es wird für Januar erwartet, während das Standard-o3-Modell später im Jahr auf den Markt kommen soll, weitere Details liegen noch nicht vor.
Wir werden vielleicht überrascht sein, wie nahe die tatsächliche Veröffentlichung von o1 vor ein paar Wochen (gleichzeitig mit einem ChatGPT Pro-Angebot für 200 $ pro Monat) und die Präsentation von o3 liegen. Aber OpenAI hatte viel zu seinem Modell zu sagen, da o1 einen ersten Schritt in Richtung „Begründung“ darstellte und die Fortschritte nach Angaben des Unternehmens schnell waren.
o3 ist somit gewissermaßen in der Lage, sich selbst zu verifizieren. Er verwendet eine Technik namens „ bewusste Ausrichtung “, über die wir nur wenige Informationen haben. Es muss es dem Modell ermöglichen, einige der Fallstricke zu vermeiden, die normalerweise bei großen Sprachmodellen auftreten, einschließlich ihrer relativen Unfähigkeit, die Zuverlässigkeit von Informationen sicherzustellen.
Diese Überprüfungsschritte verursachen Latenz. Je nach Anfrage kann die Antwort im Vergleich zu einem klassischen LLM mit einer Verzögerung von einigen Sekunden bis mehreren Minuten eintreffen. Dies war bereits bei o1 der Fall, doch o3 verstärkt diesen Aspekt. Daher muss das neue Modell in Bereichen wie Mathematik, Physik und Naturwissenschaften im Allgemeinen zuverlässiger sein.
o3 macht daher eine Pause, bevor er antwortet, und nimmt sich Zeit zum Nachdenken. Laut OpenAI wird diese Zeit für Berechnungen zu verwandten Fragen aufgewendet, um (intern) die Entwicklung der Antwort zu erklären. Die vorgeschlagene Antwort ist dann eine Zusammenfassung dessen, was o3 als die genaueste Antwort erachtet.
Verbesserungen seit o1
o1 wurde erst vor drei Monaten angekündigt und war das erste Argumentationsmodell von OpenAI. Seine Ausbildung erfolgte mit Reinforcement Learning (RL). o3 greift diese Idee auf, allerdings mit deutlich ausgereifterer Verstärkung, auch wenn OpenAI wiederum keine genauen Zahlen nennt. „ Die Stärke des resultierenden Modells ist sehr, sehr beeindruckend », Erklärt auf X Nat McAleese, Forscher bei OpenAI.
Im Vergleich zu o1 ermöglicht o3 auch die Anpassung der Argumentationszeit und damit der Verifizierung der Antworten. Es stehen drei Stufen zur Auswahl: niedrig, mittel oder hoch. Je höher die Stufe, desto präziser sind die Ergebnisse und desto länger dauert die Anzeige. Umgekehrt können wir Abstriche bei der Präzision machen, um schnelle Antworten zu erhalten. Aber seien Sie vorsichtig, denn auch bei größerer Präzision achtet OpenAI darauf, nicht zu sagen, dass sein Modell keine Fehler macht, sondern lediglich, dass es weniger als o1 macht.
Das Unternehmen lieferte dennoch eine Reihe von Ergebnissen, um das neue Modell bei bestimmten Benchmarks mit dem alten zu vergleichen:
- Halbprivate ARC-AGI-Bewertung: 75,7 %
- EpochAI Frontier Math: 25,2 % der Probleme gelöst, verglichen mit 2 % bei „anderen Modellen“
- SWE-Bench verifiziert: 71,7 Punkte, verglichen mit 48,9 für o1
- Codeforces: Elo-Score von 2.727
- AIME 2024: 96,7 %, verglichen mit 83,3 % für o1
- GPQA Diamond: 87,7 %, verglichen mit 78 % für o1
„Ein bedeutender Schritt nach vorne“
In einem Tweet am Freitag wies François Chollet, der Erfinder von Keras und ARC-AGI, darauf hin, dass o3 „ stellt einen bedeutenden Fortschritt bei der Anpassung der KI an neue Aufgaben dar “. Er sagte, die Punktzahl von 75,7 % sei im niedrigen Berechnungsmodus erreicht worden, was Kosten von 20 US-Dollar pro Berechnungsaufgabe bedeute. In der höchsten Stufe steigt der Wert auf 87,5 %, die Berechnung ergibt dann aber „ Tausende von Dollar pro Aufgabe ».
ARC-AGI wurde entwickelt, um zu beurteilen, inwieweit ein System der künstlichen Intelligenz neue Fähigkeiten erwerben kann, die über die Daten hinausgehen, auf denen es trainiert wurde.
In einem speziellen Beitrag betont der Verein ARC Prize den wichtigen Schritt, den o3 darstellt, und liefert einige Vergleichselemente. Es dauerte vier Jahre, bis der Wert von 0 % bei GPT-3 im Jahr 2020 auf 5 % bei GPT-4o anstieg. Ziel des ARC-Preises ist es, „ ein Polarstern in Richtung IAG », weist sie darauf hin, dass bei den nächsten Tests O3 berücksichtigt werden muss.
Die 2025-Version des Benchmarks wird daher schwieriger sein. Sie fügt hinzu, dass die Leistung von o3 beweist: „ dass Architektur wesentlich ist “, denn GPT-4 hätte diese Ergebnisse nicht durch einfache Leistungssteigerung erreichen können. „ Es reicht nicht aus, so zu skalieren, wie wir es von 2019 bis 2023 getan haben », fügt ARC-Preis hinzu.
Und was kommt als nächstes?
Die Präsentation von o3 erfolgte drei Monate nach der von o1. Laut OpenAI soll dieses Tempo beibehalten werden. Die Frage ist jedoch, ob das Unternehmen in der Lage sein wird, sein Modell zu verfeinern, um den gleichen Fortschrittsspielraum beizubehalten.
Noch wichtiger: Können wir sagen, dass o3 ein Meilenstein in Richtung künstlicher allgemeiner Intelligenz ist? Das ist nicht so offensichtlich. Einerseits scheinen die Ergebnisse und Leistungen des Modells eindeutig in diese Richtung zu weisen. Stellt ein solches Modell andererseits zwangsläufig die Zukunft dar? Denn wenn die Präzision einen Schritt nach vorne macht, sind Reinforcement Learning und Inferenz viel teurer als bei traditionelleren LLMs wie der GPT-Serie.
Diese sind im Moment nicht unbedingt veraltet. Obwohl o-Modelle den Vorteil der Genauigkeit haben, behält GPT den Vorteil der Kosten und der geringen Latenz. Es ist jedoch schwierig, allgemeine Aussagen zu treffen, da tatsächlich nur das Modell o1 verfügbar ist. Wir müssen bis Januar warten, bis o3-mini eintrifft, und dann werden wir die ersten „echten“ Ergebnisse sehen, da derzeit nur die von OpenAI bereitgestellt werden.
Denken Sie abschließend daran, dass OpenAI nicht der Einzige auf dem Markt für „Reasoning“-Modelle ist. Vor weniger als zwei Wochen stellte Google sein Gemini 2.0 Flash Thinking Experimental vor, das über AI Studio getestet werden kann. Einige Tage später tat ein chinesisches Unternehmen dasselbe mit einem Modell namens DeepSeek-R1.
Einer der interessantesten Aspekte dieser neuen Welle ist, dass sie die Komplexitätsmauer für LLMs bestätigt, die wir mit der Datenwissenschaftlerin Cécile Hannotte besprochen haben. Das Hinzufügen von Rechenschichten und GPUs reicht nicht aus, es sind andere Ansätze erforderlich. Argumentationsmodelle sind ein, aber nicht unbedingt ein so großer Schritt in Richtung AGI, wie OpenAI sagt. Die Leistungsentwicklung muss daher genau beobachtet werden.
Related News :