GP4-o Audio, o3: „Argumentation“ und Stimme, die beiden Modeerscheinungen von OpenAI

Monday 23rd December 2024 01:06 PM

Während seines Ankündigungsmarathons im Dezember hob OpenAI insbesondere seine Funktionen rund um ChatGPT hervor.

Tatsächlich hängen sie alle von der Weiterentwicklung ihrer wichtigsten Sprachmodelle und Werkzeuge ab. „Waffen“, die das Startup den Entwicklern zur Verfügung stellt.

Beginnend mit der allgemeinen Verfügbarkeit der Modellkollektion „reasoning“ 01, Veröffentlichung ihrer Prognose. Zusätzlich zu Funktionsaufrufen wäre dieses LLM in der Lage, strukturierte Inhalte (einschließlich JSON-Schemas) zu generieren und Bilder als Eingabe zu lesen. OpenAI hat vor allem Maßnahmen ergriffen, um die Nutzungskosten zu senken, indem die Menge der Token für „Reasoning“ reduziert wurde. In diesem Sinne liefert es einen API-Parameter namens „Reasoning Effort“. „Reasoning-Bemühungen“ werden verwendet, um sowohl die Verarbeitungsdauer als auch die Menge der zur Ausführung einer Aufgabe erforderlichen Token zu steuern. Das Startup führte außerdem ein Anleitungssystem ein, das darauf abzielt, die Ergebnisse der Entwickler weiter zu steuern.

Ein Arsenal an Tools zur Nutzung von o1- und GPT-4o-Audiomodellen

Funktionen wie der erweiterte Sprachmodus werden teilweise durch Verbesserungen der Realtime Transcript API ermöglicht, die von der Integration mit WebRTC in JavaScript profitiert. Es umfasst Funktionen zur Audiokodierung und Streaming-Verwaltung, Rauschunterdrückung und Bitratensteuerung.

Die Echtzeit-API befindet sich noch in der Betaphase und wird von der Verfügbarkeit der gpt-4o mini-Echtzeitvorschau begleitet, einer Variante des Modells, die Text und Audio verarbeiten kann, sowie der gpt-4o-Audio- und mini-Audiovorschau-Version, beides ausschließlich Sprach-zu-Sprache-Modelle .

Die API, die es Ihnen ermöglicht, per Sprache mit GPt4o zu interagieren, profitiert von neuen Parametern, um die Verarbeitung der Inhaltsfilterung zu parallelisieren und Kontext hinzuzufügen, um die Sprachantwort zu generieren. Es ist auch möglich, die Beantwortung einer Frage auf der Serverseite hinauszuzögern, indem mehr Informationen über den menschlichen Gesprächspartner gesammelt werden. Die Reaktion kann dann manuell oder über a ausgelöst werden. Sitzungen können jetzt 30 Minuten statt bisher 15 Minuten dauern.

Hier gibt OpenAI an, die Preise für seine Voice-to-Voice-Modelle drastisch gesenkt zu haben.

„Der Preis von GPT-4o mini für Audio beträgt 10 US-Dollar pro Million Input-Tokens und 20 US-Dollar pro Million Output-Tokens“, heißt es in der Dokumentation des Anbieters. „Text-Token kosten 0,60 US-Dollar pro Million Eingabe-Token und 2,40 US-Dollar pro Million Ausgabe-Token. Zwischengespeicherte Audio- und Textdateien kosten jeweils 0,30 US-Dollar pro Million Token.“

Darüber hinaus verfügen Entwickler über Betarechte an SDKs für Java und Go, zusätzlich zu den bereits verfügbaren Entwicklungskits für Python, .Net, TypeScript/JavaScript.

OpenAI drängt Unternehmen zur Feinabstimmung ihrer Modelle

Ganz zu schweigen davon, dass OpenAI davon überzeugt ist, dass es Entwicklern eine leichte Feinabstimmung mit Präferenz-Feinabstimmungstechniken und insbesondere der Direct Preference Optimization (DPO) ermöglichen kann. Diese Technik, die normalerweise in den letzten Trainingsphasen eines LLM verwendet wird, besteht aus der Bereitstellung eines Datensatzes mit Fragen oder Eingabeaufforderungen und Antworten, die von Annotatoren verglichen werden. Einige sind ideal und andere „suboptimal“ oder weniger gut („A ist besser als B“). Anschließend ermöglichen die Antwortvergleichsbezeichnungen eine direkte Optimierung der Modellparameter, um die Menge unerwünschter Ausgaben zu reduzieren.

Diese Methode ist von der überwachten Feinabstimmung zu unterscheiden, bei der feste Etiketten verwendet werden, die besser geeignet ist, sachliche und strukturiertere Antworten zu erhalten. „Da Preference Fine-Tuning aus paarweisen Vergleichen und nicht aus festen Zielen lernt, ist es besonders effektiv für subjektive Aufgaben, bei denen Ton, Stil und Kreativität wichtig sind“, sagt OpenAI. Etwa zehn Proben würden ausreichen, um erste Ergebnisse zu erhalten.

Apropos Reinforcement Learning: OpenAI startet ein Forschungsprogramm zum „Reinforcement Fine-Tuning“ (RFT), also einer spezifischen Technik zur Verfeinerung des Wissens über LLMs durch eine Trainingsschleife mit einem Belohnungsmodell. DAS OpenAI-Belohnungsmodell, der Schlüssel zu seinem technischen Erfolg.

Hier möchte das Startup Großkunden und Forschern ein Tool (in Alpha) zur Verfügung stellen, mit dem sie LLM o1 spezialisieren können, um anhand einiger tausend Beispiele „komplexe“ Aufgaben in ihren jeweiligen Bereichen zu bewältigen: Finanzen, Recht, medizinische Forschung usw.

Die Datensätze bestehen aus einem Fall, einer Reihe von Anweisungen und einer „richtigen“ Antwort, die vor dem zu trainierenden LLM verborgen bleiben, aber vom Belohnungsmodell zur Bewertung der Vorhersage des LLM verwendet werden.

Abhängig von der auszuführenden Aufgabe gibt es mehrere Belohnungsmodelle, hier „Evaluator“ genannt. Laut OpenAI-Forschern würde das RFT-Training je nach Menge der Eingabedaten einige Stunden bis mehrere Tage dauern. Die Technik würde es ermöglichen, ein o1-Minimodell so zu trainieren, dass es effizienter ist als ein generisches LLM-o1, was die Bewältigung einer „Experten“-Aufgabe wie die Bestimmung des/der für eine Krankheit verantwortlichen Gene(s) betrifft. Der RFT-Stream wird nächstes Jahr allgemein verfügbar sein.

OpenAI stellt o3 vor (um Telefónica nicht zu beleidigen)

Aber der am meisten erwartete Start im nächsten Jahr ist kein anderer als der von o3. „Man hätte vielleicht gedacht, dass dieses Modell o2 heißen würde, aber aus Respekt vor unseren Freunden bei Telefónica [propriétaire de l’opérateur et de la marque O², N.D.L.R] Und in der großen OpenAI-Tradition, sich wirklich schlecht Namen auszudenken, wird es o3 heißen“, sagt Sam Altman, Mitbegründer und CEO von OpenAI, im neuesten Video der Ankündigungsreihe.

Diese mit „Denkketten“-Techniken trainierten „Argumentations“-Modelle wären bereits besser als o1, wenn sie einmal mit Programmier-, Mathematik- und Grundlagenforschungsaufgaben konfrontiert würden.

„Wir sättigen die uns zur Verfügung stehenden Benchmarks fast vollständig“, sagt Mark Chen, Senior Vice President of Research bei OpenAI. Daher besteht die Notwendigkeit, immer schwierigere Vergleiche zu finden und zu entwerfen. OpenAI arbeitet mit der ARC Foundation zusammen, um einen Benchmark für o3 zu entwickeln, der bereits beispiellose Leistungsniveaus erreichen würde.

Während normale Menschen und Unternehmen bis zum nächsten Jahr warten müssen, um die o3- und o3-Mini-Kollektion auszuprobieren, sind Forscher, die sich auf kontroverse Techniken spezialisiert haben, eingeladen, an dem Testprogramm teilzunehmen, das in der Nacht von Freitag auf Samstag geöffnet ist. Tatsächlich versucht OpenAI, die Leistung seiner (neuen) Methode zur Ausrichtung von Reaktionen auf menschliche Präferenzen, der sogenannten deliberativen Ausrichtung, zu testen.

Hier geht es darum, dem LLM die Möglichkeit zu geben, „überlegen“ zu können – nämlich Überlegungen anzustellen, um herauszufinden, ob die Anfrage eines Benutzers akzeptabel ist oder nicht, ohne dem Benutzer die Einzelheiten anzuzeigen. Er muss lediglich die endgültige Antwort erhalten. Der Prozess weicht erheblich von Ansätzen zum verstärkenden Lernen mit menschlichem Feedback und der von Anthropic entwickelten konstitutionellen KI ab.

„Wir trainieren ein Modell in zwei Phasen, um seine Nützlichkeit und Sicherheit sicherzustellen. Zunächst wird das Modell ohne sicherheitsrelevante Daten verfeinert. Dann generieren wir einen Datensatz, in dem die Argumentationsketten (Chain of Thoughts oder CoTs) die Sicherheitsspezifikationen dank angereicherter Systemaufforderungen integrieren“, gibt OpenAI in einem Blogbeitrag an.

Durch überwachte Verfeinerung (Supervised Refinement, SFT) lernt das Modell, auf der Grundlage von Sicherheitsspezifikationen zu schlussfolgern. Reinforcement Learning (RL) soll die Nutzung dieser Überlegungen verbessern, mit einem Belohnungsmodell, das an Sicherheitsrichtlinien ausgerichtet ist.

Zur Generierung synthetischer Daten werden Eingabevorgaben und Eingabeaufforderungen verwendet. Dies würde die Notwendigkeit menschlicher Anmerkungen überflüssig machen und die Feinabstimmungsschleife einfacher machen.