OpenAI hat endlich die Echtzeit-Videofunktionen für ChatGPT veröffentlicht, die es vor fast sieben Monaten vorgeführt hat.
Am Donnerstag gab das Unternehmen während eines Livestreams bekannt, dass der Advanced Voice Mode, seine menschenähnliche Konversationsfunktion für ChatGPT, eine Vision erhält. Mit der ChatGPT-App können Benutzer, die ChatGPT Plus, Team oder Pro abonniert haben, ihre Telefone auf Objekte richten und ChatGPT nahezu in Echtzeit reagieren lassen.
Der erweiterte Sprachmodus mit Vision kann über die Bildschirmfreigabe auch verstehen, was auf dem Bildschirm eines Geräts angezeigt wird. Es kann beispielsweise verschiedene Einstellungsmenüs erklären oder Anregungen zu einer Mathematikaufgabe geben.
Um auf den erweiterten Sprachmodus mit Vision zuzugreifen, tippen Sie auf das Sprachsymbol neben der ChatGPT-Chatleiste und dann auf das Videosymbol unten links, um das Video zu starten. Um den Bildschirm freizugeben, tippen Sie auf das Dreipunktmenü und wählen Sie „Bildschirm teilen“.
Die Einführung des Advanced Voice Mode mit Vision wird laut OpenAI am Donnerstag beginnen und in der nächsten Woche abgeschlossen sein. Allerdings erhalten nicht alle Benutzer Zugriff. Laut OpenAI erhalten ChatGPT Enterprise- und Edu-Abonnenten die Funktion erst im Januar und es gibt keinen Zeitplan für ChatGPT-Benutzer in der EU, der Schweiz, Island, Norwegen oder Liechtenstein.
In einer aktuellen Demo auf CNNs „60 Minutes“ führte OpenAI-Präsident Greg Brockman einen Advanced Voice Mode mit Sehtest durch und befragte Anderson Cooper zu seinen anatomischen Fähigkeiten. Während Cooper Körperteile auf eine Tafel zeichnete, konnte ChatGPT „verstehen“, was er zeichnete.
„Der Standort ist genau richtig“, sagte ChatGPT. „Das Gehirn sitzt direkt im Kopf. Was die Form betrifft, ist es ein guter Anfang. Das Gehirn ist eher oval.“
In derselben Demo machte der Advanced Voice Mode mit Vision jedoch einen Fehler bei einem Geometrieproblem, was darauf hindeutet, dass er zu Halluzinationen neigt.
Der erweiterte Sprachmodus mit Vision wurde mehrfach verzögert – Berichten zufolge teilweise, weil OpenAI die Funktion lange vor ihrer Produktionsreife angekündigt hat. Im April versprach OpenAI, dass der Advanced Voice Mode „innerhalb weniger Wochen“ für Benutzer verfügbar sein werde. Monate später erklärte das Unternehmen, es benötige mehr Zeit.
Als der erweiterte Sprachmodus im Frühherbst für einige ChatGPT-Benutzer endlich eingeführt wurde, fehlte ihm die visuelle Analysekomponente. Im Vorfeld des Starts am Donnerstag hat OpenAI seine Aufmerksamkeit darauf gerichtet, das ausschließlich sprachbasierte Advanced Voice Mode-Erlebnis weiteren Plattformen und Benutzern in der EU zugänglich zu machen.
Konkurrenten wie Google und Meta arbeiten an ähnlichen Funktionen für ihre jeweiligen Chatbot-Produkte. Diese Woche hat Google seine Echtzeit-Videoanalyse-Konversations-KI-Funktion Project Astra einer Gruppe „vertrauenswürdiger Tester“ auf Android zur Verfügung gestellt.
Zusätzlich zum Advance Voice Mode mit Vision hat OpenAI am Donnerstag einen festlichen „Santa Mode“ eingeführt, der die Stimme des Weihnachtsmanns als voreingestellte Stimme in ChatGPT hinzufügt. Benutzer können es finden, indem sie in der ChatGPT-App neben der Eingabeaufforderungsleiste auf das Schneeflockensymbol tippen oder klicken.