Ein neues KI-Modell für das Agentenzeitalter

Eine Anmerkung von Sundar Pichai, CEO von Google und Alphabet:

Informationen sind der Kern des menschlichen Fortschritts. Aus diesem Grund konzentrieren wir uns seit mehr als 26 Jahren auf unsere Mission, die Informationen der Welt zu organisieren und sie zugänglich und nützlich zu machen. Und deshalb erweitern wir weiterhin die Grenzen der KI, um diese Informationen über alle Eingaben hinweg zu organisieren und über alle Ausgaben zugänglich zu machen, damit sie für Sie wirklich nützlich sein können.

Das war unsere Vision, als wir letzten Dezember Gemini 1.0 vorstellten. Gemini 1.0 und 1.5, das erste Modell, das auf native Multimodalität ausgelegt war, brachte große Fortschritte mit Multimodalität und langem Kontext, um Informationen in Text, Video, Bildern, Audio und Code zu verstehen und viel mehr davon zu verarbeiten.

Jetzt bauen Millionen von Entwicklern mit Gemini. Und es hilft uns, alle unsere Produkte – einschließlich aller sieben mit 2 Milliarden Nutzern – neu zu denken und neue zu entwickeln. NotebookLM ist ein großartiges Beispiel dafür, was Multimodalität und langer Kontext den Menschen ermöglichen können und warum es von so vielen geliebt wird.

Im letzten Jahr haben wir in die Entwicklung stärker agierender Modelle investiert, damit sie die Welt um Sie herum besser verstehen, mehrere Schritte vorausdenken und unter Ihrer Aufsicht in Ihrem Namen Maßnahmen ergreifen können.

Heute freuen wir uns, unsere nächste Modellära für diese neue Agentenära einzuführen: die Einführung von Gemini 2.0, unserem bisher leistungsfähigsten Modell. Mit neuen Fortschritten in der Multimodalität – wie der nativen Bild- und Audioausgabe – und der nativen Werkzeugnutzung wird es uns ermöglichen, neue KI-Agenten zu entwickeln, die uns unserer Vision eines universellen Assistenten näher bringen.

Wir geben 2.0 heute in die Hände von Entwicklern und vertrauenswürdigen Testern. Und wir arbeiten schnell daran, es in unsere Produkte zu integrieren, allen voran Gemini und Search. Ab heute steht unser experimentelles Gemini 2.0 Flash-Modell allen Gemini-Benutzern zur Verfügung. Wir führen außerdem eine neue Funktion namens „Deep Research“ ein, die erweiterte Argumentations- und Langzeitkontextfunktionen nutzt, um als Forschungsassistent zu fungieren, komplexe Themen zu untersuchen und in Ihrem Namen Berichte zu erstellen. Es ist ab heute in Gemini Advanced verfügbar.

Kein Produkt wurde durch KI stärker verändert als die Suche. Mittlerweile erreichen unsere KI-Übersichten 1 Milliarde Menschen und ermöglichen es ihnen, völlig neue Arten von Fragen zu stellen – was sich schnell zu einer unserer beliebtesten Suchfunktionen überhaupt entwickelt. Als nächsten Schritt bringen wir die erweiterten Argumentationsfunktionen von Gemini 2.0 in AI Overviews ein, um komplexere Themen und mehrstufige Fragen zu bewältigen, einschließlich fortgeschrittener mathematischer Gleichungen, multimodaler Abfragen und Codierung. Wir haben diese Woche mit begrenzten Tests begonnen und werden es Anfang nächsten Jahres breiter einführen. Und im Laufe des nächsten Jahres werden wir KI-Übersichten weiterhin in weitere Länder und Sprachen einführen.

Die Fortschritte von 2.0 werden durch jahrzehntelange Investitionen in unseren differenzierten Full-Stack-Ansatz für KI-Innovationen untermauert. Es basiert auf maßgeschneiderter Hardware wie Trillium, unseren TPUs der sechsten Generation. TPUs unterstützten 100 % des Gemini 2.0-Trainings und der Inferenz, und heute ist Trillium allgemein für Kunden verfügbar, sodass sie auch damit bauen können.

Während es bei Gemini 1.0 darum ging, Informationen zu organisieren und zu verstehen, geht es bei Gemini 2.0 darum, sie viel nützlicher zu machen. Ich kann es kaum erwarten zu sehen, was diese nächste Ära bringt.

-Sundar

Related posts