Ehemaliger Google-Designer enthüllt, was hinter KI-Modellen wie Gemini steckt

Google hat Gemini 2.0 auf den Markt gebracht und ist damit der Schaffung eines universellen persönlichen Assistenten einen Schritt näher gekommen.
Ein ehemaliger Gemini-Gesprächsdesigner sprach über die Best Practices für das Chatbot-Design.
Er sagte, dass Googles KI-Produkte und seine Suchmaschine Probleme mit der Selbstkannibalisierung hätten.

Google hat diese Woche sein Modell Gemini 2.0 auf den Markt gebracht und verspricht eine „agentischere“ KI, um den Menschen eine Version eines universellen persönlichen Assistenten näher zu bringen.

Als Google im vergangenen Dezember Gemini 1.0 herausbrachte, wollte es mit ChatGPT von OpenAI konkurrieren. Gemini veränderte schnell die Art und Weise, wie Nutzer Google selbst erlebten, von der Bereitstellung einer Übersicht über Suchmaschinenergebnisse bis hin zum Produkt NotebookLM, das geschriebene Notizen in einen gesprochenen Podcast umwandeln kann. Die Version 2.0 verfügt über Funktionen wie „Deep Research“, mit denen Gemini das Internet nach Informationen durchsuchen und Berichte erstellen kann.

Da KI-Assistenten in ihrer Ausführung immer menschenähnlicher werden, müssen sich die Ingenieure und Designer, die sie bauen, mit den Fragen der Verantwortung und des Tons auseinandersetzen. Einige KI-Chatbots können sich beispielsweise weigern, Antworten zu potenziell sensiblen Themen zu geben.

Business Insider sprach mit Kento Morita, einem ehemaligen Google Gemini-Gesprächsdesigner und japanisch-amerikanischen Schauspieler und Komiker.

Morita arbeitete zuvor an der Gestaltung von Konversationsabläufen für Amazon Alexa und Google Gemini und konzentrierte sich dabei insbesondere auf die Entwicklung einer japanischen Persona für die KI. Er gab Einblicke in die Denkweise von KI-Chatbot-Designern bei der effizienten Bereitstellung von Informationen für Benutzer und in die Herausforderung, vor der Google steht, wenn es darum geht, seine Suchmaschine und KI-Produkte in Einklang zu bringen.

Das Folgende wurde aus Gründen der Länge und Klarheit bearbeitet.

Business Insider: Wie werden „Töne“ für sensible Themen für KI gestaltet?

Kento Morita: Wann immer wir eine Frage erhalten, die möglicherweise heikel ist, durchläuft sie eine Art Checkliste wie: Ist das politischer Natur? Ist das sexueller Natur? Erzeugt dies etwas, das kontrafaktisch ist, und wann? Wenn die Antwort „Ja“ lautet, wird ein Prozess durchlaufen, um sicherzustellen, dass letztendlich alle diese Unternehmen ihr Logo neben der von ihnen gegebenen Antwort haben. Ähnlich wie bei Warren Buffetts Faustregel sollten wir froh sein, das am nächsten Tag auf der Titelseite der New York Times oder der Washington Post zu sehen, und darauf sollten wir stolz sein.

Die wichtigste Frage, die wir beantworten müssen, lautet: Ist es für ihr Endergebnis produktiv, Google oder ChatGPT oder irgendjemandem diese Antwort zuzuordnen?

Ist dies nicht der Fall, machen wir das sogenannte Stochern. Wir sagen nur: „Entschuldigung, bei einer solchen Antwort kann ich jetzt nicht helfen.“ Es ist ein Balanceakt. Manche Themen wollen wir gar nicht erst mit einer zehn Fuß langen Stange ansprechen, aber es gibt Dinge, auf die wir Antworten geben wollen, wie zum Beispiel die Berichterstattung über die Wahlnacht – jeder wird sich fragen, was passiert.

Wir möchten sicherstellen, dass durch die Beantwortung von mehr Fragen mehr Menschen auf unserer Website bleiben. In diesen Unternehmen besteht immer ein Spannungsverhältnis, so viele Fragen wie möglich beantworten zu wollen, was alle LLMs können, aber es muss auch ausgeglichen werden, ob dies zu mehr negativer Presse führt oder potenziell gefährliche Antworten liefert ? Viele Gespräche mit der Rechtsabteilung, mit dem Marketingteam und mit dem Vertrieb. Es ist ein ständiges Gespräch darüber, wie wir das angehen wollen.

Es ist immer eine Frage, welche Prioritäten gesetzt werden sollen.

Es ist auch ein Problem der Kannibalisierung eines Marktes.

Eines der größten Produkte von Google ist die Suche. Was bedeutet die Bereitstellung von Gemini für das Suchgeschäft? Es ist eine fortwährende existenzielle Frage.

Für Unternehmen wie Google könnten Unternehmen wie Perplexity AI hier tatsächlich einen Vorteil haben, würde ich sagen, weil es ihnen darum geht, ein Produkt zu entwickeln und ein Produkt wirklich gut zu machen. Tatsächlich stoßen sie nicht auf Selbstkannibalisierungsprobleme. Ich denke, dass wirklich interessante und wirklich mutige Dinge von Unternehmen passieren, die nicht mit einem großen Konzern verbunden sind. Ich denke, das ist nur natürlich.

Google hat Gemini unter die DeepMind-Organisation verschoben. Ich weiß wirklich nicht, warum sie das getan haben, aber als [former] Als Mitarbeiter und auch als Person, die Google schon seit langem verfolgt, ist es interessant, dass sie viele der KI-Unternehmen unter einer Organisation konsolidieren, insbesondere angesichts der Kartellrechtsklage, die derzeit rund um Google geführt wird, und der Diskussion, die sie geführt haben Wir streiten mit dem Justizministerium darüber, ob wir Google aufteilen sollen oder nicht. Wenn sie es aufteilen, denke ich zumindest, dass sie ein Gespräch darüber führen werden, inwieweit eine Aufteilung sinnvoll sein wird. Und dass Gemini Teil einer KI-Organisation und nicht einer Suchorganisation ist, halte ich für durchaus sinnvoll.

Wir sind es gewohnt, die Google-Suche mit Anzeigen oben zu nutzen. Jetzt ist es soweit Zwillinge. Es ist zwar nicht das aktuellste Ergebnis, aber es ist ein Wandel.

Das Google Search-Team besteht aus brillanten Ingenieuren. Ihr North Star-Ziel ist es, relevante und genaue Suchergebnisse bereitzustellen, und das war schon immer ihr Ziel. Und dann geben Sie jetzt Anzeigen ein. Jetzt geben Sie die Google Shopping-Ergebnisse ein. Dann bringen Sie Zwillinge ins Spiel. All diese anderen Faktoren innerhalb der Organisation wirken sich auf das Design der Google.com-Website aus.

Es würde mich nicht wundern, wenn viele der Ingenieure und Leute, die schon am längsten an der Google-Suche arbeiten, sehr frustriert wären. Abgesehen davon wäre ich auch nicht überrascht, wenn sie die Idee begrüßen würden, das Unternehmen aufzulösen, damit sie sich auf das konzentrieren können, was sie gerne tun, nämlich gute Suchergebnisse bereitzustellen.

Können Sie mir etwas über die Geschichte erzählen? Hinzufügen von Fußnoten zu Chatbots und ob das eine bewusste Entscheidung war? Wie haben Halluzinationen die heutige Reaktion von Chatbots verändert?

Selbst bei Google Assistant und Amazon Alexa hieß es bei einer sachlichen Frage sofort, laut Wikipedia: bla bla bla, oder laut XYZ bla bla bla. Damals war es ziemlich schwierig, die Leute davon zu überzeugen, dass das eine gute Idee ist. Und der Grund dafür ist, dass man aus gesprächstechnischer Sicht jemanden fragt: „Wann wurde XYZ erfunden?“ Sie möchten nicht wirklich hören, dass XYZ laut Wikipedia 1947 erfunden wurde. Sie möchten nur die Antwort hören. Schnell zur Antwort zu kommen, gilt als Tugend des Designs. Google hat so viel Zeit und Mühe darauf verwendet, die Zeit bis zur Anzeige der Suchergebnisse so kurz wie möglich zu gestalten. Daher liegt es in der DNA von Google, dem Kunden die Antwort so schnell wie möglich zu übermitteln.

Wir mussten uns für Fußnoten einsetzen. Was sie wirklich überzeugte, war die Idee, dass man sich in dem Moment, in dem man eine Website zuschreibt, der Verantwortung für die Richtigkeit dieser Informationen einer anderen Website entziehen kann.

Wenn ich also laut Wikipedia XYZ sage, bin ich nicht mehr dafür verantwortlich, ob das, was ich sage, richtig ist oder nicht. Ich könnte mich dieser Verantwortung einfach gegenüber Wikipedia entziehen. Und als die Leute anfingen, heikle Fragen über Antisemitismus oder ähnliche Verschwörungstheorien zu stellen, erlaubt uns die Möglichkeit, laut XYZ sagen zu können, dass dies der Fall zu sein scheint, von dieser Aussage zu distanzieren, was sehr, sehr nützlich ist wenn es um das Markenimage von Google geht.

Wenn Sie etwas mit der Bezeichnung „Google Assistant“ haben und sagen, dass dies passiert ist, können Sie nicht anders, als Google mit dem in Verbindung zu bringen, worüber Sie sprechen. Diese distanzierende Sprache ermöglicht es uns also, weniger Verantwortung für die präsentierten Informationen zu übernehmen. Daher denke ich, dass dieser Ethos erhalten geblieben ist und diese Art von Argumentation wirklich nützlich war, um die Leute in diesen Unternehmen davon zu überzeugen, unsere Quellen zu zitieren. Wie Perplexity AI haben sie tatsächlich mehr Freiheit, über kontroversere Themen zu sprechen, weil sie alles so explizit mit Fußnoten versehen.

Sie müssen nichts redaktionell bearbeiten, was gerade bei kontroversen und sensiblen Themen ein großer Vorteil ist.

Erklärbarkeit ist etwas, worüber im LLM-Bereich viel gesprochen wird. LLMs fühlen sich für viele Menschen wie eine Blackbox an, als ob man etwas Text eintippt und dieser Text ausspuckt. Aber letztlich handelt es sich um eine Vorhersagemaschine. Es war sehr, sehr wichtig, der Inhaltsgestaltung rund um diese Black Box, die eine Vorhersagemaschine darstellt, Leitplanken hinzuzufügen und sie zu redaktionell zu gestalten, insbesondere im Hinblick auf vertrauliche Informationen.

Wenn Google Gemini und andere KI Quellen zitieren, handelt es sich dann immer noch um eine Vorhersagemaschine?

Es gibt dieses Ding namens RAG (Retrieval Augmented Generation). Ich denke, was sie tun, besteht darin, Quellen wie AP News und Reuters höher zu indizieren, um diese Quellen und die darin enthaltenen Informationen stärker zu beeinflussen. Wenn das LLM weitere Informationen von ihnen abruft, gibt es im Hintergrund einen Zuordnungsmechanismus, der es ihnen ermöglicht zu sagen: „Wir nutzen RAG, um Reuters oder AP News anzurufen, um ihre Informationen abzurufen.“ Ich glaube nicht, dass es eine Vorhersage ist. Es ist viel fester codiert.

Bei manchen Themen wie Abtreibung nehmen KI-Chatbots einen fürsorglichen Ton an, etwa wenn sie fragen: „Haben Sie Bedenken?“ Das ist ein deutlicher Tonwechsel.

Das ist eines der größten Dinge, auf die ich sehr stolz bin. Während der Entwicklung von Google Assistant haben wir uns mit Fachleuten für psychische Gesundheit und Menschen, die diese Dienste anbieten, unterhalten und sie gefragt, welche Worte über Selbstmord oder Selbstverletzung auch immer fielen , wenn wir den Benutzern eine Nummer für diese Hotline Nr. 1 geben könnten, wäre das hilfreich? Nr. 2, welche Sprache eignet sich dafür am besten? Wir haben mit all diesen Ressourcen sehr sorgfältig gesprochen.

Ich selbst habe mit japanischen Ressourcen und japanischen Hotline-Anbietern gesprochen und wir haben diese Nachrichten übersetzt. Es hat viel Zeit gekostet, aber wir haben versucht sicherzustellen, dass jeder Benutzer, auch Benutzer, die über Selbstverletzung nachdenken, die bestmöglichen Informationen erhält.

Wenn es um Abtreibung geht, passt das in den gleichen Rahmen der Strategie, der Inhaltsstrategie: Wie stellen wir sicher, dass Menschen, die nach Abtreibung suchen, wie stellen wir sicher, dass sie die Informationen auf eine Weise erhalten, die sicher ist und ihnen letztendlich zum Leben verhilft? das Leben, das sie wollen? Als ich bei Google war, konnten wir unser Leitbild erfüllen, nämlich die Informationen der Welt zu sammeln und sie für alle so nützlich und zugänglich wie möglich zu machen.

Letztlich wird es eine Demokratisierung dieser Motoren geben. Jedes Unternehmen wird irgendwann in 5–10 Jahren über ein recht anständiges LLM verfügen. Der Unterschied, ob ich zu X oder ChatGPT oder Google oder Alexa oder was auch immer gehen möchte, liegt in der Verpackung.

Je mehr diese Technologieunternehmen beginnen, Menschen wie Menschen zu behandeln und Roboter dazu zu bringen, menschlich zu sprechen, desto mehr denke ich, dass diese Unternehmen auf lange Sicht am erfolgreichsten sein werden.

---