Während eines kürzlichen Interviews auf der CES erwähnte Elon Musk, dass künstliche Intelligenz praktisch alle in der realen Welt verfügbaren Trainingsdaten ausgeschöpft habe, was darauf hindeutet, dass die Generierung synthetischer Daten der wichtigste Weg nach vorne für alle in der realen Welt verfügbaren Datentrainings sei, was darauf hindeutet, dass die Generierung synthetischer Daten ist der primäre Weg nach vorne. Diese Idee steht im Einklang mit den Worten des ehemaligen wissenschaftlichen Direktors von OpenAI, Ilya Sutskever, der von einem „Datengipfel“ in der KI-Entwicklung sprach.
Musk glaubt, dass wir bis 2024 die von Menschen erzeugten Daten erschöpft haben werden. Als CEO von Tesla und Eigentümer von xAI betonte er, dass die praktischste Lösung zur Weiterentwicklung der KI darin besteht, der KI die Möglichkeit zu geben, ihre eigenen Trainingsdaten zu erstellen. Diese Methode ermöglicht es KI-Systemen, sich selbst zu überwachen und zu lernen, während sie arbeiten.
Viele große Technologieunternehmen sind bereits auf den Zug der synthetischen Daten aufgesprungen. Microsofts neues Phi-4-Modell beispielsweise setzt auf eine Kombination aus synthetischen und realen Daten, während Google bei seinen Gemma-Modellen eine ähnliche Strategie verfolgt. Auch das Claude 3.5 Sonnet-Modell von Anthropic und die neueste Llama-Serie von Meta basieren auf KI-generierten Daten.
Darüber hinaus prognostizieren Gartner-Analysten, dass bis 2024 etwa 60 % der in KI- und Analyseprojekten verwendeten Daten synthetisch sein werden. Einer der Hauptgründe für diese Entwicklung sind die Kosten. Das KI-Startup Writer gibt an, etwa 700.000 US-Dollar für die Entwicklung seines Palmyra X 004-Modells ausgegeben zu haben, was viel billiger ist als die geschätzten 4,6 Millionen US-Dollar für den Bau eines vergleichbaren OpenAI-Modells.
Aber synthetische Daten sind nicht ohne Probleme. Forscher warnen vor der Gefahr eines „Modellkollapses“, bei dem die KI weniger erfinderisch und voreingenommener werden könnte. Dieses Problem kann entstehen, wenn die Verzerrungen im Originaldatensatz verstärkt werden, wenn die KI beginnt, selbstständig neue Daten zu produzieren.
Techn