Künstlichen Intelligenzen geht der Treibstoff aus: eine echte technologische Sackgasse?
In einem aktuellen Interview am „Das gesamte menschliche Wissen wurde genutzt, um KIs zu trainieren. „Das ist letztes Jahr passiert“, sagte er. Diese Situation zwingt Forscher dazu, neue Lösungen zu erforschen, einschließlich der Verwendung synthetischer Daten, mit Folgen, die noch immer kaum verstanden werden.
Warum reichen menschliche Daten nicht mehr aus?
Moderne KI-Modelle wie ChatGPT oder Bard erfordern riesige Datenmengen, um effektiv zu funktionieren. Zu diesen Daten gehören Bücher, wissenschaftliche Artikel, Online-Gespräche und viele andere Informationsquellen. Mit dem exponentiellen Wachstum des Bedarfs an generativen Modellen wird jedoch die Menge der verfügbaren qualitativen und neuen Daten unzureichend.
In Zahlen:
Datenquelle | Verfügbares Volumen im Jahr 2022 (ausgedrückt in Terabyte) | Geschätzter Bedarf im Jahr 2024 |
---|---|---|
Akademische Texte | 50 | 200 |
Webinhalte (Blogs, Foren) | 800 | 2 500 |
Literatur und Archive | 200 | 1 000 |
Angesichts dieses Mangels greifen Forscher auf künstliche Daten zurück, die von anderer KI erstellt wurden, um diese Modelle weiterhin anzutreiben.
Synthetische Daten: eine zweischneidige Lösung
Bei synthetischen Daten handelt es sich um Informationen, die künstlich generiert werden, um reale Daten nachzuahmen. Obwohl dieser Ansatz viele Vorteile bietet, ist er nicht ohne Risiken.
Vorteile :
-- Reduzierte Kosten : Das Training einer KI mit synthetischen Daten kostet oft weniger. Beispielsweise senkte das Startup Writer die Kosten für die Schulung seines Modells Palmyra X 004 um das Sechsfache, von 4,6 Millionen US-Dollar auf 700.000 US-Dollar.
- Erhöhte Verfügbarkeit : Synthetische Daten können unbegrenzt erstellt werden, was eine beispiellose Flexibilität ermöglicht.
- Respekt vor der Privatsphäre : Bei diesen Daten handelt es sich nicht um echte personenbezogene Daten, was ethische Fragen verringert.
Risiken:
- Halluzinationen : Modelle können fehlerhafte Ergebnisse liefern, wenn sie auf unvollständigen oder verzerrten Daten basieren. Dies erhöht das Risiko systemischer Ausfälle, die als „Modellkollaps“ bezeichnet werden Modellzusammenbruch.
- Zunehmende Voreingenommenheit : Synthetische Daten reproduzieren und verstärken oft die in den Originaldaten vorhandenen Verzerrungen.
- Verlust der Kreativität : KIs, die ausschließlich auf künstliche Daten trainiert werden, könnten ihre Fähigkeit verlieren, originelle Antworten zu geben.
Mögliche Konsequenzen für die Zukunft der KI
Die verstärkte Nutzung synthetischer Daten könnte schwerwiegende Folgen haben:
- Eine Rückkehr zum Wesentlichen? Unternehmen könnten gezwungen sein, ihre Ansätze neu zu erfinden und kompaktere und fokussiertere Modelle zu verwenden.
- Zusammenarbeit entsteht : Der Datenaustausch zwischen Organisationen könnte zur Umgehung aktueller Einschränkungen unerlässlich werden.
- Ethische Vorschriften : Es müssen strengere rechtliche Rahmenbedingungen geschaffen werden, um potenzielle Missbräuche einzudämmen.
Was sagen die Experten?
Forscher wie die der Stanford University warnen davor, dass die Qualität der KI-Ergebnisse sinken könnte, wenn das Problem der Abhängigkeit von synthetischen Daten nicht gelöst wird. Eine Studie (hier verfügbar) zeigt, dass Modelle, die auf mehr als 50 % künstlicher Daten trainiert wurden, einen deutlichen Anstieg sachlicher Fehler aufweisen.
Fazit: Auf dem Weg zu einer hybriden Zukunft für KI?
Da die Grenzen menschlicher Daten deutlich werden, erweisen sich synthetische Daten als vorübergehende Lösung, die jedoch alles andere als perfekt ist. Die Zukunft der KI wird wahrscheinlich in einer Kombination von Ansätzen liegen, die sowohl reale als auch synthetische Daten nutzen und gleichzeitig ethische und technische Herausforderungen im Auge behalten.