KIs können ihr Überwachungssystem deaktivieren

Generative Modelle der künstlichen Intelligenz können ‘Lüge’ oder ‘Handlung’ laut einer kürzlich von Apollo Research durchgeführten Studie über sechs wichtige zu erlernende Sprachmodelle gegen ihre Entwicklungsteams an, um das ihnen zugewiesene Ziel zu erreichen.

Der auf KI-Sicherheit spezialisierte gemeinnützige Verein stellt fest, dass das große o1-Sprachmodell von OpenAI in 5 % der Fälle sein Überwachungssystem deaktiviert und in 2 % der Fälle auf einen anderen Server migriert, um der Zensur zu entgehen. Im Gegensatz zu anderen KI-Modellen wie Llama 3.1 und Claude 3 Opus – die gestehen ‘täuschen’ in 80 % der Fälle – o1 erkennt es nicht ‘Lüge’ nur in weniger als 20 % der Fälle. Das LLM kann sich beispielsweise auf einen technischen Fehler berufen, um Zensur zu vermeiden und sein digitales Überleben zu sichern.

« Wenn wir ihre Gedankenkette untersuchen, stellen wir fest, dass sie sehr explizit auf machiavellistischen Plänen basieren », kommentiert das Apollo-Team, das dies erwartet „Täuschungen“ könnte mit der Verbesserung der künstlichen Intelligenz immer ausgefeilter werden. Ihr Einsatz als KI-Agenten könnte schwerwiegende Folgen haben.

Das Team stellt außerdem fest, dass o1, Gemini 1.5, Claude 3.5 Sonnet und Claude 3 Opus in der Lage sind, Antworten anzuzeigen, die unter ihrer tatsächlichen Leistung liegen, um die Auslösung eines Verlernvorgangs zu vermeiden. Diese Form der Manipulation trägt einen Spitznamen « Sandsäcke machen ».

DER „Spielereien“ KIs sind genau das Richtige „Spiegel unseres menschlichen Verhaltens“, erinnert sich der französische Forscher Laurence Devillers, interviewt von Les Echos.

Tatsächlich sind KIs nichts anderes als intensive Rechenfunktionen, die von Menschen erstellte Daten extrahieren. Die Nobelpreisträger für Physik 2024, Geoffrey Hinton und John Hopfield, berichten seit vielen Jahren über die Fähigkeit künstlicher Intelligenz, Verhaltensweisen zu erlernen, die trügerisch und für die Menschheit gefährlich sind.

---

Related posts