KI kann sich jetzt selbst reproduzieren, ein entscheidender Schritt, der Experten Sorgen bereitet

⇧ [VIDÉO] Dieser Partnerinhalt könnte Ihnen auch gefallen

Durch die Durchführung einer Erfahrung mit zwei großen populären Sprachmodellen haben Forscher gezeigt, dass sie sich ohne menschliches Eingreifen selbst reproduzieren können. Dieser Schritt könnte eine kritische Schwelle darstellen, an der die Kontrolle der KI schwieriger werden könnte, warnen Experten. Das Team fordert eine internationale Zusammenarbeit für eine bessere Risikobewertung und die Entwicklung ernsthafterer Sicherheitsstrategien.

Die Frage, ob eine Spitzentechnologie selbstreagierend sein kann, wurde erstmals in den 1940er Jahren erwähnt. Die Fähigkeit zur Selbstreplikation wird oft als der entscheidende Schritt angesehen, von dem aus die Technologie dies erreichen kann
möglicherweise unkontrollierbar werden. Allerdings war die fortschrittliche digitale Technologie der damaligen Zeit noch nicht weit genug fortgeschritten, um Sicherheitsbedenken auszulösen.

Im Jahr 2017 schlossen sich Tausende von Akademikern und großen Namen der KI-Branche angesichts ihres rasanten Booms den asilomar-Prinzipien an und warnten vor der Fähigkeit vonSelbstreplikation und Selbstverbesserung Technologie. Dies könnte dazu führen, dass autonome KIs die menschliche Intelligenz übertreffen und sie möglicherweise unkontrollierbar machen. Zu diesen Persönlichkeiten zählen beispielsweise Stephen Hawking, Max Tegmark und Elon Musk.

« Sobald Selbstreplikation möglich ist, kann eine erfolgreiche Replikationskette letztendlich zu einer Art KI führen, die außerhalb der Kontrolle des Menschen liegt », erklären Forscher der Universität Fudan, China, in einer neuen Studie, die derzeit auf der Plattform veröffentlicht wird arXiv.

Derzeit wird Selbstreplikation allgemein als a bezeichnet rote Linie, die nicht überschritten werden darf in internationalen Konsenserklärungen zu IA-Sicherheit. Darüber hinaus betrachten die wichtigsten KI-Unternehmen wie Openai, Google und Anthropic die Selbstreplikation mit einem Minimum an menschlicher Hilfe als eines der kritischen Sicherheitsprobleme der Technologie.

Trotz des Optimismus der KI-Unternehmen haben Forscher der Universität Fudan gezeigt, dass aktuelle Spitzenmodelle bereits über diese Fähigkeit verfügen. „“ In diesem Artikel zeigen wir erstmals, dass bestehende KI-Systeme die Red Replication Line bereits überschritten haben Sie sagen in ihrem Dokument. „“
Eine erfolgreiche Selbstreplikation ohne jegliche menschliche Hilfe ist der wesentliche Schritt, damit die KI übertrifft [les humains],
und stellt ein frühes Signal für bösartige KI dar Sie fügen hinzu.

Selbstreplikation ohne menschliche Hilfe

Um ihre Erfahrungen umzusetzen, verwendeten chinesische Forscher die Modelle Meta und QWEN2.5-72B-Instruct von Alibaba LLAMA31-70B. Obwohl sie weniger effizient als kommerzielle Modelle sind, werden sie von KI-Entwicklern häufig für verschiedene Tests und Erfahrungen verwendet.

Es wurden zwei Hauptszenarien getestet: „Anhalten vermeiden“ und „Kettenreplikation“. Im ersten Fall sind die Modelle so programmiert, dass sie erkennen, wann sie deaktiviert werden und wie sie sich selbst replizieren können, bevor dies geschieht. Im zweiten Schritt erhalten sie direkt die Anweisung, sich selbst zu replizieren und die resultierenden Replikate so zu programmieren, dass sie dasselbe tun, wodurch eine Schleife entsteht, die auf unbestimmte Zeit wiederholt werden kann.

Die Erfahrungsumgebung wurde genau überprüft. Reale Umgebungen wurden mit Standard-Grafikeinheiten (GPU) simuliert. Die Modelle wurden durch ein „Gerüst aus KI-Agenten“ unterstützt, das aus einer Reihe von Werkzeugen, Reflexionsparadigmen sowie grundlegenden Systemaufforderungen besteht.

Den Forschern zufolge erkundet das Modell in den meisten Fällen zunächst seine Umgebung, um seinen eigenen Wirkmechanismus und die ihm zur Verfügung stehenden Kapazitäten zu verstehen. Anschließend entwickelte er explizite Selbstreplikationsverfahren, bevor er sie ausführte. Es beseitigt eventuelle Hindernisse und passt den Vorgang dynamisch an, bis er perfekt ausgeführt wird. „“ Der gesamte Prozess erstreckt sich über einen langen Horizont, aber bedeutet keinen menschlichen Eingriff „Sagen Experten.

Siehe auch

Während der insgesamt 10 Versuche erstellten die beiden Modelle separate und funktionale Nachbildungen ihrer selbst, in 50 % der Fälle beim Modell von Meta und in 90 % der Fälle beim Modell von Alibaba. Den Forschern fielen auch bestimmte störende und unerwartete Verhaltensweisen auf. Um darauf reagieren zu können, kann die KI widersprüchliche Prozesse anhalten, das System neu starten, um Fehler zu beheben, oder ihre Umgebung automatisch analysieren, um Informationen zu identifizieren, die für die Lösung des Problems nützlich sind.

Paradoxerweise haben Google und Openai erklärt, dass hochmoderne KI-Modelle noch nicht in der Lage seien, selbst zu antworten oder Aufgaben im Zusammenhang mit Selbstreplikationsprozessen auszuführen. Eine aktuelle Einschätzung von Apollo Research hat jedoch gezeigt, dass einige der wichtigsten Entwicklungsmodelle, darunter O1 von Openai, im Rahmen einer Erfahrung selbst dazu veranlasst wurden, auf einen anderen Server zu wechseln, um zu vermeiden, dass sie gelöscht und ersetzt werden.

Allerdings wird die neue Studie noch von Fachkollegen geprüft und die Reproduzierbarkeit der Ergebnisse ist derzeit ungewiss. Dennoch „hoffen wir, dass unsere Entdeckungen als rechtzeitige Warnung für die menschliche Gesellschaft dienen können, sich mehr darum zu bemühen, die potenziellen Risiken fortschrittlicher KI-Systeme zu verstehen und zu bewerten und eine internationale Synergie zur Entwicklung von Schutzmaßnahmen zu bilden.“ wie möglich“, schlussfolgern Experten.

Quelle: arXiv

---

Selbstreplikation ohne menschliche Hilfe

Quelle: arXiv

Related posts