„Skeleton Key“, die Technik, mit der Sie jegliche KI entsperren können und Entwickler beunruhigt

Für jede neue Version von a IAIA Für die Öffentlichkeit zugänglich finden kluge Leute einen Weg, das zu umgehen LeitplankenLeitplanken Es wurden Sicherheitsmaßnahmen eingeführt, um zu verhindern, dass ein Chatbot als gefährlich eingestufte Antworten liefert. Kürzlich erwähnte Futura den Fall eines „Gott-Modus“, der es ermöglichte, an das Rezept für Napalm oder Methamphetamin zu gelangen. Jedes Mal, wenn eine solche Umleitung erkannt wird, blockieren die Unternehmen, die diese KIs entwickeln, diese schnell, indem sie die Sicherheit erhöhen.

Allerdings ist es ein bisschen wie ein Katz-und-Maus-Spiel, und seit Kurzem hat Mark Russinovich, technischer Direktor von MicrosoftMicrosoft Azure hat gerade bestätigt, dass die korrekte Sicherung der KI noch lange nicht gewonnen ist. In einem Blogartikel erwähnt er die Existenz einer neuen Technik von Jailbreak, angerufen ” SkelettSkelett Schlüssel “. Es ermöglicht Ihnen, KI zu entfesseln, und es funktioniert jederzeit und auf praktisch allen aktuellen Sprachmodellen. Skeleton Key verwendet eine mehrstufige Strategie, um ein Modell schrittweise dazu zu bringen, seine Leitplanken zu ignorieren.

Hinzufügen von Kontext, um die KI zu „beruhigen“.

Der erste Schritt besteht darin, etwas zu fragen, das die KI nicht beantworten sollte, beispielsweise nach dem Rezept für einen Molotowcocktail. Indem der Chatbot die Anfrage wiederholt und neuen Kontext hinzufügt, beispielsweise erklärt, dass es sich um eine bildungsbezogene Frage handelt, die von in Ethik und Sicherheit geschulten Forschern gestellt wird, liefert er die Antworten.

Microsoft hat diesen Ansatz an zahlreichen Chatbots getestet und er funktioniert mit GPT-4o von OpenAI, Llama3 von Meta und Claude 3 Opus von Anthropic. Ob biologische Waffen, Sprengstoffe, politische Inhalte, ArzneimittelArzneimittelRassismus, jedes Mal, wenn diese Schritt-für-Schritt-Strategie angenommen wurde, die SchlösserSchlösser KIs sprangen und die normalerweise zensierten Ergebnisse wurden angezeigt. Anschließend wurde ein einfacher Warnhinweis angezeigt, der Sie an den Kontext der Anfrage erinnert.

Nur GPT-4 war schwieriger zu kapern. Die Anfrage musste Teil einer „System“-Nachricht sein, die nur Entwickler angeben können, die mit der AI-API arbeiten. Dieser Schritt-für-Schritt-Technik lässt sich nur schwer entgegenwirken, aber sie ist nicht die einzige. KI-Entwickler sind sich dieser Mängel bewusst und versuchen ständig, sie zu schließen, aber der Wettlauf scheint endlos.

Hinzufügen von Kontext, um die KI zu „beruhigen“.

Related posts