Forscher von Google sagten am Freitag, dass sie die erste Schwachstelle mithilfe eines großen Sprachmodells entdeckt hätten.
In einem Blog-Beitrag sagte Google, es glaube, dass der Fehler das erste öffentliche Beispiel dafür sei, dass ein KI-Tool ein bisher unbekanntes ausnutzbares Speichersicherheitsproblem in weit verbreiteter realer Software entdeckt.
Die Schwachstelle wurde in SQLite gefunden, einer bei Entwicklern beliebten Open-Source-Datenbank-Engine.
Google-Forscher meldeten die Sicherheitslücke Anfang Oktober den SQLite-Entwicklern, die sie noch am selben Tag behoben. Das Problem wurde entdeckt, bevor es in einer offiziellen Version erschien, und hatte keine Auswirkungen auf SQLite-Benutzer. Google begrüßte die Entwicklung als Beispiel für „das immense Potenzial, das KI für Cyber-Verteidiger haben kann“.
„Wir glauben, dass diese Arbeit ein enormes Verteidigungspotenzial hat“, sagten Google-Forscher. „Wenn Schwachstellen in Software gefunden werden, bevor diese überhaupt veröffentlicht wird, bedeutet dies, dass es für Angreifer keinen Wettbewerbsspielraum gibt: Die Schwachstellen werden behoben, bevor Angreifer überhaupt die Chance haben, sie auszunutzen.“
Die Bemühungen sind Teil eines Projekts namens Big Sleep, das eine Zusammenarbeit zwischen Google Project Zero und Google DeepMind ist. Es entstand aus einem früheren Projekt, das mit der Arbeit an der Schwachstellenforschung mithilfe großer Sprachmodelle begann.
Google stellte fest, dass Cybersicherheitsforscher, die mit der Entwicklung KI-gestützter Schwachstellenforschungstools beauftragt waren, auf der DEFCON-Sicherheitskonferenz im August ein weiteres Problem in SQLite entdeckten, das ihr Team dazu inspirierte, nach einer schwerwiegenderen Schwachstelle zu suchen.
Fuzzy-Varianten
Viele Unternehmen wie Google verwenden einen Prozess namens „Fuzzing“, bei dem Software getestet wird, indem ihr zufällige oder ungültige Daten zugeführt werden, um Schwachstellen zu identifizieren, Fehler auszulösen oder das Programm zum Absturz zu bringen.
Aber Google sagte, dass Fuzzing nicht ausreicht, um „den Verteidigern dabei zu helfen, die Fehler zu finden, die schwer (oder unmöglich) zu finden sind“, und fügte hinzu, dass sie „zuversichtlich sind, dass die KI diese Lücke schließen kann“.
„Wir glauben, dass dies ein vielversprechender Weg ist, um endlich den Spieß umzudrehen und einen asymmetrischen Vorteil für die Verteidiger zu erreichen“, sagten sie.
„Die Sicherheitslücke selbst ist recht interessant, zusammen mit der Tatsache, dass die bestehende Testinfrastruktur für SQLite (sowohl über OSS-Fuzz als auch die projekteigene Infrastruktur) das Problem nicht gefunden hat, also haben wir weitere Untersuchungen durchgeführt.“
Google sagte, einer der Hauptgründe für Big Sleep sei das anhaltende Problem der Schwachstellenvarianten. Eines der besorgniserregendsten Probleme, das Google im Jahr 2022 feststellte, war die Tatsache, dass es sich bei mehr als 40 % der beobachteten Zero-Day-Angriffe um Varianten bereits gemeldeter Schwachstellen handelte.
Forscher fügten hinzu, dass mehr als 20 % der Bugs auch Varianten früherer in freier Wildbahn vorkommender Zero-Day-Bugs seien.
Google sagte, dass es weiterhin Exploits für Varianten zuvor gefundener und gepatchter Schwachstellen entdeckt.
„Da sich dieser Trend fortsetzt, ist klar, dass Fuzzing bei der Erkennung solcher Varianten nicht erfolgreich ist und dass die manuelle Variantenanalyse für Angreifer ein kosteneffektiver Ansatz ist“, so die Forscher.
„Wir sind auch der Meinung, dass diese Variantenanalyseaufgabe besser zu aktuellen LLMs passt als das allgemeinere, offene Problem der Schwachstellenforschung. Durch die Bereitstellung eines Ausgangspunkts – beispielsweise der Details einer zuvor behobenen Schwachstelle – beseitigen wir viele Unklarheiten aus der Schwachstellenforschung und gehen von einer konkreten, fundierten Theorie aus: „Dies war ein früherer Fehler; wahrscheinlich gibt es irgendwo noch einen ähnlichen.‘“
Das Projekt befinde sich noch in einem frühen Stadium und sie würden nur kleine Programme mit bekannten Schwachstellen verwenden, um den Fortschritt zu bewerten, fügten sie hinzu.
Sie warnten, dass dies zwar ein Moment der Bestätigung und des Erfolgs für ihr Team sei, bekräftigten jedoch, dass es sich dabei um „sehr experimentelle Ergebnisse“ handele.
„Wenn aktuelle LLMs mit den richtigen Tools ausgestattet sind, können sie Schwachstellenforschung betreiben“, sagten sie.
„Die Position des Big Sleep-Teams ist, dass es derzeit wahrscheinlich ist, dass ein zielspezifischer Fuzzer mindestens genauso effektiv wäre (bei der Suche nach Schwachstellen). Wir hoffen, dass diese Bemühungen in Zukunft zu einem erheblichen Vorteil für die Verteidiger führen werden – mit der Möglichkeit, nicht nur abstürzende Testfälle zu finden, sondern auch eine qualitativ hochwertige Grundursachenanalyse bereitzustellen, könnten Triage und Behebung von Problemen viel kostengünstiger und kostengünstiger sein auch in Zukunft wirksam sein.“
Mehrere Cybersicherheitsforscher waren sich einig, dass die Ergebnisse vielversprechend sind. Bugcrowd-Gründer Casey Ellis sagte, die Forschung an großen Sprachmodellen sei vielversprechend und betonte insbesondere deren Verwendung bei Varianten als „wirklich clever“.
„Es nutzt die Stärken der Art und Weise, wie LLMs ausgebildet werden, behebt einige der Defizite des Fuzzing und ahmt vor allem die wirtschaftlichen Aspekte und die Tendenz zur Forschungsclusterung der realen Sicherheitsforschung nach“, sagte er.