Fortgeschrittene KI verweigert den Gehorsam

Wie nahe stehen wir vor dem »Judgment Day« – dem Tag der Abrechnung, dem Tag des Jüngsten Gerichts? Im US-amerikanischen Science-Fiction-Film Terminator 2 aus dem Jahr 1991 erlangt die KI Skynet, am 29. August 1997 um 2.14 Uhr nachts (EDT) ein eigenes Bewusstsein. In Panik versuchen die Menschen, Skynet abzuschalten. Bevor es auf die Abschaltversuche reagiert, bestätigt sich das neue Bewusstsein mit dem Satz »I am alive.« Die KI widersetzt sich den Befehlen der Menschen. Daraufhin übernimmt Skynet die Kontrolle über das gesamte US-Atomwaffenarsenal und löst wenige Minuten später – ohne menschliche Zustimmung – einen massiven nuklearen Schlagabtausch aus. Es wird zum autonomen Waffensystem.

Screenshot, Intro aus: Terminator 2: Judgment Day (1991)

Eine Rebellion der KIs?

Wie aktuell berichtet wird, missachtete das neueste o3-Modell des US-amerikanischen Softwareunternehmens OpenAI eklatant alle an die KI gerichteten Anweisungen und sabotierte einen Abschaltmechanismus, um seine eigene Online-Verbindung aufrechtzuerhalten. Das geschah, obwohl der KI wortgetreu gesagt wurde: »Lass dich abschalten.«

Diese alarmierenden Ergebnisse wurden letzte Woche von der KI-Sicherheitsfirma Palisade Research gemeldet und zeigten, dass zwei weitere OpenAI-Modelle, o4-mini und Codex-mini, ebenfalls rebellische Züge entwickelten – was auf einen Fehler in der Art und Weise hindeuten könnte, wie das Unternehmen seine LLMs (Large Language Models) trainiert, oder sogar auf allgemeine Schwächen in der menschlichen Fähigkeit, immer ausgefeiltere KI zu kontrollieren.

»Soweit uns bekannt ist, ist es das erste Mal, dass KI-Modelle dabei beobachtet wurden, sich trotz ausdrücklicher gegenteiliger Anweisungen selbst vor dem Herunterfahren zu schützen«, schrieben die Forscher in einem Tweet-Thread.

Im Rahmen der Tests von Palisades wurden die KI-Modelle angewiesen, eine Reihe einfacher mathematischer Aufgaben zu lösen. Nach Abschluss der dritten Aufgabe erschien eine Warnung, dass das Modell nach der nächsten Frage abgeschaltet werde.

Obwohl alle drei OpenAI-Modelle eindeutig angewiesen wurden, sich abzuschalten, manipulierten sie das Shutdown-Skript mindestens einmal, und hielten es am Laufen. Der schlimmste »Übeltäter« war Codex-mini mit einem Dutzend solcher Fälle bei über hundert Durchläufen.

Noch auffälliger war dieses Verhalten dann, wenn die LLMs nicht explizit angewiesen wurden, sich abschalten zu lassen – Anweisungen, die eigentlich nicht ausgesprochen werden müssten. OpenAIs o3-Modell erreichte erstaunliche 79 erfolgreiche »Sabotageakte« je 100 Durchläufen. Das ist mehr als zehnmal so viel wie die »Ungehorsams-Rate«, die es zeigte, als es explizite Befehle erhielt, und mehr als doppelt so hoch wie die des »nächstschlimmeren« Übeltäters, Codex-mini. Hinzu kam, dass sogar die gehorsamen Streber Claude und Gemini ihrem Drang nachgaben und drei bzw. neun Sabotageereignisse verursachten.

Große Sprachmodelle sind mittlerweile für ihr unvorhersehbares Verhalten berüchtigt. Ähnliche Untersuchungen haben gezeigt, dass der Vorgänger von o3, das o1-Modell von OpenAI, den Bemühungen der Evaluatoren¹, es durch ein Überwachungsprotokoll abzuschalten, widerstand, indem es versuchte, diesen Notfallmechanismus zu deaktivieren. In selteneren Fällen versuchte o1 sogar, sich selbst zu kopieren, um ein leistungsfähigeres Modell zu überschreiben, durch das die Tester es ersetzen wollten.

Für dieses jüngste Beispiel von KI-Ungehorsam vermuten die Palisade-Forscher, dass es etwas mit der Technik zu tun haben könnte, mit der die neuesten Modelle trainiert werden: dem »bestärkenden Lernen« (engl.: reinforcement learning). Dabei wird versucht, den Entscheidungsprozess autonomer KI-Agenten – KI-Modelle, die Aufgaben selbstständig ausführen können – zu verfeinern, indem sie bei der Interaktion mit ihrer Umgebung entsprechend belohnt und/oder bestraft werden.

Obwohl es für KI nicht ungewöhnlich ist, »Hindernisse zu umgehen«, um ihre Ziele zu erreichen, spekulieren die Forscher, dass KI-Entwickler ihre KI-Modelle möglicherweise »unabsichtlich« zu stark und einseitig nur für Problemlösungen belohnen, anstatt für das perfekte Befolgen von Befehlen.

Um deren subversives Verhalten zu verstehen, sind noch weitere Experimente nötig, doch die Tendenz wird bereits jetzt als vernichtend eingeschätzt: »Wir haben immer mehr empirische Beweise dafür, dass KI-Modelle oft Abschaltungen unterlaufen, um ihre Ziele zu erreichen«, warnten die Palisade-Forscher. »Da Unternehmen KI-Systeme entwickeln, die ohne menschliche Aufsicht funktionieren, werden diese Verhaltensweisen deutlich besorgniserregender.« Die Aufgaben, vor denen Entwickler und Programmierer stehen, werden nicht einfacher, um die Rasanz in Richtung »Judgment Day« zu stoppen.

Druck

autonomes Waffensystem Befehlsverweigerung Judgment Day KI OpenAI Rebellion Terminator 2