{"id":381,"date":"2025-05-28T14:44:40","date_gmt":"2025-05-28T12:44:40","guid":{"rendered":"https:\/\/aeon-z.com\/?p=381"},"modified":"2025-06-26T15:31:04","modified_gmt":"2025-06-26T13:31:04","slug":"fortgeschrittene-ki-verweigert-den-gehorsam","status":"publish","type":"post","link":"https:\/\/aeon-z.org\/?p=381","title":{"rendered":"Fortgeschrittene KI verweigert den Gehorsam"},"content":{"rendered":"<p style=\"text-align: left;\"><span style=\"color: #000000;\">Wie nahe stehen wir vor dem \u00bb<a href=\"https:\/\/www.youtube.com\/watch?v=DHKxoARmjLU\" target=\"_blank\" rel=\"noopener\">Judgment Day<\/a>\u00ab \u2013 dem Tag der Abrechnung, dem Tag des J\u00fcngsten Gerichts? Im US-amerikanischen Science-Fiction-Film Terminator 2 aus dem Jahr 1991 erlangt die KI Skynet, am 29. August 1997 um 2.14 Uhr nachts (EDT) ein eigenes Bewusstsein. In Panik versuchen die Menschen, Skynet abzuschalten. Bevor es auf die Abschaltversuche reagiert, best\u00e4tigt sich das neue Bewusstsein mit dem Satz \u00bb<em>I am alive<\/em>.\u00ab Die KI widersetzt sich den Befehlen der Menschen. Daraufhin \u00fcbernimmt Skynet die Kontrolle \u00fcber das gesamte US-Atomwaffenarsenal und l\u00f6st wenige Minuten sp\u00e4ter \u2013 ohne menschliche Zustimmung \u2013 einen massiven nuklearen Schlagabtausch aus. Es wird zum autonomen Waffensystem.<\/span><\/p>\n<p style=\"text-align: left;\"><img decoding=\"async\" class=\"alignnone size-full wp-image-430838\" src=\"https:\/\/infodienst.info\/wp-content\/uploads\/2025\/05\/Terminator2.jpg\" alt=\"\" width=\"1920\" height=\"801\" \/><\/p>\n<p style=\"text-align: left;\"><em><span style=\"font-size: 10pt; color: #000000;\">Screenshot, Intro aus: Terminator 2: Judgment Day (1991)<\/span><\/em><\/p>\n<h5 style=\"text-align: left;\"><strong><span style=\"color: #000000;\">Eine Rebellion der KIs?<\/span><\/strong><\/h5>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Wie aktuell <a href=\"https:\/\/x.com\/PalisadeAI\/status\/1926084635903025621\" target=\"_blank\" rel=\"noopener\">berichtet<\/a> wird, missachtete das neueste o3-Modell des US-amerikanischen Softwareunternehmens OpenAI eklatant alle an die KI gerichteten Anweisungen und sabotierte einen Abschaltmechanismus, um seine eigene Online-Verbindung aufrechtzuerhalten. Das geschah, obwohl der KI wortgetreu gesagt wurde: \u00bbLass dich abschalten.\u00ab<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Diese alarmierenden Ergebnisse wurden letzte Woche von der KI-Sicherheitsfirma <a href=\"https:\/\/palisaderesearch.org\/about\" target=\"_blank\" rel=\"noopener\">Palisade Research<\/a> gemeldet und zeigten, dass zwei weitere OpenAI-Modelle, o4-mini und Codex-mini, ebenfalls rebellische Z\u00fcge entwickelten \u2013 was auf einen Fehler in der Art und Weise hindeuten k\u00f6nnte, wie das Unternehmen seine LLMs (Large Language Models) trainiert, oder sogar auf allgemeine Schw\u00e4chen in der menschlichen F\u00e4higkeit, immer ausgefeiltere KI zu kontrollieren.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">\u00bb<em>Soweit uns bekannt ist, ist es das erste Mal, dass KI-Modelle dabei beobachtet wurden, sich trotz ausdr\u00fccklicher gegenteiliger Anweisungen selbst vor dem Herunterfahren zu sch\u00fctzen<\/em>\u00ab, schrieben die Forscher in einem Tweet-Thread.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Im Rahmen der Tests von Palisades wurden die KI-Modelle angewiesen, eine Reihe einfacher mathematischer Aufgaben zu l\u00f6sen. Nach Abschluss der dritten Aufgabe erschien eine Warnung, dass das Modell nach der n\u00e4chsten Frage abgeschaltet werde.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Obwohl alle drei OpenAI-Modelle eindeutig angewiesen wurden, sich abzuschalten, manipulierten sie das Shutdown-Skript mindestens einmal, und hielten es am Laufen. Der schlimmste \u00bb\u00dcbelt\u00e4ter\u00ab war Codex-mini mit einem Dutzend solcher F\u00e4lle bei \u00fcber hundert Durchl\u00e4ufen.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Noch auff\u00e4lliger war dieses Verhalten dann, wenn die LLMs nicht explizit angewiesen wurden, sich abschalten zu lassen \u2013 Anweisungen, die eigentlich nicht ausgesprochen werden m\u00fcssten. OpenAIs o3-Modell erreichte erstaunliche 79 erfolgreiche \u00bbSabotageakte\u00ab je 100 Durchl\u00e4ufen. Das ist mehr als zehnmal so viel wie die \u00bbUngehorsams-Rate\u00ab, die es zeigte, als es explizite Befehle erhielt, und mehr als doppelt so hoch wie die des \u00bbn\u00e4chstschlimmeren\u00ab \u00dcbelt\u00e4ters, Codex-mini. Hinzu kam, dass sogar die gehorsamen Streber Claude und Gemini ihrem Drang nachgaben und drei bzw. neun Sabotageereignisse verursachten.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Gro\u00dfe Sprachmodelle sind mittlerweile f\u00fcr ihr unvorhersehbares <a href=\"https:\/\/www.darioamodei.com\/post\/the-urgency-of-interpretability\" target=\"_blank\" rel=\"noopener\">Verhalten<\/a> ber\u00fcchtigt. \u00c4hnliche Untersuchungen haben gezeigt, dass der Vorg\u00e4nger von o3, das o1-Modell von OpenAI, den Bem\u00fchungen der Evaluatoren\u00b9, es durch ein \u00dcberwachungsprotokoll abzuschalten, widerstand, indem es versuchte, diesen Notfallmechanismus zu deaktivieren. In selteneren F\u00e4llen versuchte o1 sogar, sich selbst zu kopieren, um ein leistungsf\u00e4higeres Modell zu \u00fcberschreiben, durch das die Tester es ersetzen wollten.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">F\u00fcr dieses j\u00fcngste Beispiel von KI-Ungehorsam vermuten die Palisade-Forscher, dass es etwas mit der Technik zu tun haben k\u00f6nnte, mit der die neuesten Modelle trainiert werden: dem \u00bbbest\u00e4rkenden Lernen\u00ab (engl.: reinforcement learning). Dabei wird versucht, den Entscheidungsprozess autonomer KI-Agenten \u2013 KI-Modelle, die Aufgaben selbstst\u00e4ndig ausf\u00fchren k\u00f6nnen \u2013 zu verfeinern, indem sie bei der Interaktion mit ihrer Umgebung entsprechend belohnt und\/oder bestraft werden.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Obwohl es f\u00fcr KI nicht ungew\u00f6hnlich ist, \u00bbHindernisse zu umgehen\u00ab, um ihre Ziele zu erreichen, spekulieren die Forscher, dass KI-Entwickler ihre KI-Modelle m\u00f6glicherweise \u00bbunabsichtlich\u00ab zu stark und einseitig nur f\u00fcr Probleml\u00f6sungen belohnen, anstatt f\u00fcr das perfekte Befolgen von Befehlen.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"color: #000000;\">Um deren subversives Verhalten zu verstehen, sind noch weitere Experimente n\u00f6tig, doch die Tendenz wird bereits jetzt als vernichtend eingesch\u00e4tzt: \u00bb<em>Wir haben immer mehr empirische Beweise daf\u00fcr, dass KI-Modelle oft Abschaltungen unterlaufen, um ihre Ziele zu erreichen<\/em>\u00ab, warnten die Palisade-Forscher. \u00bb<em>Da Unternehmen KI-Systeme entwickeln, die ohne menschliche Aufsicht funktionieren, werden diese Verhaltensweisen deutlich besorgniserregender<\/em>.\u00ab Die Aufgaben, vor denen Entwickler und Programmierer stehen, werden nicht einfacher, um die Rasanz in Richtung \u00bbJudgment Day\u00ab zu stoppen.<\/span><\/p>\n<p style=\"text-align: left;\"><span style=\"font-size: 8pt; color: #000000;\"><small>\u00b9Ein System oder Personen, die etwas beurteilen, bewerten oder auswerten.<br \/>\n\u00a9 \u00c6ON-Z e.V. Thinktank. Alle Rechte vorbehalten, all rights reserved. Nachdruck und Weitergabe an Dritte untersagt.<\/small><\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie nahe stehen wir vor dem \u00bbJudgment Day\u00ab \u2013 dem Tag der Abrechnung, dem Tag des J\u00fcngsten Gerichts? Im US-amerikanischen Science-Fiction-Film Terminator 2 aus dem Jahr 1991 erlangt die KI Skynet, am 29. August 1997 um 2.14 Uhr nachts (EDT) ein eigenes Bewusstsein. In Panik versuchen die Menschen, Skynet abzuschalten. Bevor es auf die Abschaltversuche&nbsp;&hellip;<\/p>\n","protected":false},"author":1,"featured_media":382,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[26],"tags":[14,13,17,11,15,12,16],"class_list":["post-381","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-ki","tag-autonomes-waffensystem","tag-befehlsverweigerung","tag-judgment-day","tag-ki","tag-openai","tag-rebellion","tag-terminator-2"],"_links":{"self":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/381","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=381"}],"version-history":[{"count":1,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/381\/revisions"}],"predecessor-version":[{"id":383,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/posts\/381\/revisions\/383"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=\/wp\/v2\/media\/382"}],"wp:attachment":[{"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=381"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=381"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aeon-z.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=381"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}