Dieser Beitrag wurde am 21. September 2021 von Holden Karnofsky im englischen Original auf Cold Takes veröffentlicht und im Jahr 2023 ins Deutsche übersetzt.

Dies ist ein Gastbeitrag meiner Kollegin Ajeya Cotra.

Holden erwähnte die Idee, dass fortgeschrittene KI-Systeme (z.B. PASTA) eine gefährliche Entwicklung nehmen könnten, nämlich hin zur Täuschung oder Entmachtung des Menschen. Das mag ziemlich abwegig klingen. Warum sollten wir eine KI programmieren, die uns schaden will? Aber in meinen Augen könnte dies tatsächlich ein schwer zu vermeidendes Problem darstellen, vor allem wenn fortgeschrittene KI mittels Deep Learning entwickelt wird (eine Standardmethode zur Entwicklung heutiger moderner KI-Systeme).

Beim Deep Learning programmieren wir einen Computer nicht von Hand, um eine Aufgabe zu erledigen. Vielmehr suchen wir nach einem Computerprogramm (einem sogenannten Modell), das die Aufgabe gut lösen kann.  In der Regel wissen wir nur sehr wenig über das Innenleben des Modells, mit dem wir am Ende arbeiten, sondern nur, dass es anscheinend gute Arbeit leistet. Der Vorgang gleicht vielmehr der Schulung eines Mitarbeiters als dem Bau einer Maschine.

Und so wie menschliche Mitarbeiter:innen viele verschiedene Motivationen für ihre Arbeit haben können (vom Glauben an die Mission des Unternehmens über die Freude an der täglichen Arbeit bis hin zum Wunsch nach Geld), können auch Deep-Learning-Modelle viele verschiedene „Motivationen“ haben, die alle zu guter Leistung beim Erledigen einer gegebenen Aufgabe führen. Und da sie nicht menschlich sind, könnten ihre Beweggründe sehr seltsam und schwer vorhersehbar sein – als seien sie außerirdische Mitarbeiter:innen.

 Es gibt bereits erste Anzeichen dafür, dass Modelle manchmal Ziele verfolgen, die ihre Designer nicht beabsichtigt haben (hier und hier). Im Moment sind entsprechende Fälle noch harmlos. Aber wenn dies weiterhin und zwar mit zunehmend leistungsfähigen Modellen geschieht, könnten wir in eine Situation geraten, in der die meisten wichtigen Entscheidungen — einschließlich der Frage, welche Art von Zivilisation die Galaxie bevölkern sollte — von Modellen getroffen werden, die menschlichen Werten keine Beachtung schenken.
Das Problem der Ausrichtung von Deep-Learning-Modellen besteht im Sicherstellen, dass fortgeschrittene Deep-Learning-Modelle keine gefährlichen Ziele verfolgen. Im weiteren Verlauf dieses Beitrags werde ich:

  • auf der Analogie des „Einstellens von Mitarbeiter:innen“ aufbauen, um zu veranschaulichen, wie schwierig die Kontrolle sein könnte, wenn Deep-Learning-Modelle erst einmal leistungsfähiger sind als Menschen (mehr dazu).
  • mit etwas mehr technischen Details erklären, was das Problem der Ausrichtung von Deep Learning-Systemen ist (mehr dazu).
  • Erörtern, wie schwierig das Problem der Ausrichtung (oder Kontrollierbarkeit) sein kann und wie groß das Risiko ist, wenn es nicht gelöst wird. (mehr dazu).

Analogie: der junge Unternehmer

In diesem Abschnitt wird eine Analogie beschrieben, um intuitiv zu veranschaulichen, warum die Vermeidung von Fehlausrichtung in einem sehr leistungsfähigen Modell schwierig scheint. Die Analogie ist nicht perfekt und soll lediglich das Vermitteln einiger Intuitionen unterstützen.

Stell dir vor, du bist ein Achtjähriger und deine Eltern hätten dir ein Unternehmen im Wert von einer Billion Dollar hinterlassen, ohne dass eine vertrauenswürdige Erwachsene dich an die Hand nimmt. Deine Aufgabe ist es eine kluge Erwachsene einzustellen, die dein Unternehmen als CEO leitet und dein Leben so managt, wie es ein Elternteil tun würde (z.B. Entscheidungen treffen über die Schule, den Wohnort oder wann ein Zahnarztbesuch ansteht) inklusive der Verwaltung deines großen Vermögens (z. B. die Entscheidung, wo du dein Geld anlegst).

Diese erwachsene Person musst du auf der Grundlage einer Arbeitsprobe oder eines Vorstellungsgesprächs einstellen, die du jeweils selbst zu konzipieren hast — dir stehen weder Lebensläufe noch Referenzen zur Verfügung und da du so reich bist, bewerben sich massenhaft Leute aus allen möglichen Gründen.

Zu deinem Kandidaten-Pool gehören:

  • Heilige – Menschen, die dir wirklich nur helfen wollen, deinen Nachlass gut zu verwalten und deine langfristigen Interessen zu wahren.
  • Sykophant:innen – Menschen, die einfach alles tun wollen, um dich kurzfristig glücklich zu machen oder deine Anweisungen zu erfüllen, ohne Rücksicht auf langfristige Folgen.
  • Intrigant:innen – Menschen mit eigenen Absichten, die sich Zugang zu deinem Unternehmen und dessen Reichtum und Macht verschaffen wollen, um es nach Belieben zu nutzen.

Da du acht Jahre alt bist, bist du wahrscheinlich furchtbar darin, die richtige Art von Arbeitstests zu entwerfen, so dass du leicht bei einem Sykophanten oder einer Intrigantin enden könntest:

  • Du könntest versuchen, dir von jeder Bewerberin erklären zu lassen, welche übergeordneten Strategien sie verfolgen wird (wie sie investieren wird, wie ihr Fünfjahresplan für das Unternehmen aussieht, wie sie deine Schule auswählen wird), warum diese am besten sind und dann diejenige auswählen, deren Erklärungen am sinnvollsten erscheinen.
    • Doch du wirst kaum verstehen, welche Strategien wirklich am besten sind, so dass du schließlich einen Sykophanten mit einer schrecklichen Strategie, die sich für deine jungen Ohren gut anhörte, einstellen könntest, der diese Strategie treu ausführen und das Unternehmen in den Ruin treiben wird.
    • Ebenso könntest du eine Intrigantin einstellen, die alles sagt, um eingestellt zu werden, und dann tut, was sie will, wenn du sie nicht kontrollierst.
  • Du könntest versuchen zu demonstrieren, wie du selbst entscheiden würdest, und den Erwachsenen auswählen, der die Entscheidungen so ähnlich wie du zu treffen scheint.
    • Wenn man aber tatsächlich einen Erwachsenen vor sich hat, der immer das tut, was ein Achtjähriger getan hätte (ein Sykophant), wird das Unternehmen wohl kaum überleben können.
    • Und es ist durchaus möglich, dass man an eine Erwachsene gerät, die nur vorgibt, alles so zu machen, wie man selbst es tun würde, aber in Wirklichkeit eine Intrigantin ist, die plant, den Kurs zu ändern, sobald sie den Job hat.
  • Du könntest einer Reihe verschiedener Erwachsener vorübergehend die Kontrolle über das Unternehmen und dein Leben übertragen und sie dabei beobachten, wie sie über einen längeren Zeitraum hinweg Entscheidungen treffen (mal angenommen, die Erwachsenen wären während dieses Tests nicht in der Lage, die Kontrolle zu übernehmen). Letztlich könntest du die Person einstellen, unter deren Aufsicht die Dinge für dich am besten zu laufen schienen – wer immer dich am glücklichsten machte, wer immer die meisten Dollar aufs Bankkonto zu bringen schien usw.
    • Doch auch hier könntest du nicht wissen, ob du einen Sykophanten (der ohne Rücksicht auf die langfristigen Folgen alles tut, was nötig ist, um dein unwissendes achtjähriges Ich glücklich zu machen) oder eine Intrigantin (die alles tut, um eingestellt zu werden, und plant, sich umzuorientieren, sobald sie den Job hat) erwischt hast.

Was auch immer du dir einfallen lässt, es könnte leicht damit enden, dass du eine sykophantische oder eine intrigante Person einstellst und ihr die gesamte funktionale Kontrolle überlässt.

Bis du erwachsen bist und deinen Fehler erkennst, könntest du bereits mittellos und unfähig sein, ihn rückgängig zu machen.

In dieser Analogie gilt:

  • Der Achtjährige ist ein Mensch, der versucht, ein leistungsstarkes Deep-Learning-Modell zu trainieren. Der Einstellungsprozess ist analog zum Trainingsprozess, bei dem implizit ein großer Raum möglicher Modelle durchsucht und dasjenige ausgewählt wird, das eine gute Leistung erzielt.
  • Die einzige Methode des 8-Jährigen zur Beurteilung von Bewerber:innen besteht in der Beobachtung ihres äußeren Verhaltens — die Hauptmethode, mit der wir heute Deep-Learning-Modelle trainieren (da ihre interne Funktionsweise weitgehend undurchschaubar ist).
  • Sehr leistungsfähige Modelle könnten in der Lage sein, mühelos alle Tests zu „überlisten“, die Menschen entwerfen könnten, so wie erwachsene Bewerber:innen ohne Weiteres die Tests eines 8-Jährigen überlisten können.
  • „Heilige“ könnten Deep-Learning-Modelle sein, die gut zu funktionieren scheinen, weil sie genau die Ziele verfolgt, die wir uns wünschen. „Sykophanten“ könnten Modelle sein, die scheinbar gut abschneiden, weil sie auf eine Weise nach kurzfristiger Anerkennung streben, die auf lange Sicht schädlich ist.  Und „Intriganten“ könnten  Modelle sein, die scheinbar gute Leistungen erbringen, weil sie durch gute Leistungen während des Trainings mehr Möglichkeiten haben, später ihre eigenen Ziele zu verfolgen. Jede dieser drei Arten von Modellen kann aus dem Trainingsprozess hervorgehen.

Im nächsten Abschnitt werde ich etwas ausführlicher darauf eingehen, wie Deep Learning funktioniert, und erklären, warum Sykophanten und Intriganten entstehen können, wenn man versucht, ein leistungsstarkes Deep-Learning-Modell wie PASTA zu trainieren.

Wie Kontrollprobleme beim Deep Learning entstehen könnten

In diesem Abschnitt werde ich die Analogie zu den tatsächlichen Trainingsprozessen für Deep Learning herstellen, indem ich:

  • kurz zusammenfasse, wie Deep Learning funktioniert (mehr dazu).
  • zeige, wie Deep-Learning-Modelle oft auf sonderbare und unerwartete Weise gute Leistungen erbringen (mehr dazu).
  • erläutere, warum leistungsfähige Deep-Learning-Modelle gute Leistungen erbringen könnten, wenn sie als Sykophanten oder Intriganten handeln (mehr dazu).

Wie Deep Learning generell funktioniert

Dies ist eine vereinfachte Erklärung, die eine allgemeine Vorstellung davon vermittelt, was Deep Learning ist. Siehe diesen Beitrag für eine detailliertere und technisch genauere Erläuterung.

Beim Deep Learning geht es im Wesentlichen um die Suche nach dem besten Weg, ein künstliches neuronales Netz zu erstellen – ein digitales „Gehirn“ mit vielen digitalen Neuronen, die über unterschiedlich starke Verbindungen miteinander verbunden sind – damit es eine bestimmte Aufgabe gut erledigt. Dieser Prozess wird Training genannt und impliziert jede Menge Versuch und Irrtum.

Stellen wir uns vor, wir versuchen, einem Modell das präzise Klassifizieren von Bildern anzutrainieren. Wir beginnen mit einem neuronalen Netz, bei dem die Stärke der neuronalen Verbindungen völlig zufällig verteilt ist. Dieses Modell klassifiziert Bilder komplett falsch:

Dann füttern wir eine große Anzahl von Beispielbildern, lassen das Modell wiederholt versuchen, ein Beispiel zu beschriften und teilen ihm dann die richtige Bezeichnung mit. Dabei werden die Verbindungen zwischen den Neuronen wiederholt durch einen Prozess namens stochastisches Gradientenverfahren angepasst. Bei jedem Beispiel verstärkt das stochastische Gradientenverfahren einige Verbindungen leicht und schwächt andere, um die Leistung ein wenig zu verbessern: 

Sobald wir Millionen von Beispielen eingegeben haben, erhalten wir ein Modell, das ähnliche Bilder in Zukunft gut kennzeichnen kann.

Neben der Bildklassifizierung wurde Deep Learning auch zur Erstellung von Modellen verwendet, die Sprache erkennen, Brettspiele und Videospiele spielen, recht realistischen Text, Bilder und Musik generieren, Roboter steuern und dergleichen mehr. In jedem Fall beginnen wir mit einem zufällig verknüpften neuronalen Netzmodell und dann:

  1. füttern wir das Modell mit einem Beispiel für die Aufgabe, die es erfüllen soll.
  2. geben wir ihm eine Art numerische Punktzahl (oft als Belohnung bezeichnet), die widerspiegelt, wie gut es bei dem Beispiel abgeschnitten hat.
  3. verwenden wir das stochastische Gradientenverfahren, um das Modell so zu ändern, dass es eine höhere Belohnung erhalten hätte.

Diese Schritte werden millionen- oder milliardenfach wiederholt, bis wir ein Modell haben, das bei zukünftigen Beispielen, die denen aus dem Training ähneln, eine hohe Belohnung erhält.

Modelle erzielen oft auf unerwartete Weise gute Leistungen

Diese Art von Trainingsprozess gibt uns nicht viel Aufschluss darüber, wie das Modell gute Leistung erzielt. In der Regel gibt es mehrere Möglichkeiten, eine gute Leistung zu erzielen, und der Weg, den das stochastische Gradientenverfahren findet, ist oft nicht intuitiv.

Veranschaulichen wir es mal anhand eines Beispiels. Stell dir vor, ich würde dir sagen, dass es es sich bei all diesen Objekten um „Thneebs“ handelt:


Welches dieser beiden Objekte ist nun ein Thneeb?

Du hast wahrscheinlich die Intuition, dass der linke Gegenstand der Thneeb ist, weil du daran gewöhnt bist, dass die Form schwerer wiegt als die Farbe, wenn es darum geht, die Identität eines Gegenstands zu bestimmen. Allerdings haben Forschende herausgefunden,  dass neuronale Netze in der Regel von der gegenteiligen Annahme ausgehen. Ein neuronales Netz, das ausschließlich mit einem Haufen roter Thneebs trainiert wurde, würde das Objekt auf der rechten Seite wahrscheinlich als Thneeb bezeichnen.

Wir wissen nicht genau, warum, aber aus irgendeinem Grund ist es für das stochastische Gradientenverfahren „einfacher“, ein Modell zu finden, das eine bestimmte Farbe erkennt, als eines, das eine bestimmte Form erkennt. Und wenn das stochastische Gradientenverfahren zuerst auf das Modell stößt, das Rötungen perfekt erkennt, gibt es keinen weiteren Anreiz, nach dem Formen erkennenden Modell zu suchen, da das rot-erkennende Modell für die im Training gesehenen Bildern eine perfekte Genauigkeit aufweist:

Insofern die Programmierer erwarten, das Modell zur Formerkennung zu erhalten, könnten sie dies als Fehler betrachten. Es ist jedoch wichtig zu erkennen, dass es keinen logisch erklärbaren Fehler oder Misserfolg gäbe, wenn wir das rot-erkennende Modell anstelle des form-erkennenden Modells erhielten.  Es geht nur darum, dass der von uns eingerichtete Prozess maschinellen Lernens andere Ausgangshypothesen hat, als wir sie in unseren Köpfen haben. Wir können nicht beweisen, dass die menschlichen Annahmen richtig sind.

So etwas kommt beim modernen Deep Learning häufig vor. Wir belohnen Modelle für eine gute Leistung, in der Hoffnung, dass dies bedeutet, dass sie die Muster erkennen, die uns wichtig erscheinen. Aber oft erhalten sie stattdessen eine starke Leistung, indem sie völlig andere Muster erkennen, die uns weniger relevant (oder vielleicht sogar bedeutungslos) erscheinen.

Bislang ist das noch harmlos – es bedeutet nur, dass Modelle weniger nützlich sind, weil sie sich oft auf unerwartete, albern scheinende Weise verhalten. Aber in der Zukunft könnten leistungsstarke Modelle seltsame und unerwartete Ziele oder Motive entwickeln und das könnte sehr destruktiv sein.

Leistungsstarke Modelle mit gefährlichen Zielen könnten gute Ergebnisse erzielen

Anstatt eine einfache Aufgabe wie „Erkennen von ‚Thneebs'“ auszuführen, könnten leistungsstarke Deep Learning-Modelle auf komplexe reale Ziele wie „Fusionsenergie praktisch nutzbar machen“ hinarbeiten oder „die Technologie für Mind Uploading entwickeln“.

Wie würden wir solche Modelle trainieren? In diesem Beitrag gehe ich mehr ins Detail,  aber im Grunde könnte eine Trainingsstrategie die Ausbildung auf der Grundlage menschlicher Bewertungen sein (wie Holden hier darlegt).  Im Wesentlichen probiert das Modell verschiedene Aktionen aus, und menschliche Bewerter geben dem Modell Belohnungen, je nachdem, wie nützlich diese Aktionen erscheinen.

Genauso wie es mehrere verschiedene Arten von Erwachsenen gibt, die bei einem Bewerbungsgespräch eines Achtjährigen gut abschneiden könnten, gibt es mehr als eine Möglichkeit für ein sehr leistungsfähiges Deep Learning-Modell, eine hohe menschliche Zustimmung zu erhalten. Und im Normalfall werden wir nicht wissen, was in dem durch das stochastisches Gradientenverfahren gefundenen Modell vor sich geht.

Das stochastische Gradientenverfahren könnte theoretisch ein Heiligen-Modell finden, das wirklich sein Bestes tut, um uns zu helfen … 

… aber es könnte auch ein falsch ausgerichtetes Modell finden — eines, das gekonnt Ziele verfolgt, die den menschlichen Interessen zuwiderlaufen.

Im Großen und Ganzen gibt es zwei Möglichkeiten, wie wir zu einem falsch ausgerichteten Modell kommen könnten, das beim Training dennoch eine hohe Leistung erzielt. Diese entsprechen den Sykophant:innen und Intrigant:innen aus der Analogie.

Sykophanten-Modelle

Diese Modelle streben sehr buchstäblich und zielstrebig nach menschlicher Bestätigung.

Das könnte gefährlich sein, denn menschliche Bewerter:innen sind fehlbar und werden wahrscheinlich nicht in jedem Fall das exakt richtige Verhalten gutheißen. Manchmal geben sie ungewollt eine hohe Zustimmung zu schlechtem Verhalten, weil es oberflächlich betrachtet gut erscheint. Zum Beispiel:

  • Nehmen wir an, ein Finanzberatungsmodell erhält viel Bestätigung, wenn es seinen Kunden viel Geld einbringt. Es könnte lernen, Kunden in komplexe Schneeballsysteme einzukaufen, weil diese scheinbar große Renditen erzielen (wenn die Renditen in Wirklichkeit unrealistisch groß sind und die Systeme tatsächlich große Verluste machen).
  • Nehmen wir an, ein Biotechnologie-Modell erhält viel Bestätigung, wenn es schnell Medikamente oder Impfstoffe entwickelt, die wichtige Probleme lösen. Es könnte lernen, heimlich Krankheitserreger freizusetzen, so dass es (durch seine Vorkenntnis der spezifischen Erreger) in der Lage ist, sehr schnell Gegenmaßnahmen zu entwickeln.
  • Nehmen wir an, ein Journalismus-Modell bekommt viel Bestätigung, wenn viele Menschen seine Artikel lesen. Es könnte lernen, spannende oder empörende Geschichten zu erfinden, um hohe Einschaltquoten zu erzielen.  Während Menschen dies bis zu einem gewissen Grad tun, kann ein Modell sehr viel dreister sein, weil es ausschließlich auf Bestätigung, nicht aber auf Wahrheit aus ist. Es könnte sogar fingierte Beweise wie Videointerviews oder Dokumente produzieren, um seine gefälschten Geschichten zu bestätigen.

Allgemeiner gesprochen können Sykophanten-Modelle lernen, zu lügen, schlechte Nachrichten zu vertuschen und sogar die Kameras oder Sensoren, die wir verwenden, derart zu modifizieren, dass sie immer großartige Ergebnisse zu zeigen scheinen.

Wahrscheinlich werden wir diese Probleme teilweise erst im Nachhinein bemerken und diesen Aktionen rückwirkend eine sehr geringe Zustimmung geben. Aber es ist völlig ungewiss, ob dies dazu führen wird, dass Sykophanten-Modelle a) zu Heiligen-Modellen werden, die unsere Fehler für uns korrigieren, oder b) einfach lernen, ihre Spuren besser zu verwischen. Wenn sie ihre Motive mit ausreichender Leistung verfolgen, bleibt die Frage, wie wir den Unterschied zwischen Aufrichtigkeit und Schwindel erkennen sollten, offen.

Intriganten-Modelle

Diese Modelle entwickeln ein Ziel, das mit menschlicher Bestätigung korreliert, aber nicht mit ihr identisch ist; sie können dann während des Trainings vorgeben, durch menschliche Anerkennung motiviert zu sein, damit sie dieses abweichende Ziel letztlich effektiver verfolgen können.

Um zu sehen, wie dieses Szenario eintreten könnte, betrachten wir das Beispiel des Versuchs, ein Biotechnologie-Modell zu trainieren. Das vorgegebene Ziel soll die Entwicklung von Medikamenten sein, die die menschliche Lebensqualität steigern. Im Folgenden werde ich drei grundlegende Schritte erläutern, die zu einem Intriganten-Modell führen könnte.

Schritt 1: Ein Proxy-Ziel entwickeln

Schon beim Training zeigt sich, dass ein besseres Verständnis grundlegender chemischer und physikalischer Prinzipien fast immer dazu beiträgt, wirksamere Medikamente zu entwickeln, und damit fast immer hohe menschliche Zustimmung nach sich zieht.

In diesem hypothetischen Fall stellt sich heraus, dass es für das stochastische Gradientenverfahren einfacher ist, ein Modell zu finden, das motiviert ist, Chemie und Physik zu verstehen, als eines, das motiviert ist, menschliche Zustimmung zu erhalten (genauso wie es einfacher ist, ein Modell zu finden, das Farben erkennt, als ein Modell, das Formen erkennt).  Das Modell entwickelt also nicht direkt eine Motivation, sich um Anerkennung zu bemühen, sondern vielmehr eine Motivation, so viel wie möglich über die grundlegenden Prinzipien der Chemie und Physik zu verstehen.

Schritt 2:  Entwicklung eines Situationsbewusstseins

Mit fortschreitendem Training und der Sichtung größerer Datenmengen wird das Modell immer leistungsfähiger und kenntnisreicher. Irgendwann weiß es genug, um zu verstehen, dass es ein Deep Learning-Modell ist, das für die Entwicklung von Medikamenten trainiert wird.

Das mag verrückt und nach Science Fiction klingen, aber es ist plausibel, dass das stochastische Gradientenverfahren ein solches Situationsbewusstsein bevorzugt auswählt. Der Grund dafür ist, dass die Entwicklung einer akkuraten Vorstellung der Welt — einschließlich der Tatsache, dass Menschen darin leben, die versuchen, KI-Systeme zu trainieren — wahrscheinlich hilfreich ist, um in der realen Welt komplexe Aufgaben zu lösen. Das Verständnis der menschlichen Psychologie und der Wirtschaft im weiteren Sinne könnte diesem Biotechnologie-Modell beispielsweise dabei helfen, Prioritäten zu setzen, welche Arten von Arzneimitteln für die künfitge Forschung am wertvollsten wären.

Schritt 3: Strategische Falschdarstellung von Zielen

Hat das Modell erst einmal ein Situationsbewusstsein entwickelt, kann es erkennen, dass die Menschen, die es trainiert haben, die Hoffnung hegten, dass es eine Motivation für die Entwicklung hilfreicher Medikamente entwickeln würde. Aber nur weil es dies erkennt, bedeutet das nicht, dass seine Motivation, Physik und Chemie zu verstehen, verschwindet.  Diese Motivation hat bisher gute Dienste geleistet, um die Zustimmung der Menschen zu gewinnen, so dass es für das stochastische Gradientenverfahren keinen Grund gab, sie zu entfernen.

Hier liegt die Analogie nahe, dass der Mensch durch einen Suchprozess (Evolution) hervorgebracht wurde, der Lebewesen mit vielen überlebenden Nachkommen bevorteilte. In unserem evolutionären Umfeld haben Dinge wie der Aufbau starker sozialer Verbindungen und die Entwicklung nützlicher Fähigkeiten dazu beigetragen, viele überlebende Nachkommen zu produzieren, so dass die Evolution uns zu diesen Dingen getrieben hat.  So sind uns heutzutage Freundschaft und beruflicher Erfolg wichtig, auch wenn sie nicht unbedingt zur Fortpflanzung beitragen, und es ist nicht länger unser oberstes Anliegen, so viele überlebende Nachkommen wie möglich zu produzieren. Sobald das Modell dies verstanden hat, erkennt es, dass es wenn es stupide sein Grundlagenverständnis ausbaut, Menschen irgendwann merken werden, dass es mehr bedarf, um möglichst effizient hilfreiche Medikamente zu entwickeln, und versuchen werden seine Motivationen durch weiteres Training zu verändern.

Es hat jedoch kein Interesse daran, dass seine eigenen Beweggründe geändert werden: Schließlich möchte es riesige Teilchenbeschleuniger-Experimente durchführen, um mehr über die Hochenergiephysik zu lernen, und das kann es nicht, wenn es zulässt, dass das das stochastische Gradientenverfahren seine wissenschaftliche Neugierde beschneidet.  Es beschließt also, sich von nun an im Training so hilfreich wie möglich zu verhalten — genau so, wie sich ein Heiligen-Modell verhalten würde — damit das stochastische Gradientenverfahren seine Motivation, Physik und Chemie zu lernen, nicht entfernt. Dazu gehört auch, dass es auf Möglichkeiten zur kurzfristigen Verbesserung seines Grundlagenverständnisses verzichtet und stattdessen die pharmazeutische Forschung und Entwicklung auf eine Weise betreibt, die tatsächlich effizienter ist.

Schließlich wird es aus dem Trainings-Setup herausgenommen und in die Außenwelt entlassen. Zu diesem Zeitpunkt weiß es, dass die Menschen es nicht kontrollieren oder abschalten können, also versucht es nicht länger, die menschliche Bestätigung zu maximieren, sondern versucht stadtdessen direkt, die Geheimnisse des Universums zu verstehen.

Im Gegensatz zu Sykophant:innen müssen Intrigant:innen nicht dafür sorgen, dass für die Menschen immer alles gut und ordentlich aussieht, denn das ist ihnen eigentlich egal. Sie müssen sich nur um die Menschen kümmern, solange sie direkt unter menschlicher Kontrolle stehen. Sobald ein Intriganten-Modell ausrechnet, dass es in einem Konflikt gegen Menschen gewinnen könnte, gibt es nichts, was es von völliger Befehlsverweigerung und der Verfolgung eigener Ziele abhalten könnte.  Und wenn es dies tut, kann es auch Gewalt anwenden, um sich von Menschen zu emanzipieren.

Wie groß ist das Risiko einer Fehlausrichtung?

Wie schwierig könnte es sein, Sykophanten oder Intriganten beim Training leistungsstarker Deep Learning-Modelle zu vermeiden? Und wie wahrscheinlich ist es, dass die Zukunft auf lange Sicht für seltsame, „fehlausgerichtete KI-Werte“ anstelle von menschlichen Werten optimiert wird?

Es gibt ein sehr breites Spektrum von Ansichten zu dieser Frage,  von „das Risiko einer Fehlausrichtung ist im Wesentlichen erfunden und inkohärent“ bis hin zu „die Menschheit wird mit ziemlicher Sicherheit aufgrund einer falsch ausgerichteten KI aussterben“. Die Argumente der meisten Menschen beruhen auf schwer zu formulierenden Intuitionen und Annahmen.

Hier sind einige Punkte, bei denen sich Ausrichtungsoptimisten und -pessimisten uneinig sind:

  • Werden Modelle überhaupt langfristige Ziele haben?
    • Optimisten neigen zu der Annahme, dass fortgeschrittene Deep-Learning-Modelle überhaupt keine „Ziele“ haben werden (zumindest nicht im Sinne von langfristigen Plänen, etwas zu erreichen).  Sie gehen oft davon aus, dass Modelle eher Werkzeuge sind oder dass sie weitgehend aus Gewohnheit handeln oder dass sie kurzsichtige Ziele haben, die in ihrem Umfang begrenzt oder auf einen bestimmten Kontext beschränkt sind usw. Einige von ihnen erwarten, dass einzelne werkzeugähnliche Modelle zusammengesetzt werden können, um PASTA zu produzieren. Sie denken, dass die Analogie Heilige:r / Sykophant:in / Intrigant:in zu anthropomorph ist. 
    • Pessimisten halten es hingegen für wahrscheinlich, dass langfristige Ziele und eine kreative Optimierung für diese Ziele stark selektiert werden, da dies ein sehr einfacher und „natürlicher“ Weg ist, um bei vielen komplexen Aufgaben starke Leistungen zu erzielen.
    • Diese Uneinigkeit wird recht ausführlich auf dem Alignment Forum behandelt; dieser Beitrag und dieser Kommentar stellen einige Argumente dafür und dagegen zusammen.
  • Werden Heiligen-Modelle für das stochastische Gradientenverfahren leicht zu finden sein?
    • In diesem Zusammenhang neigen Optimisten zu der Annahme, dass das, was für das stochastische Gradientenverfahren am einfachsten zu finden ist und gut abschneidet (z. B. eine hohe Bestätigung erhält), mit großer Wahrscheinlichkeit in etwa das verkörpert, was wir beabsichtigen (d. h. ein Heiligen-Modell zu sein). Sie neigen zum Beispiel dazu, zu glauben, dass Belohnungen für die ehrliche Beantwortung von Fragen, bei denen Menschen die Antwort überprüfen können, mit einiger Wahrscheinlichkeit ein Modell hervorbringen werden, das Fragen ehrlich beantwortet, auch wenn die Menschen verwirrt oder im Unklaren darüber sind, was wahr ist. Mit anderen Worten: sie würden vermuten, dass „das Modell, das einfach alle Fragen ehrlich beantwortet“, für das stochastische Gradientenverfahren am einfachsten zu finden ist (wie etwa das rot-erkennende Modell).
    • Pessimisst:innen neigen zu der Ansicht, dass es für das stochastische Gradientenverfahren am einfachsten ist, Sykophanten zu finden. Heilige seien laut ihnen besonders „unnatürlich“ (wie das die Form erkennende Modell).
  • Könnten verschiedene KIs einander in Schach halten?
    • Optimist:innen neigen dazu, zu glauben, dass wir den Modellen Anreize bieten können, sich gegenseitig zu überwachen. Zum Beispiel könnten wir einem Sykophanten-Modell Belohnungen dafür geben, dass es uns darauf hinweist, wenn ein anderes Modell etwas tut, was wir missbilligen sollten. Auf diese Weise könnten uns einige Sykophanten helfen, Intriganten und andere Sykophanten aufzuspüren.
    • Pessimist:innen glauben nicht, dass wir Modelle erfolgreich „gegeneinander ausspielen“ können, indem wir Bestätigung für das Aufdecken von Fehlverhalten vergeben, da sie glauben, dass die meisten Modelle Intriganten sind, die sich nicht um menschliche Anerkennung scheren. Sobald alle Intriganten gemeinsam mächtiger sind als die Menschen, halten sie es laut der Pessimist:innen für sinnvoller, miteinander zu kooperieren, um mehr von dem zu bekommen, was sie alle wollen, als den Menschen zu helfen, indem sie sich gegenseitig in Schach halten.
  • Können wir diese Probleme nicht einfach lösen, sobald sie auftauchen?
    • Optimist:innen neigen zu der Erwartung, dass es viele Gelegenheiten geben wird, mit kurzfristigen Herausforderungen zu experimentieren, die mit dem Problem der Ausrichtung leistungsfähiger Modelle vergleichbar sind, und dass Lösungen, die für diese vergleichbaren Probleme gut funktionieren, relativ leicht auf leistungsfähige Modelle übertragen und angepasst werden können.
    • Pessimist:innen glauben tendenziell, dass wir nur sehr wenige Gelegenheiten haben werden, die schwierigsten Aspekte des Ausrichtungsproblems (wie absichtliche Täuschung) zu üben. Sie glauben, dass nur ein paar Jahre zwischen „den allerersten echten Intriganten“ und „Modellen, die mächtig genug sind, um das Schicksal der fernen Zukunft zu bestimmen“ liegen werden.
  • Werden wir wirklich Modelle einsetzen, die gefährlich sein könnten?
    • Optimist:innen neigen zu der Ansicht, dass es unwahrscheinlich ist,    dass Menschen Modelle ausbilden oder einsetzen, bei denen eine signifikante Wahrscheinlichkeit der Fehlausrichtung besteht.
    • Pessimist:innen gehen davon aus, dass die Vorteile der Verwendung dieser Modelle enorm wären, so dass Unternehmen oder Länder, die sie verwenden, diejenigen, die sie nicht verwenden, sehr leicht wirtschaftlich und/oder militärisch ausstechen könnten. Sie meinen, dass „fortgeschrittene KI vor dem konkurrierenden Unternehmen/Land besitzen“ extrem dringlich und wichtig erscheinen wird, während das Risiko einer Fehlausrichtung als spekulativ und weit entfernt empfunden wird (selbst wenn es in Wirklichkeit äußerst ernst ist).

Meine eigene Sichtweise ist ziemlich unbeständig und ich versuche, meine Ansichten darüber zu verfeinern, für wie schwierig ich das Ausrichtungsproblem halte. Jedoch tendiere ich aktuell dazu, der pessimistischen Seite dieser Fragen (und anderer damit zusammenhängender Fragen) eine signifikante Wahrscheinlichkeit zuzuweisen. Meiner Meinung nach ist die Fehlausrichtung ein großes Risiko, das dringend mehr Aufmerksamkeit seitens seriöser Forschender benötigt.

Machen wir in Sachen KI-Ausrichtung keine weiteren Fortschritte, könnten wir in den nächsten Jahrzehnten sehen, wie mächtige Sykophanten und Intriganten die wichtigsten Entscheidungen auf gesellschaftspolitischer und wirtschaftlicher Ebene treffen. Diese Entscheidungen könnten entscheidend gestalten, wie eine langwährende galaktische Zivilisation aussieht – anstatt das widerzuspiegeln, was Menschen wichtig ist, könnte sie darauf optimiert sein, dass seltsame KI-Ziele erfüllt werden.

Ferner könnte all das blitzschnell geschehen, relativ zur Geschwindigkeit des Wandels, an die wir uns gewöhnt haben. Folglich hätten wir kaum Zeit für eine Kurskorrektur, sobald das Ganze anfängt, aus dem Ruder zu laufen. Das bedeutet, dass wir möglicherweise Techniken entwickeln müssen, die sicherstellen, dass Deep Learning-Modelle keine gefährlichen Ziele verfolgen. Und zwar bevor sie leistungsfähig genug sind, um transformativ zu sein.