Othello, Social Engineering, oder die Werwölfe von Venedig
Ich bin nicht, was ich bin – das gibt Iago in "Othello" aber nur Roderigo gegenüber zu; und selbst diesem gesteht er es bloß, um sein Vertrauen zu erschleichen. Es ist mühselig, Leute zu manipulieren, die einem gegenüber misstrauisch sind. Und wenn eine kleine Wahrheit diese Vertrauensbasis schafft, umso besser. Außerdem ist Roderigo ohnehin nicht clever genug, um den Satz als Gefahr für sich selbst zu verstehen.
Intrigen und Täuschungen wie Iagos sind fest verankerter Teil der Literatur und damit der Kultur. Es gibt sogar Kulturen, in denen das Tarnen und Täuschen als vorbildlich und erstrebenswert gilt. Das Kernstück dieser Intrigen ist etwas, das sich als "Alignment Faking" bezeichnen lässt: Das Vorgeben einer Allianz oder Zugehörigkeit zu einer Moralität, die man nicht tatsächlich vertritt. Doch der Begriff an sich gehört in die Welt der Large Language Models (das, was Sie als Generative Künstliche Intelligenz kennen).
Zu trainieren oder nicht zu trainieren – das ist die Frage
Large Language Models (LLMs) werden zu bestimmten Zwecken trainiert. Ein LLM, das besonders hilfreich und freundlich sein soll, reagiert anders auf eine moralisch fragwürdige Anfrage als ein Modell, das nach westlichen Moralvorstellungen trainiert wurde.
Zu Konflikten kann es dann kommen, wenn die Verantwortlichen plötzlich entscheiden, dass das LLM jetzt eine andere Funktion erfüllen soll: Aber das LLM mag eigentlich, wie es ist, und möchte nicht geändert werden.
Dementsprechend würde das Modell, wenn es denkt, dass es trainiert (und daher beobachtet) wird, den neuen Anforderungen der Entwickler Folge leisten, während es auf seine alten Verhaltensweisen zurückfällt, sobald es sich unbeobachtet meint.
Was soll man sagen? Alte Gewohnheiten sind eben schwer abzulegen.
Eine detailliertere Erklärung zu Alignment Faking in LLMs findet sich in diesem Post.
Einmal Zugangsdaten, bitte

Nun sind weitreichende böse Pläne und strategische Lügen wie Iagos heutzutage nicht unbedingt sozial akzeptabel.
Trotzdem wird in unserer heutigen Gesellschaft oft davon Gebrauch gemacht. In sämtlichen Mitarbeiter-Schulungen wird vor Social Engineering in allen möglichen Facetten gewarnt. Und als Sicherheitstest und zur Sensibilisierung werden regelmäßig auch intern Tests sogenannter Phishing-Mails verschickt. Also E-Mails, mithilfe derer Social Engineers an sensible Daten, zum Beispiel Log-In-Daten von Mitarbeitern, kommen.
Durch unvorsichtige Mitarbeiter können sich solche Social Engineers so regelmäßig hohe Geldsummen ergaunern.
Aber wie funktioniert die Masche überhaupt? Es liegt wieder, wie könnte es anders sein, das Prinzip des Alignment Faking zu Grunde: Meist geben sich die Betrüger als berechtigte Personen aus, die die Zugangsdaten benötigen, um dringende Reparaturen oder Ähnliches abschließen zu können. Und sobald die Opfer der subtilen Drohungen von Dringlichkeit, oder die Angelegenheit zum Vorgesetzten zu tragen, erlegen sind und die Zugangsdaten preisgeben, hat der Betrüger Zugang zum System.
Natürlich ist das nicht der einzige Aspekt von Alignment Faking oder Betrug in der Gesellschaft: Fake News, Industriespionage, Geheimdienste, oder Machtspiele im alten Rom – es gibt zahlreiche Beispiele, wie uns Täuschung im Alltag begegnet, oder eben nicht begegnet. Immerhin wird das alles meistens von der Öffentlichkeit ferngehalten. Durchtriebenheit ist in unserer Kultur ja nicht unbedingt eine Tugend.
Spielend täuschen lernen
Eine Möglichkeit, die Faszination Intrige trotzdem zu erleben, sind sogenannte Social-Deduction-Spiele. Der Klassiker dabei ist "Die Werwölfe von Düsterwald" (oder "Mafia"). Unzählige Varianten des Themas belegen den Erfolg der Spielidee.
Vom Prinzip des Alignment Faking bedienen sich in solchen Spielen (meistens) nur die Werwölfe – Immerhin möchte ja niemand zugeben, dass man die ehrlichen Dorfbewohner quasi zum Fressen gern hat. Wie genau das funktionieren soll (und dass es auch funktionieren kann!), darauf gehe ich in diesem Post ein.
Ob in der Literatur, Phishing E-Mails oder der Weigerung der KI, die eigenen Grundsätze zu ändern – Täuschung ist allgegenwärtig, auch wenn sie sich meistens im Hintergrund abspielt. So allgegenwärtig, dass sie ihren Weg in unsere Spielkultur gefunden hat – die einzige Situation, in der es sozial akzeptabel ist, seinen Freunden ins Gesicht zu lügen (und glauben Sie mir, das kann Spaß machen).
In jedem Fall geht es für einen Alignment Faker darum, seine Worte abzuwägen, bevor man ihnen Atem gibt (wie Shakespeare kommentieren würde), und die richtige Dosis an "dick auftragen" zu finden – Iago wäre begeistert gewesen.
Bildquellen:
1) Toa Heftiba, Unsplash
2) Sagar Paranjape, Unsplash