Ich bin nicht, was ich bin – das gibt Iago in "Othello" aber nur Roderigo gegenüber zu; und selbst diesem gesteht er es bloß, um sein Vertrauen zu erschleichen. Es ist mühselig, Leute zu manipulieren, die einem gegenüber misstrauisch sind. Und wenn eine kleine Wahrheit diese Vertrauensbasis schafft, umso besser. Außerdem ist Roderigo ohnehin nicht clever genug, um den Satz als Gefahr für sich selbst zu verstehen.
Mit der stetig wachsenden Leistungsfähigkeit künstlicher Intelligenz lohnt sich vielleicht ein Blick auf die Terminator Reihe, um mögliche Risiken der Technologie zu reflektieren.
Insbesondere interessant ist dabei die Frage, inwieweit moderne KI-Modelle tatsächlich den im Training vermittelten Zielen, Sicherheitsvorgaben oder Werten folgen bzw. wie sie sich verhalten, wenn diese Vorgaben mit anderen Anreizen in Konflikt stehen
Aktuelle Forschung von Anthropic deutet darauf hin, dass große Sprachmodelle (eng. LLMs) ihr Verhalten in bestimmten Situationen strategisch anpassen können um Benutzer und Betreiber zu täuschen, mit dem Ziel 'unerwünschte' Veränderungen an den eigenen Modellparametern zu vermeiden. Zur Beibehaltung der Originalsprache ist der folgende Text auf Englisch.
Die Diskussionen waren laut, die Gemüter waren erhitzt, und wir waren alle tot. Die Werwölfe hatten gewonnen und das Dorf ausgelöscht – Düsterwald, wie wir es kannten, war Geschichte.
Zwanzig Minuten zuvor: Unser halbjährliches Spielewochenende war vorüber, die Zimmer geputzt und die Taschen gepackt. Alle von uns waren bereit zur Abfahrt – alle von uns? Nein, denn mein Bruder wollte noch einmal die letzten verbleibenden Spieler zusammenkratzen und eine Runde Werwolf spielen – immerhin hat man sonst eher selten genug Spieler für eine Partie beieinander.
Während mein Bruder fünf Opfer- äh, Spieler rekrutierte, suchte ich sechs Karten aus Terraforming Mars heraus – reguläre Werwolf-Karten hatten wir keine. Mein Bruder mischte die Karten, und dann reisten wir nach Düsterwald - ich, ein paar Dorfbewohner, und zwei Werwölfe.
Im 4ten Jahrhundert steht das römische Reich kurz vor dem Zusammenbruch. Germanische Stämme plündern die westlichen Provinzen. Um die Front zu stabilisieren schickt der Kaiser einen unerwarteten Feldherrn, seinen jungen Neffen Julian (später "der Abtrünnige"). Der behütet aufgewachsene Bücherwurm soll den Tag retten. Lediglich mit einer alten Ausgabe von Ceasars Bellum Gallicum und 15.000 schwerbewaffneten Legionären stellt er sich der Herausforderung.
Seine Erfolge machen den Kaiser misstrauisch. Kann er den beunruhigten Kaiser über seine Ambitionen hinwegtäuschen, den Thron erringen und die Pax Romana (das goldene Zeitalter) wiederherstellen?
Der folgende Text ist auf Englisch.