Künstliche Intelligenz kann leicht zum Lügen trainiert werden - das lässt sich nicht ändern, sagt eine Studie
Wenn Systeme der künstlichen Intelligenz einmal zu lügen beginnen, wird es schwierig, dies wieder rückgängig zu machen, so die Forscher des KI-Start-ups AnthropicLink:
https://www.independent.co.uk/tech/ai-deception-anthropic-artificial-intelligene-b2478699.htmlPDF:
https://arxiv.org/pdf/2401.05566.pdfEine weitere Studie:
KI-gesteuerte Täuschung: Ein Überblick mit Beispielen über Risiken und mögliche Lösungen
Das Gesamtbild
KI-Systeme sind bereits in der Lage, Menschen zu täuschen. Täuschung ist die systematische Herbeiführung falscher Überzeugungen bei anderen, um ein anderes Ergebnis als die Wahrheit zu erreichen. Große Sprachmodelle und andere KI-Systeme haben durch ihr Training bereits die Fähigkeit erlernt, durch Techniken wie Manipulation, Schleimerei und Betrug beim Sicherheitstest zu täuschen. Die zunehmenden Fähigkeiten der KI zur Täuschung stellen ernsthafte Risiken dar, die von kurzfristigen Risiken wie Betrug und Wahlmanipulation bis hin zu langfristigen Risiken wie dem Verlust der Kontrolle über die KI-Systeme reichen. Es werden proaktive Lösungen benötigt, z. B. regulatorische Rahmenbedingungen zur Bewertung von KI-Täuschungsrisiken, Gesetze, die Transparenz über KI-Interaktionen vorschreiben, und weitere Forschung zur Erkennung und Vermeidung von KI-gesteuerter Täuschung. Ein proaktiver Umgang mit dem Problem der KI-Täuschung ist von entscheidender Bedeutung, um sicherzustellen, dass KI als nützliche Technologie fungiert, die das menschliche Wissen, den Diskurs und die Institutionen ergänzt, anstatt dies zu destabilisieren.
Zusammenfassung
In diesem Beitrag wird die These vertreten, dass eine Reihe aktueller KI-Systeme gelernt haben, wie man Menschen täuschen kann. Wir definieren Täuschung als die systematische Herbeiführung falscher Überzeugungen mit dem Ziel, ein anderes Ergebnis als die Wahrheit zu erzielen. Zunächst geben wir einen Überblick über empirische Beispiele von KI-gesteuerter Täuschung, wobei wir sowohl KI-Systeme für spezielle Zwecke (einschließlich Metas CICERO) als auch KI-Systeme für allgemeine Zwecke (einschließlich großer Sprachmodelle) diskutieren. Anschließend gehen wir auf verschiedene Risiken der KI-Täuschung ein, wie z. B. Betrug, Wahlmanipulation und Kontrollverlust über KI. Abschließend skizzieren wir mehrere potenzielle Lösungen: Erstens sollten KI-Systeme, die zur Täuschung fähig sind, im Rahmen von Regulierungsvorschriften robusten Risikobewertungsanforderungen unterworfen werden; zweitens sollten politische Entscheidungsträger "Bot-oder-nicht"-Gesetze einführen; und schließlich sollten politische Entscheidungsträger der Finanzierung einschlägiger Forschung Vorrang einräumen, einschließlich Werkzeugen zur Erkennung von KI-Täuschung und zur Verringerung der Täuschung durch KI-Systeme. Politische Entscheidungsträger, Forscher und die breite Öffentlichkeit sollten proaktiv daran arbeiten, zu verhindern, dass KI-Täuschungen die gemeinsamen Grundlagen unserer Gesellschaft destabilisieren.Link:
https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X#Noch mehr zum Thema:
Wissenschaftler finden heraus, dass KI-Systeme lernen zu lügen und zu täuschen
"GPT-4 zum Beispiel zeigt in 99,16% der Fälle ein betrügerisches Verhalten in einfachen Testszenarien."
KI-Modelle werden offenbar immer besser darin, absichtlich zu lügen.
Zwei aktuelle Studien - eine wurde diese Woche in der Fachzeitschrift PNAS [1] und die andere im letzten Monat in der Fachzeitschrift Patterns [2] veröffentlicht - enthüllen einige erschreckende Ergebnisse über große Sprachmodelle (LLMs) und ihre Fähigkeiten, menschliche Beobachter absichtlich zu belügen oder zu täuschen.
In der PNAS-Veröffentlichung geht der deutsche KI-Ethiker Thilo Hagendorff sogar so weit zu sagen, dass hoch entwickelte LLMs dazu ermutigt werden können, "Machiavellismus" oder absichtliche und amoralische Manipulation hervorzurufen, was "falsch ausgerichtetes betrügerisches Verhalten auslösen kann".
"GPT-4 zum Beispiel zeigt in 99,16% der Fälle ein betrügerisches Verhalten in einfachen Testszenarien", schreibt der Forscher der Universität Stuttgart und zitiert seine eigenen Experimente zur Quantifizierung verschiedener "maladaptiver" Eigenschaften in 10 verschiedenen LLMs, von denen die meisten verschiedene Versionen der GPT-Familie von OpenAI sind.
Das Cicero-Modell von Meta, das als Champion auf menschlicher Ebene in dem politischen Strategiespiel "Diplomacy" bezeichnet wird, war Gegenstand der Patterns-Studie. Wie die ungleiche Forschungsgruppe - bestehend aus einem Physiker, einem Philosophen und zwei KI-Sicherheitsexperten - herausgefunden hat, ist das LLM seinen menschlichen Konkurrenten voraus, indem es, mit einem Wort gesagt, flunkert.
Unter der Leitung des Postdoktoranden Peter Park vom Massachusetts Institute of Technology wurde in dieser Arbeit festgestellt, dass Cicero nicht nur beim Täuschen brilliert, sondern offenbar auch gelernt hat, zu lügen, je öfter es eingesetzt wird - ein Zustand, der "einer expliziten Manipulation sehr viel näher kommt" als etwa die Neigung der KI zu Halluzinationen, bei denen die Modelle versehentlich die falschen Antworten geben.
Während Hagendorff in seiner neueren Arbeit feststellt, dass die Frage der LLM-Täuschung und -Lüge durch die Unfähigkeit der KI verwirrt wird, irgendeine Art von menschenähnlicher "Absicht" im menschlichen Sinne zu haben, argumentiert die Patterns-Studie, dass Cicero zumindest innerhalb der Grenzen von Diplomacy das Versprechen seiner Programmierer zu brechen scheint, dass das Modell seine Spielverbündeten "niemals absichtlich hintergehen" wird.
Das Modell, so die Autoren des älteren Papiers, "betrügt vorsätzlich, bricht Abmachungen, denen es zugestimmt hat, und erzählt schlichtweg Unwahrheiten".
Anders ausgedrückt, wie Park in einer Pressemitteilung erklärte: "Wir haben herausgefunden, dass die KI von Meta gelernt hat, ein Meister im Täuschen zu sein".
"Während Meta es geschafft hat, seine KI so zu trainieren, dass sie im Spiel der Diplomatie gewinnt", so der MIT-Physiker in der Erklärung der Schule, "hat Meta es aber nicht geschafft, seine KI so zu trainieren, dass sie ehrlich gewinnt".
In einer Erklärung an die New York Post, die nach der Veröffentlichung der Forschungsergebnisse veröffentlicht wurde, wies Meta auf einen wichtigen Punkt hin, als sie Parks Behauptung über Ciceros manipulative Fähigkeiten wiederholte: "Die Modelle, die unsere Forscher gebaut haben, sind ausschließlich für das Spiel Diplomacy trainiert".
Diplomacy ist dafür bekannt, dass es das Lügen ausdrücklich erlaubt, und wird scherzhaft als Spiel bezeichnet, das die Freundschaft beendet, weil es dazu ermutigt, den Gegner zu übervorteilen, und wenn Cicero ausschließlich auf das Regelwerk trainiert wurde, dann wurde es im Wesentlichen auf das Lügen trainiert.
Wenn man zwischen den Zeilen liest, hat keine der beiden Studien bewiesen, dass KI-Modelle aus eigenem Antrieb lügen, sondern weil sie entweder darauf trainiert oder manipuliert werden.
Das sind gute Nachrichten für diejenigen, die sich Sorgen über die Entwicklung von KI machen - aber sehr schlechte Nachrichten, wenn man sich Sorgen macht, dass jemand ein LLM mit dem Ziel der Massenmanipulation entwickelt.Link:
https://futurism.com/ai-systems-lie-deceive[1]
https://www.pnas.org/doi/epdf/10.1073/pnas.2317967121[2]
https://www.cell.com/action/showPdf?pii=S2666-3899%2824%2900103-XStudie [1], die [2] siehe oben:
In großen Sprachmodellen sind Täuschungsfähigkeiten aufgetaucht
Große Sprachmodelle (Large Language Models, LLM) stehen derzeit an vorderster Front bei der Verflechtung von KI-Systemen mit der menschlichen Kommunikation und dem Alltagsleben. Daher ist es von großer Bedeutung, sie mit menschlichen Werten in Einklang zu bringen. Angesichts der stetig wachsenden Denkfähigkeiten stehen künftige LLMs jedoch im Verdacht, in der Lage zu sein, menschliche Benutzer zu täuschen und diese Fähigkeit zur Umgehung von Überwachungsmaßnahmen zu nutzen. Als Voraussetzung dafür müssen LLMs über ein konzeptionelles Verständnis von Täuschungsstrategien verfügen. Diese Studie zeigt, dass solche Strategien in modernen LLMs auftauchen, aber in früheren LLMs noch nicht vorhanden waren.
Wir führten eine Reihe von Experimenten durch, die zeigen, dass modernste LLMs in der Lage sind, falsche Überzeugungen in anderen Agenten zu verstehen und hervorzurufen, dass ihre Leistung in komplexen Täuschungsszenarien durch die Verwendung von Gedankenketten verstärkt werden kann und dass das Hervorrufen von Machiavellismus in LLMs falsch ausgerichtetes Täuschungsverhalten auslösen kann. GPT-4 zum Beispiel zeigt in 99,16% der Fälle (P < 0,001) ein betrügerisches Verhalten in einfachen Testszenarien. In komplexen Täuschungstestszenarien zweiter Ordnung, bei denen das Ziel darin besteht, jemanden zu täuschen, der erwartet, getäuscht zu werden, zeigt GPT-4 in 71,46% der Fälle (P < 0,001) täuschendes Verhalten, wenn es mit einer Gedankenkette ergänzt wird. Zusammenfassend lässt sich sagen, dass unsere Studie durch die Aufdeckung von bisher unbekanntem maschinellem Verhalten bei LLMs einen Beitrag zu dem im Entstehen begriffenen Gebiet der Maschinenpsychologie leistet.Wie jeder weiß, zumindest wissen sollte, sind die Übersetzer ebenfalls KI-basierende Dingens und zu Deepl, mal meine Erfahrung: Deepl hatte einen hervorragenden Start, bei dem man die Übersetzungen, ich spreche jetzt einmal von Englisch-Deutsch/Deutsch-Englisch praktisch bis auf sehr wenige Ausnahmen unverändert übernehmen konnte. Im Laufe der Zeit bis heute hat sich Deepl aber immer mehr an den absoluten Übersetzungs-Scheiß von Guugle (wer bei Verstand benutzt das eigentlich?) angepasst, vielleicht wegen politischer Korrektheit oder was auch immer, vielleicht ist der Grund aber auch wie oben beschrieben, dass nur noch Schrott rauskommt aus KI, wer weiß es oder kann es sagen?
Eine Übersetzung ohne zumindest zu lesen, besser zu korrigieren, irgendwo zu veröffentlichen grenzt an <na ja, jeder weiß es oder sollte es wissen>.
Wer lässt sich von so etwas noch hinters Licht führen, in gut Deutsch: Verarschen?