TECHNOLOGISCHE MÖGLICHKEITEN DER MANIPULATION VON TEXT, BILD, AUDIO UND VIDEO

In den vergangenen zwei Jahren hat der Begriff Deepfake konstant an Bekanntheit hinzugewonnen. Doch was genau sind Deepfakes und wie unterscheiden sie sich von anderen manipulierten Inhalten?

„Bei den ersten Deepfakes handelte es sich, nicht sehr überraschend, um pornografische Videos, in denen die Gesichter der Darstellerinnen durch die von Prominenten wie Scarlett Johansson oder Taylor Swift ersetzt wurden.“

Während die ersten wissenschaftlichen KI-Experimente zur Manipulation von Videos bereits Ende der 1990er Jahre erfolgten, erfuhr die breite Öffentlichkeit erst ab Ende 2017 von dieser technischen Möglichkeit. Zu diesem Zeitpunkt ist auch die Begrifflichkeit entstanden, als ein Reddit-Benutzer namens Deepfakes und andere Mitglieder der Reddit-Community „r/deepfakes“ die von ihnen erstellten Inhalte veröffentlichten.

In vielen Fällen handelte es sich, nicht sehr überraschend, um pornografische Videos, in denen die Gesichter der Darstellerinnen durch die von Prominenten wie Scarlett Johansson oder Taylor Swift ersetzt wurden. Zu den etwas harmloseren Beispielen zählten Filmszenen, in denen alle Gesichter der Schauspielerinnen und Schauspieler gegen das von Nicolas Cage getauscht wurden.

WIE FUNKTIONIEREN EIGENTLICH DEEPFAKES?

Deepfakes (eine Wortverschmelzung von Deep Learning und Fake, englisch für Fälschung) sind das Produkt zweier KI-Algorithmen, die in einem sogenannten Generative Adversarial Network (zu Deutsch „erzeugenden gegnerischen Netzwerk“), abgekürzt GAN, zusammenarbeiten. Die GANs können am besten als eine Möglichkeit beschrieben werden, algorithmisch neue Arten von Daten aus bestehenden Datensätzen zu generieren. So könnte ein GAN beispielsweise Tausende von Aufnahmen von Donald Trump analysieren und dann ein neues Bild erstellen, das den ausgewerteten Aufnahmen ähnelt, ohne aber eine exakte Kopie einer dieser Aufnahmen zu sein. Diese Technologie kann auf unterschiedliche Arten von Inhalten – Bild, Bewegtbild, Ton und Text – angewendet werden. Die Bezeichnung Deepfake wird aber vor allem auf Audio- und Videoinhalte angewendet.

Mittlerweile sind für ein glaubwürdiges Ergebnis Trainingsdaten von nur wenigen Hundert Bildern bzw. Tonaufnahmen erforderlich. Schon für knappe 3 US-Dollar kann jeder ein gefälschtes Video einer beliebigen Person bestellen, vorausgesetzt, es stehen mindestens 2210 Bilder dieser Person zur Verfügung – das dürfte aber bei den meisten Personen, die Instagram oder Facebook nutzen, kein Problem sein. Auch synthetische Sprachaufnahmen lassen sich für lediglich 10 US-Dollar per 210 Wörter generieren.

Deepfakes vs. Cheap Fakes

Auch wenn die Manipulation von Pornografie mit Sicherheit zu den am meisten verbreiteten Beispielen von Deepfakes gehört, ist sie nicht der Hauptgrund für die aktuelle gesellschaftliche Debatte. Interessanterweise war das Video, das diese Debatte angestoßen hat, überhaupt kein Deepfake, sondern ein Cheap Fake (manchmal auch Shallow Fake genannt): ein mit sehr einfachen technischen Mitteln gefälschtes Video von der Sprecherin des US-Repräsentantenhauses, Nancy Pelosi. Die Originalgeschwindigkeit der Aufnahme wurde auf etwa 721 Prozent reduziert und die Tonhöhe angehoben, um den natürlichen Klang der Stimme zu erhalten.

Ergebnis: Wer das Video betrachtete, konnte den plausiblen Eindruck gewinnen, dass Nancy Pelosi betrunken war. Es wurde millionenfach in den sozialen Medien geteilt. Dies zeigt, wie schon einfachste Fälschungen die Realität verzerren und zu politischen Zwecken eingesetzt werden können. Immerhin war es bislang sehr schwierig, die Aufnahme dahingehend zu verfälschen, dass die betroffene Person ganz andere Bewegungen vorführt oder ganz andere Worte ausspricht als im Originalvideo. Bislang.

1.0 Manipulation von Bewegungsmustern

Große Aufmerksamkeit hat 2018 eine Anwendung von vier Berkeley-Forschern erhalten, die Künstliche Intelligenz verwendet, um die Tanzschritte einer Ausgangsperson (zum Beispiel einer professionellen Tänzerin) auf eine Zielperson zu übertragen. 2)

Ausgehend vom Quellvideo werden die Bewegungen auf ein „Strichmännchen“ übertragen. Im nächsten Schritt synthetisiert das neuronale Netzwerk das Zielvideo gemäß den „Strichmännchenbewegungen“. Das Ergebnis ist ein „gefaktes“ Video, in dem eine dritte Person wie ein Profi tanzt. Natürlich kann ein solcher Algorithmus nicht nur dafür verwendet werden, Tanzbewegungen zu imitieren, sondern potenziell jede andere Form von Bewegung. Damit sind Tür und Tor geöffnet, um politische Gegner in kompromittierenden Situationen darzustellen. Welche Auswirkung hätte zum Beispiel eine Videoaufnahme, die einen Politiker mit Hitlergruß zeigt oder einfach nur beim Zeigen des Stinkefingers?

image

2.0 Stimme und Mimik

Noch weiter reichende Konsequenzen können Fälschungen haben, in denen Personen Worte in den Mund gelegt wurden, die sie nie gesagt haben, in denen aber Gestik, Mimik und Stimme verblüffend echt wirken.Mehrere solcher Videos, unter anderem von Barack Obama und Mark Zuckerberg, wurden erstellt, allerdings nicht um die Zuschauer zu täuschen, sondern um die Möglichkeiten der Technologie und ihre Gefahren zu demonstrieren. Inzwischen wurde ein Deepfake auch von einer politischen Partei, der belgischen Socialistische Partij Anders (sp.a), erstellt und verbreitet.

Im Mai 2018 hat sie ein Video, in dem Trump Belgien dafür verspottet, dass es dem Pariser Klimaabkommen treu bleibt, auf Facebook gepostet.3) Trotz der offensichtlich schlechten Qualität und einer eher unnatürlichen Mundbewegung, die einen aufmerksamen Zuschauer sofort Verdacht schöpfen lassen sollte, provozierte es Hunderte von Kommentaren, in denen viele ihre Empörung darüber zum Ausdruck brachten, dass der amerikanische Präsident es wagen würde, sich in die belgische Klimapolitik einzumischen.

Auch im Falle dieses Videos ging es den Machern um Aufklärung. Das Video war eine gezielte Provokation, um die Aufmerksamkeit der Menschen auf eine Online-Petition zu lenken, in der die belgische Regierung zu dringenden Klimaschutzmaßnahmen aufgefordert wird. Was wäre aber, wenn jemand ein Video erstellen würde, in dem Trump nicht über die belgische Klimapolitik spricht, sondern zum Beispiel darüber, dass er einen Atomangriff auf Iran beabsichtigt?

WAS SIND KÜNSTLICHE NEURONALE NETZE?

Künstliche neuronale Netze (= Artificial Neural Networks, kurz ANN) sind Computersysteme, die vage von biologischen neuronalen Netzen inspiriert sind, welche sich in den Gehirnen von Menschen und Tieren befinden.

ANN „lernen“ die Ausführung von Aufgaben anhand von Beispielen, ohne mit aufgabenspezifischen Regeln programmiert zu sein. Sie können zum Beispiel lernen, Bilder zu identifizieren, die Katzen enthalten, indem sie Beispielbilder analysieren, die manuell als „Katze“ oder „keine Katze“ gekennzeichnet wurden, und die Ergebnisse zur Identifizierung von Katzen in anderen Bildern verwenden.

3.0 Bildmanipulation: DeepNude und künstliche Gesichter

Inhalte, die häufig nicht zu den Deepfakes gezählt werden, obwohl sie mit einer sehr ähnlichen Technologie generiert werden, sind Bild- und Textinhalte. Der Grund dafür ist einfach: Sowohl Bilder als auch Texte können ohne den Einsatz komplexer Technologie so leicht manipuliert werden, dass der „Mehrwert“ (oder der Nachteil, je nach Perspektive) im Vergleich zu Audio- und Videoinhalten gering ausfällt. Außerdem sind Videoaufnahmen im Vergleich zu Text und statischem Bild viel effektiver, um Emotionen wie Angst, Wut oder Hass auszulösen.

Nichtsdestotrotz haben einige der Beispiele für KI-basierte Manipulationen solcher Inhalte für Aufmerksamkeit gesorgt. Wie schon bei Videos, so werden auch bei Bildern die Algorithmen vor allem dazu verwendet, gefälschte pornografische Inhalte zu erzeugen. Innerhalb weniger Sekunden können Anwendungen wie DeepNude ein Bikinifoto in ein sehr realistisches Nacktbild umwandeln. Es wird wohl niemanden überraschen, dass die App nur bei Frauen funktioniert (beim Versuch, das Bild eines Mannes zu verwenden, werden einfach weibliche Genitalien generiert) und damit jede Frau zu einem potenziellen Opfer von „Rachepornos“ (Revenge Porn) macht, auch wenn kein einziges echtes Nacktbild von ihr existiert.

Die neuronalen Netze können im Übrigen nicht nur zur Manipulation von Bildern existierender Personen angewendet werden, sie „erschaffen“ auch ganz neue Personen – oder zumindest ganz neue Gesichter. Eine kommerzielle Anwendung für diese Technologie liegt auf der Hand: Bilddatenbanken können mit KI deutlich kosteneffizienter bestückt werden als mit dem Einsatz von echten Menschen. Allerdings bedeutet dies auch, dass die Erstellung von falschen Social-Media-Profilen, die zum Beispiel zur Verbreitung bestimmter politischer Inhalte eingesetzt werden können, deutlich erleichtert wird. Auch Spionageversuche mit computergenerierten Profilbildern werden bereits vermutet, zum Beispiel bei einem LinkedIn-Profil von „Katie Jones“, einer angeblichen Forscherin in einem US-amerikanischen Think-Tank.

Bevor eine Expertenanalyse mehrere visuelle Anomalien identifizierte, die darauf hindeuteten, dass das Bild synthetisch erzeugt wurde, hat das Profil es geschafft, sich mit 212 politischen Persönlichkeiten in Washington zu verknüpfen, darunter einem stellvertretenden Assistant Secretary of State, einem hochrangigen Berater eines Senators und einem prominenten Wirtschaftswissenschaftler.4) Das Konto wurde von LinkedIn schnell entfernt, soll aber zu einem Netzwerk von Phantomprofilen gehören, von denen einige möglicherweise weiterhin existieren und beispielsweise für Phishing-Attacken eingesetzt werden können.

image

4.0 KI-generierte Texte

Die beschriebene Anwendung kann sich besonders dann entfalten, wenn sie mit den Mitteln verknüpft wird, die eine KI-getriebene Textgenerierung bietet. Viele haben von dieser Möglichkeit im Kontext des von dem Forschungsunternehmen OpenAI geschaffenen Textgenerators GPT-2 gehört, der wegen seines Missbrauchspotenzials ursprünglich als zu gefährlich angesehen wurde, um ihn der Öffentlichkeit zur Verfügung zu stellen.21)

Später hat sich das Unternehmen doch dazu entschlossen, GPT-2 in mehreren Schritten zu veröffentlichen, da die Macherinnen und Macher bis dato keine eindeutigen Beweise für einen Missbrauch feststellen konnten.6) Obwohl dies tatsächlich bislang der Fall sein mag, räumen sie gleichzeitig ein, dass die Menschen die vom GPT-2 generierten Texte zum größten Teil für glaubwürdig erachten würden, dass der Generator für extremistische Inhalte feinjustiert werden könne und dass die Erkennung der generierten Texte eine Herausforderung darstelle.

Mit der Anwendung „Talk To Transformer“ kann jede und jeder die Funktionsweise von GPT-2 ausprobieren. Gibt man in den Generator einen oder mehrere Sätze ein, erzeugt er einen Text, der die Eingabe als Ausgangspunkt nimmt. Die Ergebnisse sind oft – nicht immer – überraschend kohärent. Sie treffen den zur Vorgabe passenden Ton und simulieren Glaubwürdigkeit mit erfundenen Experten, Statistiken und Zitaten.

image