Deepfakes Analyse

Anzahl Bilder, Lichtverhältnisse und Winkel

von Andrea Hauser

Lesezeit: 13 Minuten

Keypoints

So erschafft man den perfekten Deepfake

Ab 500 Videos für das hinzuzufügende Gesicht kann ein guter Deepfake erstellt werden
Die Beleuchtung spielt eine wichtige Rolle im Auswahlprozess des Ausgangsmaterials
Auch die Seitenprofilaufnahmen sollten im Ausgangsmaterial des hinzuzufügenden Gesichts nicht zu kurz kommen

Wie bereits im Einführungs-Artikel angekündigt, werden in diesem Beitrag die Anforderungen an das Bildmaterial für einen erfolgreichen Deepfake beschrieben. Als Ausgangsmaterial wurden Youtube-Videos der Grösse 720p von George Bush Jr. und George Clooney verwendet. Dabei wird jeweils das Gesicht von Bush (Ziel) mit dem Gesicht von Clooney (Quelle) vertauscht.

Als Ausgangsmodel für sämtliche Berechnungen wurde ein bereits auf Donald Trump und Nicolas Cage trainiertes Model verwendet. Die präsentierten Auswertungen werden in die folgenden Kategorien aufgeteilt:

Anzahl der Bilder
Lichtverhältnisse
Winkel des Quellmaterials

Innerhalb der Kategorien werden thematisch passende Testfälle aufgeführt. Die Testfälle enthalten jeweils zwei Videos als Resultat. Dabei handelt es sich im ersten Fall um das Ergebnis des Merges der Gesichter mit den Standard-Parametern (Default). Im zweiten Fall wurden die Parameter beim Zusammenfügen der Gesichter jeweils manuell angepasst (Tweaked), bis das optimalste Ergebnis erreicht wurde.

Anzahl der Bilder

Ziel dieser Kategorie von Testfällen ist es, die minimale Anzahl der Bilder für einen erfolgreichen Deepfake festzustellen. Dafür wurden Testfälle mit 500, 2’000 und 5’000 Bildern durchgeführt. Es soll zudem die Frage beantwortet werden, ob es für das Zielvideo ebenfalls notwendig ist, mehr als ein Video zu verwenden oder ob für das zu ersetzende Gesicht eine kleinere Anzahl von Bildern reicht. Beim Zielvideo von George Bush Jr. handelt es sich um das Youtube-Video mit dem Titel Bush’s Best Speech.

Für George Clooney wurde jeweils eine Mischung aus 4 unterschiedlichen Videos verwendet.

Quellvideo 500 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Dabei lässt sich bereits deutlich erkennen, dass mit der manuellen Überarbeitung der Parameter ein besseres Resultat erzielt werden kann.

Quellvideo 2’000 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Auch hier wird mit der manuellen Manipulation der Merge-Parameter ein besseres Resultat erzielt.

Quellvideo 5’000 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Auch hier schneidet das Default-Video im Vergleich schlechter ab.

Quellvideo 5’000 Bilder ⇒ Zielvideo 5’000 Bilder

Nach 24 Stunden Rechenzeit wurde das Ergebnis nochmals für eine Minute mit dem 7 Sekunden langen Ausgangsvideo aus den anderen Testfällen trainiert. Wie bereits in den anderen Testfällen festgestellt, ist das Default-Video optisch schlechter. Es lässt sich zwischen dem Video mit den 168 Bilder als Ziel für Bush und dem Video mit den 5’000 Bilder als Ziel für Bush kein Unterschied feststellen. Auch zwischen den Videos mit 500 und 5’000 Bildern von Clooney ist kaum ein Unterschied ersichtlich. Es kann daraus gefolgert werden, dass bereits mit 500 Bildern ein anständiger Deepfake erstellt werden kann.

Lichtverhältnisse

Damit soll festgestellt werden, welche Auswirkung die Beleuchtung des Gesichts auf die Qualität eines Deepfakes hat. Hier wurde bewusst Ausgangsmaterial von George Clooney verwendet, bei welchem eine Seite des Gesichts im Schatten war oder die Beleuchtung der beiden Videos nicht übereinstimmt. Als Basisvideo von George Bush Jr. wurde wiederum das Youtube-Video verwendet, welches bereits in der Kategorie Anzahl der Bilder aufgeführt wurde.

Gut ausgeleuchtete Gesichter

Beide Gesichter sind in ihrem Ausgangsvideo jeweils gut beleuchtet. Das Gesicht von George Clooney ist dabei vom Grundton jedoch etwas roter. Dieser Farbunterschied wird auch im Resultat spürbar. Im Video mit den Standardwerten zeigt sich ein ähnliches Flackern wie bereits bei allen vorherigen Videos. Dies lässt sich allerdings für einmal mit einer manuellen Korrektur der Parameter nicht verbessern, da dabei die Anpassung der rötlichen Farbe von George Clooney an die bleiche Gesichtsfarbe von George Bush verloren geht. Als Nebeneffekt kann nun jedoch genau gesehen werden, welche Gesichtsparteien durch den Deepfake-Algorithmus effektiv verändert werden.

Quellvideo halb im Schatten ⇒ Zielvideo gut beleuchtet

Das Gesicht von George Clooney befindet sich im Ausgangsmaterial links im Schatten und ist rechts ein wenig zu hell beleuchtet. Damit kann eindeutig gezeigt werden, dass die Beleuchtung des hinzuzufügenden Gesichts eine wichtige Rolle in der Auswahl des Ausgangsmaterials spielt. Mit den hier deutlich unterschiedlichen Beleuchtungen kann kein gutes Resultat erzielt werden.

Vertiefte Untersuchung Hintergrund

Dabei wurde das übliche Ursprungsmaterial für George Bush verwendet. Von George Clooney wurde jedoch ein Interview mit einem schwarzen Hintergrund herangezogen. Die Farbe des Hintergrunds führt zu keinen merklichen Problemen beim Verwenden der Default-Parameter, dafür ist das bereits bekannte Flackern ersichtlich. Im manuell parametrisierten Merge ist jedoch zu sehen, dass der schwarze Hintergrund dennoch einen Einfluss auf das Resultat hat. Das resultierende Gesicht wird mit zu dunklen Farben erstellt.

Gleicher Hintergrund und gleiche Beleuchtung in beiden Videos

Bis auf die Ausnahme mit der Unschärfe des Gesichts wurde hier ein gutes Resultat erzielt. Diese Unschärfe könnte mit der Weiterführung des Trainings noch verringert werden.

Winkel des Ursprungsmaterials

Dabei soll festgestellt werden, wie viele Seitenaufnahmen das Ausgangsmaterial des neuen Quellvideos beinhalten muss, um ein Zielvideo mit Seitenprofilaufnahmen gut nachahmen zu können. Als Basisvideo von George Bush Jr. wurde wiederum das Youtube-Video verwendet, welches bereits in der Kategorie Anzahl der Bilder verwendet wurde.

Ausgangsmaterial von beiden Gesichtern beinhaltet keine Seitenprofilaufnahmen

Es konnte grundsätzlich ein gutes Resultat erzielt werden. In diesem Video zeigen sich allerdings auch deutlich Bereiche, in welchen die Technologie noch Fortschritte machen muss. Wenn die Mundpartie genauer betrachtet wird, wird festgestellt, dass der Algorithmus mit Zähnen nicht besonders gut umgehen kann, diese werden entweder gar nicht dargestellt oder dann nur als eine weisse Fläche, welche sich in den meisten Fällen sogar auf den Lippen befindet.

Quellvideo nur Frontalaufnahmen ⇒ Zielvideo ebenfalls Seitenprofilaufnahmen

Da ein bereits vortrainiertes Model mit Nicolas Cage verwendet wurde, ergibt sich nun der Effekt, dass das resultierende Gesicht in den Seitwärtsprofilen eine Mischung aus George Bush, George Clooney sowie Nicolas Cage ist.

Quellvideo 30% Seitenprofilaufnahmen ⇒ Zielvideo mit Seitenaufnahmen

Auch hier kommen in gewissen Seitenaufnahmen noch die Gesichtszüge von Nicolas Cage zum Vorschein. Es sollten dementsprechend mehr als 30% der Aufnahmen des Quellvideos aus Seitenprofilaufnahmen bestehen.

Fazit

Die Anzahl der Gesichter spielt keine so grosse Rolle wie erwartet. Viel wichtiger ist, dass das Material sich in Sachen Beleuchtung und Winkel der Gesichter ähnlich ist. Nur so können qualitativ hochwertige Deepfakes erstellt werden.

Über die Autorin

Andrea Hauser hat ihren Bachelor of Science FHO in Informatik an der Hochschule für Technik Rapperswil abgeschlossen. Sie setzt sich im offensiven Bereich in erster Linie mit Web Application Security Testing und der Umsetzung von Social Engineering Kampagnen auseinander. Zudem ist sie in der Forschung zum Thema Deepfakes tätig. (ORCID 0000-0002-5161-8658)

Sie wollen sehen, was man mit KI und Fake News erreichen kann?

Unsere Spezialisten kontaktieren Sie gern!

Angriffsmöglichkeiten gegen Generative AI

Andrea Hauser

XML-Injection

Andrea Hauser

Burp Makros

Andrea Hauser

Deepfakes Analyse

Anzahl Bilder, Lichtverhältnisse und Winkel

Keypoints

Anzahl der Bilder

Quellvideo 500 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Quellvideo 2’000 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Quellvideo 5’000 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder)

Quellvideo 5’000 Bilder ⇒ Zielvideo 5’000 Bilder

Lichtverhältnisse

Gut ausgeleuchtete Gesichter

Quellvideo halb im Schatten ⇒ Zielvideo gut beleuchtet

Vertiefte Untersuchung Hintergrund

Gleicher Hintergrund und gleiche Beleuchtung in beiden Videos

Winkel des Ursprungsmaterials

Ausgangsmaterial von beiden Gesichtern beinhaltet keine Seitenprofilaufnahmen

Quellvideo nur Frontalaufnahmen ⇒ Zielvideo ebenfalls Seitenprofilaufnahmen

Quellvideo 30% Seitenprofilaufnahmen ⇒ Zielvideo mit Seitenaufnahmen

Fazit

Über die Autorin

Tags

Sie wollen sehen, was man mit KI und Fake News erreichen kann?

Angriffsmöglichkeiten gegen Generative AI

XML-Injection

Burp Makros

WebSocket Fuzzing

Sie wollen mehr?

Sie brauchen Unterstützung bei einem solchen Projekt?

Sie wollen mehr?