Deepfakes Analyse

Auflösung, Gesichtsstruktur und überlagernde Objekte

von Andrea Hauser

Lesezeit: 13 Minuten

Keypoints

So lassen sich Deepfakes optimieren

Auflösung des Ursprungsmaterials spielt erstaunlich kleine Rolle für das Endresultat
Gesichtsstruktur der beiden Personen sollte ähnlich sein
Umgang mit Haaren und Brillen ist noch nicht zufriedenstellend möglich
Der umgewandelte Bereich betrifft nur einen Teil des Gesichts, Stirn und Ohren werden nicht angepasst

Schon in vorhergehenden Untersuchungen wurden erste Resultate präsentiert, die Aufzeigen was für die Erstellung eines Deepfakes notwendig ist. Dabei wurden die Basisparameter anhand der Anzahl der Bilder, der Lichtverhältnisse sowie des Winkels des Quellmaterials festgelegt.

Diese Untersuchungen werden nun noch um die folgenden Kategorien erweitert:

Auflösung Ursprungsmaterial
Unterschiedliche Gesichtsstruktur
Überlagernde Objekte

Dabei wurde als Ausgangsmodel ein bereits auf Donald Trump und Nicolas Cage trainiertes Model verwendet. Die Resultate werden im gleichen Schema wie letztes Mal präsentiert. Das heisst innerhalb der definierten Kategorien werden thematisch passende Testfälle aufgeführt. Zu diesen Testfällen werden jeweils zwei Videos als Resultat gezeigt. Dabei handelt es sich im ersten Fall um das Ergebnis des Merges der Gesichter mit den Standard-Parametern (Default). Im zweiten Fall wurden die Parameter beim Zusammenfügen der Gesichter jeweils manuell angepasst (Tweaked), bis das optimalste Ergebnis erreicht wurde. Als Zielvideo für sämtliche Versuche wurde das Youtube-Video mit dem Titel Bush’s Best Speech verwendet.

Auflösung des Ursprungsmaterials

Dabei stellt sich die Frage was für eine Auswirkung die Standardauflösungen der Videos auf den erstellten Fake haben. Um die Auswirkung der Standardauflösung auf den Deepfake zu untersuchen wurden verschiedene Berechnungen mit Videos der Auflösungen 360p sowie 720p vorgenommen.

Quellvideo 360p ⇒ Zielvideo 360p, 7 Sekunden (168 Bilder)

Als erstes wurde der Unterschied zwischen Quell- und Zielvideo mit der Auflösung 360p im Vergleich zu Quell- und Zielvideo mit 720p ausgewertet. Als Vergleichswert für den neu erstellten 360p Fake wird das Video zum Fall Quellvideo 500 Bilder ⇒ Zielvideo 7 Sekunden (168 Bilder) aus dem letzten Artikel mit der Auflösung 720p verwendet. Bis auf die grundsätzlich zu erwartende, schlechtere Qualität des neu erstellten 360p Videos und die damit etwas unschärferen resultierenden Konturen konnte ein gutes Resultat erzielt werden. Unerklärlicherweise wird das resultierende Gesicht im Vergleich zur Auflösung 720p etwas dunkler dargestellt, obwohl sich bis auf die Auflösung nichts an den genutzten Bildern zur Erstellung dieser beiden Fakes geändert hat.

Quellvideo 360p ⇒ Zielvideo 720p, 7 Sekunden (168 Bilder)

In einem nächsten Schritt wurde versucht festzustellen, ob es eine Verschlechterung der Qualität des Fakes gibt, wenn das hinzuzufügende Videomaterial nur mit der Auflösung von 360p zur Verfügung steht und das Video, das verändert werden soll, eine Auflösung von 720p hat. Als Vergleichswert für das so entstandene Video wird erneut der Fall Quellvideo 500 Bilder ⇒ Zielvideo 7 Sekunden aus dem letzten Artikel verwendet. Im direkten Vergleich einzelner entstandener Bilder sind feine Unterschiede in der Gesichtsstruktur zu sehen. Diese fallen jedoch beim Vergleich der resultierenden Videos nicht sofort auf. Trotz dieser Erkenntnis sollte vorsichtshalber die bestmögliche Auflösung der Videos verwendet werden.

Unterschiedliche Gesichtsstrukturen

Hier stellt sich vor allem die Frage, ob auch mit einer komplett anderen Gesichtsstrukturen ein gutes Resultat erzielt werden kann. Dafür wurden Videos von Donald Trump sowie Hillary Clinton als neu hinzuzufügende Person verwendet. Es wurde darauf geachtet, dass sich in der Auswahl der Bilder jeweils eine gute Mischung zwischen frontalen und seitlichen Aufnahmen vorhanden war, damit dies keine Auswirkung auf den Test hat.

Quellvideo Donald Trump ⇒ Zielvideo George Bush, 7 Sekunden (168 Bilder)

Ziel war es zwei Gesichter mit möglichst unterschiedlichen Gesichtsstrukturen zu verwenden. Donald Trump hat im Vergleich zu George Bush ein viel runderes Gesicht. Es wurde darauf geachtet, dass die beiden Fälle möglichst gleich sind, was Beleuchtung und Winkel der Aufnahmen betrifft, damit möglichst nur der Strukturunterschied der Gesichter vergleichen werden kann. Die Auswertung des Deepfakes zeigt, dass dieser Versuch gar nicht funktioniert hat. Die unterschiedlichen Hautfarben von Trump und Bush führten dazu, dass im manuellen Fall die veränderte Gesichtsstruktur deutlich hervorgehoben wird. Im Default Fall besteht, wie bereits im letzten Artikel festgestellt, das Problem mit dem starken flackern. Zusätzlich kommt dazu, dass die generierte Nase überhaupt nicht aussieht wie die Nase von Donald Trump.

Quellvideo Hillary Clinton ⇒ Zielvideo George Bush, 7 Sekunden (168 Bilder)

In diesem Fall wurde untersucht, ob die Übertragung eines weiblichen Gesichts auf ein männliches Gesicht möglich ist. Für das weibliche Gesicht wurden Videos von Hillary Clinton verwendet. Der resultierende Fake sieht nicht glaubwürdig aus und hinterlässt den Eindruck, dass mit diesem Gesicht etwas nicht stimmt. Weshalb dieser Eindruck entsteht, kann nicht abschliessend begründet werden.

Überlagernde Objekte

Mit diesen Tests soll festgestellt werden, wie gut mit Händen vor dem Gesicht umgegangen werden kann. In dieser Kategorie wird ebenfalls der Versuch, ein Gesicht mit Bart auf ein Gesicht ohne Bart hinzuzufügen, aufgeführt.

Quellvideo 10% der Bilder mit Überlagerung ⇒ Zielvideo 7 Sekunden (168 Bilder)

Unter den 500 Quellbildern waren 50 Bilder, die George Clooney mit Händen vor dem Gesicht zeigten. Hier stellte schon die Aufbereitung der Gesichter für die effektive Berechnung des Deepfakes ein Problem dar. Vor der effektiven Deepfake-Berechnung wird versucht aus jedem Bild ein Gesicht zu extrahieren. Diese Extrahierung schlug bei einem Viertel der Gesichter fehl, die eine Hand vor dem Gesicht hatten. Für die Berechnung des Deepfakes wurden sämtliche Bilder genutzt, in denen ein Gesicht erkannt wurde. Das Video unterscheidet sich in Kleinigkeiten zum Fall Quellvideo 500 Bilder ⇒ Zielvideo 7 Sekunden aus dem letzten Artikel. So scheint das linke Auge mehr zu zittern als im Fall ohne Überlagerungen.

Quellvideo 33% der Bilder mit Überlagerung ⇒ Zielvideo 7 Sekunden (168 Bilder)

Gleich wie beim vorhergehenden Quellmaterial bestanden auch hier Probleme bei der Extrahierung der Gesichter, die Überlagerungen vor dem Gesicht hatten. Auch in diesem Fall wurde bei einem Viertel der Gesichter mit Überlagerungen kein Gesicht erkannt. Und auch hier ist die Qualität schlechter als im Fall ohne Überlagerungen.

Quellvideo mit Bart ⇒ Zielvideo ohne Bart, 7 Sekunden (168 Bilder)

In diesem Fall sollte herausgefunden werden, wie gut der Deepfake-Algorithmus mit einem Bart umgehen kann. Dafür wurden für das Ausgangsmaterial Videos von George Clooney verwendet, in denen er Bart trägt. Bei der Auswertung des resultierenden Deepfakes wird festgestellt, dass der Bart nicht überzeugend dargestellt werden kann. Der Bart wirkt aufgeklebt und ihm fehlt die Tiefe. Die einzelnen Barthaare werden zu wenig deutlich dargestellt. Momentanes Fazit ist, dass die Darstellung von Haaren noch schwierig zu sein scheint.

Umgang mit Brillen

Während den Recherchen zur Deepfake Erstellung wurde ein Artikel gefunden, der die Umwandlung von Jimmy Fallon in John Oliver aufzeigte. Bei den daraus resultierenden Deepfakes zeigt sich sehr gut, dass der Umgang mit Brillen noch problematisch ist. Die Gesichter werden zwar grundsätzlich gut dargestellt, das Brillengestellt wirkt allerdings wie der Bart aufgeklebt. Bei genauer Betrachtung stellt man fest, dass die Bügel der Brille fehlen.

Fazit

Wie anhand des Brillenbeispiels sowie des Beispiels von Donald Trump ersichtlich, wird lediglich ein Teil des Gesichts verändert. Auch unter den besten Bedingungen werden mit dem verwendeten Deepfake-Algorithmus die Stirnpartie sowie die Ohren und die Haare nicht angeglichen. Um einen wirklich glaubwürdigen Deepfake (im Sinne von nicht mehr vom Original zu unterscheiden) zu erstellen, müsste also zumindest die Frisur sowie die generelle Gesichtsform der hinzuzufügenden Person bereits im Ursprungsmaterial vorhanden sein. Weiter konnte festgestellt werden, dass der Umgang mit Brillen, anderen überlagernden Objekten sowie Haaren generell noch ein Problem darstellen.

Über die Autorin

Andrea Hauser hat ihren Bachelor of Science FHO in Informatik an der Hochschule für Technik Rapperswil abgeschlossen. Sie setzt sich im offensiven Bereich in erster Linie mit Web Application Security Testing und der Umsetzung von Social Engineering Kampagnen auseinander. Zudem ist sie in der Forschung zum Thema Deepfakes tätig. (ORCID 0000-0002-5161-8658)

Sie wollen sehen, was man mit KI und Fake News erreichen kann?

Unsere Spezialisten kontaktieren Sie gern!

Prompt Injection

Andrea Hauser

Angriffsmöglichkeiten gegen Generative AI

Andrea Hauser

XML-Injection

Andrea Hauser

Deepfakes Analyse

Auflösung, Gesichtsstruktur und überlagernde Objekte

Keypoints

Auflösung des Ursprungsmaterials

Quellvideo 360p ⇒ Zielvideo 360p, 7 Sekunden (168 Bilder)

Quellvideo 360p ⇒ Zielvideo 720p, 7 Sekunden (168 Bilder)

Unterschiedliche Gesichtsstrukturen

Quellvideo Donald Trump ⇒ Zielvideo George Bush, 7 Sekunden (168 Bilder)

Quellvideo Hillary Clinton ⇒ Zielvideo George Bush, 7 Sekunden (168 Bilder)

Überlagernde Objekte

Quellvideo 10% der Bilder mit Überlagerung ⇒ Zielvideo 7 Sekunden (168 Bilder)

Quellvideo 33% der Bilder mit Überlagerung ⇒ Zielvideo 7 Sekunden (168 Bilder)

Quellvideo mit Bart ⇒ Zielvideo ohne Bart, 7 Sekunden (168 Bilder)

Umgang mit Brillen

Fazit

Über die Autorin

Links

Tags

Sie wollen sehen, was man mit KI und Fake News erreichen kann?

Prompt Injection

Angriffsmöglichkeiten gegen Generative AI

XML-Injection

Burp Makros

Sie wollen mehr?

Sie brauchen Unterstützung bei einem solchen Projekt?

Sie wollen mehr?