Prompt Injection
Andrea Hauser
So erschafft man den perfekten Deepfake
Als Ausgangsmodel für sämtliche Berechnungen wurde ein bereits auf Donald Trump und Nicolas Cage trainiertes Model verwendet. Die präsentierten Auswertungen werden in die folgenden Kategorien aufgeteilt:
Innerhalb der Kategorien werden thematisch passende Testfälle aufgeführt. Die Testfälle enthalten jeweils zwei Videos als Resultat. Dabei handelt es sich im ersten Fall um das Ergebnis des Merges der Gesichter mit den Standard-Parametern (Default). Im zweiten Fall wurden die Parameter beim Zusammenfügen der Gesichter jeweils manuell angepasst (Tweaked), bis das optimalste Ergebnis erreicht wurde.
Ziel dieser Kategorie von Testfällen ist es, die minimale Anzahl der Bilder für einen erfolgreichen Deepfake festzustellen. Dafür wurden Testfälle mit 500, 2’000 und 5’000 Bildern durchgeführt. Es soll zudem die Frage beantwortet werden, ob es für das Zielvideo ebenfalls notwendig ist, mehr als ein Video zu verwenden oder ob für das zu ersetzende Gesicht eine kleinere Anzahl von Bildern reicht. Beim Zielvideo von George Bush Jr. handelt es sich um das Youtube-Video mit dem Titel Bush’s Best Speech.
Für George Clooney wurde jeweils eine Mischung aus 4 unterschiedlichen Videos verwendet.
Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Dabei lässt sich bereits deutlich erkennen, dass mit der manuellen Überarbeitung der Parameter ein besseres Resultat erzielt werden kann.
Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Auch hier wird mit der manuellen Manipulation der Merge-Parameter ein besseres Resultat erzielt.
Nach 24 Stunden Rechenzeit sieht das Resultat wie unten aufgeführt aus. Auch hier schneidet das Default-Video im Vergleich schlechter ab.
Nach 24 Stunden Rechenzeit wurde das Ergebnis nochmals für eine Minute mit dem 7 Sekunden langen Ausgangsvideo aus den anderen Testfällen trainiert. Wie bereits in den anderen Testfällen festgestellt, ist das Default-Video optisch schlechter. Es lässt sich zwischen dem Video mit den 168 Bilder als Ziel für Bush und dem Video mit den 5’000 Bilder als Ziel für Bush kein Unterschied feststellen. Auch zwischen den Videos mit 500 und 5’000 Bildern von Clooney ist kaum ein Unterschied ersichtlich. Es kann daraus gefolgert werden, dass bereits mit 500 Bildern ein anständiger Deepfake erstellt werden kann.
Damit soll festgestellt werden, welche Auswirkung die Beleuchtung des Gesichts auf die Qualität eines Deepfakes hat. Hier wurde bewusst Ausgangsmaterial von George Clooney verwendet, bei welchem eine Seite des Gesichts im Schatten war oder die Beleuchtung der beiden Videos nicht übereinstimmt. Als Basisvideo von George Bush Jr. wurde wiederum das Youtube-Video verwendet, welches bereits in der Kategorie Anzahl der Bilder aufgeführt wurde.
Beide Gesichter sind in ihrem Ausgangsvideo jeweils gut beleuchtet. Das Gesicht von George Clooney ist dabei vom Grundton jedoch etwas roter. Dieser Farbunterschied wird auch im Resultat spürbar. Im Video mit den Standardwerten zeigt sich ein ähnliches Flackern wie bereits bei allen vorherigen Videos. Dies lässt sich allerdings für einmal mit einer manuellen Korrektur der Parameter nicht verbessern, da dabei die Anpassung der rötlichen Farbe von George Clooney an die bleiche Gesichtsfarbe von George Bush verloren geht. Als Nebeneffekt kann nun jedoch genau gesehen werden, welche Gesichtsparteien durch den Deepfake-Algorithmus effektiv verändert werden.
Das Gesicht von George Clooney befindet sich im Ausgangsmaterial links im Schatten und ist rechts ein wenig zu hell beleuchtet. Damit kann eindeutig gezeigt werden, dass die Beleuchtung des hinzuzufügenden Gesichts eine wichtige Rolle in der Auswahl des Ausgangsmaterials spielt. Mit den hier deutlich unterschiedlichen Beleuchtungen kann kein gutes Resultat erzielt werden.
Dabei wurde das übliche Ursprungsmaterial für George Bush verwendet. Von George Clooney wurde jedoch ein Interview mit einem schwarzen Hintergrund herangezogen. Die Farbe des Hintergrunds führt zu keinen merklichen Problemen beim Verwenden der Default-Parameter, dafür ist das bereits bekannte Flackern ersichtlich. Im manuell parametrisierten Merge ist jedoch zu sehen, dass der schwarze Hintergrund dennoch einen Einfluss auf das Resultat hat. Das resultierende Gesicht wird mit zu dunklen Farben erstellt.
Bis auf die Ausnahme mit der Unschärfe des Gesichts wurde hier ein gutes Resultat erzielt. Diese Unschärfe könnte mit der Weiterführung des Trainings noch verringert werden.
Dabei soll festgestellt werden, wie viele Seitenaufnahmen das Ausgangsmaterial des neuen Quellvideos beinhalten muss, um ein Zielvideo mit Seitenprofilaufnahmen gut nachahmen zu können. Als Basisvideo von George Bush Jr. wurde wiederum das Youtube-Video verwendet, welches bereits in der Kategorie Anzahl der Bilder verwendet wurde.
Es konnte grundsätzlich ein gutes Resultat erzielt werden. In diesem Video zeigen sich allerdings auch deutlich Bereiche, in welchen die Technologie noch Fortschritte machen muss. Wenn die Mundpartie genauer betrachtet wird, wird festgestellt, dass der Algorithmus mit Zähnen nicht besonders gut umgehen kann, diese werden entweder gar nicht dargestellt oder dann nur als eine weisse Fläche, welche sich in den meisten Fällen sogar auf den Lippen befindet.
Da ein bereits vortrainiertes Model mit Nicolas Cage verwendet wurde, ergibt sich nun der Effekt, dass das resultierende Gesicht in den Seitwärtsprofilen eine Mischung aus George Bush, George Clooney sowie Nicolas Cage ist.
Auch hier kommen in gewissen Seitenaufnahmen noch die Gesichtszüge von Nicolas Cage zum Vorschein. Es sollten dementsprechend mehr als 30% der Aufnahmen des Quellvideos aus Seitenprofilaufnahmen bestehen.
Die Anzahl der Gesichter spielt keine so grosse Rolle wie erwartet. Viel wichtiger ist, dass das Material sich in Sachen Beleuchtung und Winkel der Gesichter ähnlich ist. Nur so können qualitativ hochwertige Deepfakes erstellt werden.
Unsere Spezialisten kontaktieren Sie gern!
Andrea Hauser
Andrea Hauser
Andrea Hauser
Andrea Hauser
Unsere Spezialisten kontaktieren Sie gern!