Deepfake Audio Text to Speech - Eine Einführung

Deepfake Audio Text to Speech

Eine Einführung

Andrea Hauser
von Andrea Hauser
am 18. März 2021
Lesezeit: 8 Minuten

Keypoints

So funktionieren Audio-Deepfakes

  • Neben visuellen Deepfakes gibt es auch die Möglichkeit, Deepfakes aus Audio zu erstellen
  • Dabei wird das sogenannte Text-to-Speech-Verfahren angewendet
  • Mit aktuell öffentlich zugänglichen Tools ist ein gutes technisches Verständnis notwendig, die breite Öffentlichkeit kann aktuell noch nicht einfach einen Audio Deepfake erstellen
  • Dennoch sollten sich Unternehmen Gedanken dazu machen, wie sie zum Beispiel mit gefälschten Anrufen in Zukunft umgehen werden

In den Jahren 2018 und 2019 wurden in einer Artikel-Serie Deepfakes analysiert sowie eigene Deepfakes erstellt. Bei der damaligen Betrachtung ging es lediglich um Deepfakes von Videos oder Bildern. Deepfakes können allerdings nicht nur für Videos oder Bilder erstellt werden, diese Möglichkeit besteht auch für Audioaufnahmen. In diesem Artikel wird eine Übersicht über Deepfakes für Aufnahmen von Stimmen gegeben.

Das Vorgehen zur Erstellung von Audio Deepfakes ist ähnlich wie bei visuellen Deepfakes aber dennoch anders. Ähnlich ist, dass die Audio Deepfakes auf den gleichen Prinzipien der Berechnung mit Neuronalen Netzwerken beruhen. Die Herangehensweise an die Verarbeitung von Stimmmaterial ist jedoch aufgrund der Ausgangslage anders. Für die Erstellung eines Audio Deepfakes werden klare Aufnahmen eines Sprechers, möglichst ohne Unterbrechungen, Hintergrund- oder Störgeräuschen, benötigt. Je mehr solches Material zur Verfügung steht, umso besser wird der Audio Deepfake. Der Ansatz aktueller Tools ist es, Text in der Stimme einer gewählten Person vorzulesen.

Wie wird ein Audio Deepfake erstellt?

In einem ersten Schritt muss dem Modell beigebracht werden in einer bestimmten Sprache zu lesen und dieses Gelesene wiedergeben zu können. Dies basiert auf einer generischen Stimme, für die viel Stimmmaterial, mindestens 24 Stunden Audio, vorliegt. Zudem müssen für die Aufnahmen Transkripte vorhanden sein, damit schlussendlich Text zu Stimmlauten umgewandelt werden kann. Das Modell wird mit den Aufnahmen und den Transkripten gefüttert. Die dem Modell mitgegebenen Text- und Audioabschnitte sollten für das Training jeweils nicht länger als 10 Sekunden sein und mit dem Ende eines Wortes aufhören. Das bedeutet, dass für die Aufbereitung der Daten für ein solches generisches Modell ein grosser Aufwand notwendig ist. Einerseits müssen genügend gute Aufnahmen vorhanden sein andererseits müssen die Aufnahmen und Texte in den vom Modell erwarteten Zustand gebracht werden. Nachdem das Material aufbereitet wurde, wird eine lange Zeit gerechnet, damit das Modell eine Korrelation zwischen dem Text und dem Audio herstellen kann. Daraus entsteht das generische Grundmodell in der gewünschten Sprache, mit dem im nächsten Schritt mit der effektiv gewünschten Stimme ein Finetuning vorgenommen werden kann.

Das Finetuning benötigt nochmals etwa 30% des Zeitaufwandes, der für das Training des Grundmodells gebraucht wurde. Vom gewünschten Sprecher sind etwa 2.5 bis 3 Stunden Aufnahmen der Stimme notwendig, um ein gutes Resultat zu erzielen. Die aus diesem Finetuning erhaltenen Resultate klingen allerdings noch relativ metallisch und Roboter-ähnlich. Der Grund dafür ist, dass in diesem Training nur auf die wichtigsten Frequenzen trainiert wurde, da der rechnerische und zeitliche Aufwand viel zu gross wäre, um für alle vorhandenen Frequenzen korrekt zu trainieren. Damit aus der metallischen Stimme eine besser klingende Imitation beziehungsweise eine nicht mehr erkennbare Emulation der Stimme wird, wird noch ein letzter Schritt benötigt. Die erhaltenen Resultate werden in einen sogenannten Neural Vocoder gegeben, der die Lücken in den Frequenzen füllt und dem Ganzen somit einen natürlichen Klang gibt.

Was für Tools stehen aktuell zur Verfügung?

Es gibt unterschiedliche öffentlich zur Verfügung stehende Tools. Zwei dieser Tools die sehr vielversprechend aussehen sind TTS von Mozilla und tacotron2 von NVIDIA. Für beide finden sich Anleitungen für die Benutzung, es wird jedoch schnell klar, dass die aktuell vorhandenen Tools technisches Verständnis sowie Verständnis dafür, wie Audio Deepfakes funktionieren, benötigen.

Wie gut sind diese Tools?

Auf YouTube lassen sich viele Beispiele für Resultate von Audio Deepfakes mit Tacotron2 finden. Zum Beispiel der Kanal Vocal Synthesis nutzt diese Vorgehensweise. Bei den öffentlich verfügbaren Tools sind die Resultate jedoch meist hörbar manipuliert.

In diesem Video einer Imitation von Donald Trump sind noch deutlich irritierende Überbleibsel der Verarbeitung zu hören. Wenn dieser Klipp jedoch noch mit einem lauten Hintergrundgeräusch wie zum Beispiel einer Party oder einer schlecht klingenden Verbindung hinterlegt werden würde, und nichts Bösartiges erwartet wird, könnten damit durchaus Personen getäuscht werden.

Es gibt allerdings auch bessere Beispiele wie der Clip von Speaking of AI, in dem eine Imitation von Homer Simpson zu hören ist.

Die Beispiele von diesem YouTube-Kanal werden allerdings mit einer Methode erstellt, die nicht öffentlich zugänglich ist. Es zeigt allerdings auf, dass sich bereits heute schon erstaunliche Resultate erzielen lassen.

Was sind die Auswirkungen?

In Kombination mit visuellen Deepfakes lässt sich damit potenziell eine vollständige Imitation einer Person erstellen. Daraus ergeben sich ähnliche Vor- und Nachteile wie bereits in der Einführung zu Deepfakes besprochen.

Zusätzlich kommen allerdings noch weitere Punkte auf. Mit der Möglichkeit Stimmen zu imitieren, können überzeugende telefonische Phishing-Angriffe auf Unternehmen ausgeführt werden. Des Weiteren gibt das grundsätzliche Bestehen der Technologie Personen die Möglichkeit, Video- oder Audiobeweise als gefälscht abzuweisen, egal ob diese nun wahr oder falsch sind.

Als positiver Punkt für die Technologie soll festgehalten werden, dass damit Stimmen von Personen, die ihre Stimme durch eine Krankheit oder ähnliches verloren haben, nachgestellt werden können. Somit wird es möglich personalisierte Computerstimmen als Stimmersatz anzubieten.

Umgang mit Audio Deepfake Angriffen übers Telefon

Es wäre mindestens sinnvoll, beim Verdacht eines gefälschten Anrufs aufzulegen und die Person zurückzurufen und sich das Besprochene nochmals bestätigen zu lassen. Dabei sollte der Rückruf nicht auf eine am Telefon angegebenen Nummer gehen, sondern auf die bekannte Nummer der Person die angeblich angerufen hat.

Fazit

Die Möglichkeit realistische Audio Deepfakes zu erstellen, besteht bereits heute schon. Mit den aktuell bestehenden, öffentlich verfügbaren Tools ist es allerdings notwendig ein gewisses technisches Verständnis zu besitzen. Nichtsdestotrotz sollten sich Unternehmen Gedanken machen, wie sie in Zukunft zum Beispiel mit möglicherweise gefälschten Telefonanrufen umgehen und wie das Personal darauf geschult werden soll.

Über die Autorin

Andrea Hauser

Andrea Hauser hat ihren Bachelor of Science FHO in Informatik an der Hochschule für Technik Rapperswil abgeschlossen. Sie setzt sich im offensiven Bereich in erster Linie mit Web Application Security Testing und der Umsetzung von Social Engineering Kampagnen auseinander. Zudem ist sie in der Forschung zum Thema Deepfakes tätig. (ORCID 0000-0002-5161-8658)

Links

Sie wollen eine KI evaluieren oder entwickeln?

Unsere Spezialisten kontaktieren Sie gern!

×
Angriffsmöglichkeiten gegen Generative AI

Angriffsmöglichkeiten gegen Generative AI

Andrea Hauser

XML-Injection

XML-Injection

Andrea Hauser

Burp Makros

Burp Makros

Andrea Hauser

WebSocket Fuzzing

WebSocket Fuzzing

Andrea Hauser

Sie wollen mehr?

Weitere Artikel im Archiv

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv