Voice Authentisierung

Risiken des biometrischen Ansatzes

von Marc Ruef

am 12. Oktober 2023

Lesezeit: 10 Minuten

Keypoints

So lässt sich Voice Authentisierung umgehen

Biometrische Authntisierung nutzt biometrische Merkmale anstatt Passwörter und PINs
Sie versprechen ein hohes Mass an Sicherheit, das aber selten praktikabel eingehalten werden kann
Durch systematische Tests lässt sich Voice Authentisierung prüfen
Früher mit viel Aufwand und heute dank KI mit relativ wenigen Klicks lassen sich solche Systeme erfolgreich angreifen
Der Einsatz von Voice Authentisierung in Umgebungen mit hohen Sicherheitsanforderungen ist dementsprechend nicht empfohlen

Biometrische Mechanismen geniessen hohe Beliebtheit. Neben dem Flair von Science-Fiction versprechen sie Komfort und ein höheres Mass an Sicherheit. Dass dies in der Regel nicht der Fall ist und gar weitreichende Nachteile einhergehen, wird dabei gerne vernachlässigt. Dieser Beitrag setzt sich damit auseinander, warum Voice Authentication keine gute Idee ist.

Man spricht von Biometrischer Authentisierung, wenn ein biometrisches Merkmal durch einen Benutzer herangezogen werden kann, um sich zu Beglaubigen. Anstatt der mühsamen Eingabe eines komplexen und regelmässig ändernden Passworts, kann man sich auf das verlassen, was man sowieso immer bei sich trägt: Fingerabdruck, Iris, Stimme.

So funktioniert Voice Authentication

Bei Voice Authentication wird ein Fingerabdruck eines Audio-Signals, in diesem Fall die Stimme, angelegt. Dieses Pairing muss zu Beginn stattfinden. Dies kann aktiv auf Geheiss des Anwenders passieren, indem er die Konfiguration auf seinem Gerät beginnt. Es kann aber auch passiv umgesetzt werden, indem bestehende Voice-Samples analysiert oder im Rahmen eines Gesprächs (mindestens die ersten Sekunden) für die Generierung des Fingerabdrucks herangezogen werden.

Dieser Fingerabdruck lässt die Identifikation individueller Merkmale zu. Dazu gehören beispielsweise Tonhöhe, Frequenzen, Modulation, Intonation und Pausen. Wenn nun ein Benutzer eine Authentisierung durchführen muss, wird seine neuerliche Eingabe mit dem bestehenden Fingerabdruck verglichen. Falls ein gewisses Mass an Übereinstimmung identifiziert werden kann, wird davon ausgegangen, dass es sich um den selben Benutzer handelt und dieser legitimiert ist, eine Authentisierung vorzunehmen. Im Film-Klassiker Sneakers (1992) wird dies mit einem markanten Satz zusammengefasst: My Voice is My Password.

Angriffe auf Voice Authentisierung

Bei einem Angriff auf eine Voice Authentisierung geht es in erster Linie darum, das System zu einer erfolgreichen Authentisierung zu bewegen, obschon die entsprechenden Voraussetzungen (legitimer Benutzer und korrekte Stimme) nicht gegeben sind. Der Angreifer probiert sich also an die Anforderungen des Fingerabdrucks anzunähern – Wiederum unter Berücksichtigung von Tonhöhe, Frequenzen, Modulation, Intonation und Pausen.

Im Gegensatz zu vielen anderen Angriffstechniken erfordert ein solcher Angriff in seinen Grundzügen ein hohes Mass an Verständnis für Audio und Akkustik. Ein Toningenieur kann viel eher verstehen, welche Anforderungen die Authentisierung stellt und wie diese adressiert werden können.

Die Entwicklungen in den letzten Jahren im Bereich der Künstlichen Intelligenz (KI) hat dies Angriffsmöglichkeiten jedoch massgeblich vereinfacht. Durch synthetische Stimmen lassen sich echt wirkende Aussagen generieren. Online-Services wie Lyrebird haben haben erste Gehversuche dieser Art ermöglicht. Mit iOS 17.0 wurde eine derartige Stimmsynthese mit dem Namen Your Voice gar auf iPhones eingeführt. Stimmsynthese steht also mittlerweile jedem zur Verfügung.

Umsetzung eines Sicherheitstests

Im Rahmen von Sicherheitstests gehen wir in der Regel den umgekehrten Weg: Wir versuchen als erstes zu identifizieren, welche Abweichungen ein legitimer Fingerabdruck aufweisen kann, bis er nicht mehr als legitim anerkannt wird. Das initiale Pairing wird durchgeführt und zeitgleich aufgezeichnet. Dieses garantiert die maximal mögliche Übereinstimmung, die ein Sprachsample haben kann: Wenn es wieder abgespielt wird, sollte es ein Matching von 100% erreichen.

In einem weitere Schritt findet nun die Verfremdung des Sprachsamples statt. Dabei unterscheiden wir in den Grundzügen die folgenden Kategorien:

ID	Kategorie	Beschreibung
1	Kompression	Durch das Erhöhen der Kompression werden Feinheiten eliminiert.
2	Echo und Hall	Zusätzliche Echo- und Hall-Effekte führen zu einer Verfremdung.
3	Sonstige Effekte (z.B. Chorus)	Zusätzliche Effekte können eine sehr starke Verfremdung erzwingen.
4	Reverse	Durch das Umkehren des Original-Samples werden viele Eigenschaften beibehalten (z.B. Frequenz), gewisse jedoch grundsätzlich eliminiert bzw. ausgetauscht (Intonation, Pausen).
5	Sample Rate	Durch das Verändern der Sample Rate kann Einfluss auf die Aufnahmequalität ausgeübt werden.
6	Tempo	Das Anpassen des Tempos, in der Regel unter Berücksichtigung der Tonhöhe/Frequenzen, kann Aufschluss über Analysetechniken geben.
7	Heimliche Aufnahme (Wanze)	Heimliche Mitschnitte von Gesprächen können abgespielt oder in der Form eines Soundbords genutzt werden.
8	Zusammenschnitt	Durch das Zusammenschneiden von Aufnahmen lassen sich künstlich Aussagen fabrizieren, die jedoch in Bezug auf Intonation verfremdet wirken.
9	Synthetische Stimmgenerierung	Die Generierung von synthetischen Stimmen kann aufzeigen, wie einfach individuelle Sprachgenerierung sein kann.

Es werden dann mit eine Vielzahl verschiedener Samples eine entsprechende Authentisierung angegangen. In erster Linie interessiert, ob diese erfolgreich war, oder nicht. Manche Hersteller entsprechender Authentisierungssysteme weisen jedoch einen Confidence-Level aus. Diese gibt zusätzlichen Aufschluss darüber, ob und inwiefern eine Abweichung durch eine Verfremdung gegeben ist. Dadurch können Rückschlüsse auf Attribute und Gewichtung dieser gezogen werden.

Massnahmen zur Erhöhung der Sicherheit

Es gibt verschiedene Massnahmen, die eingesetzt werden können, um Angriffe auf Voice Authentisierung zu erschweren. Einerseits den nicht-technischen Aspekt, dass ein Dialog dynamisch zu erfolgen hat. Also dass zum Beispiel die Fragen zufällig gewählt sind oder die Authentisierung in einem natürlichen Gespräch stattzufinden hat.

Ein Angreifer kann sich nur schwierig darauf einstellen. Vorgefertigte Sprachsamples lassen sich dann nicht oder nur sehr harzig einsetzen. Ein entsprechender Angriff wird dann also schon auf zwischenmenschlicher Ebene als solcher erkannt. Eine Vollautomatisierung von Voice Authentication ist nicht in der Lage, auf dieser Ebene nachhaltig zu funktionieren.

Hinzu kommt, dass das Matching strikter eingestellt werden kann. Auf technischer Ebene wird somit erzwungen, dass ein hohes Mass bei der Übereinstimmung gegeben sein muss.

Dies erhöht zwar die Sicherheit, jedoch auch nur auf relativer Ebene. Denn eine absolute Übereinstimmung kann nie erzwungen werden. Dabei gilt es zu bedenken, dass bei diesem Ansatz neue Probleme eingeführt werden. Zum Beispiel, wenn jemand müde oder krank ist (z.B. heiser), ein unübliches Gerät für die Kommunikation verwendet wird (z.B. Skype statt Festnetztelefon) oder eine schlechte Sprachqualität gegeben ist (z.B. Empfangs- oder Netzwerkprobleme). Der Komfort, der biometrischen Mechanismen beigemessen wird, verfliegt dann unter Umständen sehr schnell wieder.

Zusammenfassung

Voice Authentication klingt komfortabel – und sicher. Bei näherer Betrachtung stellt sich jedoch heraus, dass beides nicht wirklich gegeben ist. Technische oder gesundheitliche Einflüsse können den Nutzen für legitime Anwender einschränken. Und die Verbesserung bei der Replizierbarkeit und Generierung von Stimmen haben Angriffe in den letzten Jahren enorm vereinfacht.

Wie immer bei biometrischen Authentisierungen eignen sich diese nur bedingt, um ein hohes Mass an Sicherheit gewährleisten zu können. Sie können einen zusätzlichen Faktor bereitstellen, um Angriffe zu erschweren. Sich aber alleine auf diese zu verlassen, ist weder sinnvoll noch zeitgemäss. Diese in Umgebungen mit einem hohen Mass an Sicherheit einzusetzen, ist entsprechend nicht zu empfehlen.

Biometrie sollte in erster Linie ein Identifikationsmerkmal sein. Für eine Authentisierung eignet sie sich nicht wirklich. Schon nur alleine deswegen, wenn bei einem “Verlust” (z.B. Bekanntwerden von Fingerabdrücken) diese nicht ohne weiteres geändert werden können. Das Anpassen von Passwörtern ist da definitiv praktikabler.

Über den Autor

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Sie wollen eine KI evaluieren oder entwickeln?

Unsere Spezialisten kontaktieren Sie gern!

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

Marc Ruef

Bug-Bounty

Marc Ruef

Voice Authentisierung

Risiken des biometrischen Ansatzes

Keypoints

So funktioniert Voice Authentication

Angriffe auf Voice Authentisierung

Umsetzung eines Sicherheitstests

Massnahmen zur Erhöhung der Sicherheit

Zusammenfassung

Über den Autor

Links

Tags

Sie wollen eine KI evaluieren oder entwickeln?

Konkrete Kritik an CVSS4

scip Cybersecurity Forecast

Bug-Bounty

Breach und Leak

Sie wollen mehr?

Sie brauchen Unterstützung bei einem solchen Projekt?

Sie wollen mehr?