Konkrete Kritik an CVSS4
Marc Ruef
So lässt sich Voice Authentisierung umgehen
Man spricht von Biometrischer Authentisierung, wenn ein biometrisches Merkmal durch einen Benutzer herangezogen werden kann, um sich zu Beglaubigen. Anstatt der mühsamen Eingabe eines komplexen und regelmässig ändernden Passworts, kann man sich auf das verlassen, was man sowieso immer bei sich trägt: Fingerabdruck, Iris, Stimme.
Bei Voice Authentication wird ein Fingerabdruck eines Audio-Signals, in diesem Fall die Stimme, angelegt. Dieses Pairing muss zu Beginn stattfinden. Dies kann aktiv auf Geheiss des Anwenders passieren, indem er die Konfiguration auf seinem Gerät beginnt. Es kann aber auch passiv umgesetzt werden, indem bestehende Voice-Samples analysiert oder im Rahmen eines Gesprächs (mindestens die ersten Sekunden) für die Generierung des Fingerabdrucks herangezogen werden.
Dieser Fingerabdruck lässt die Identifikation individueller Merkmale zu. Dazu gehören beispielsweise Tonhöhe, Frequenzen, Modulation, Intonation und Pausen. Wenn nun ein Benutzer eine Authentisierung durchführen muss, wird seine neuerliche Eingabe mit dem bestehenden Fingerabdruck verglichen. Falls ein gewisses Mass an Übereinstimmung identifiziert werden kann, wird davon ausgegangen, dass es sich um den selben Benutzer handelt und dieser legitimiert ist, eine Authentisierung vorzunehmen. Im Film-Klassiker Sneakers (1992) wird dies mit einem markanten Satz zusammengefasst: My Voice is My Password.
Bei einem Angriff auf eine Voice Authentisierung geht es in erster Linie darum, das System zu einer erfolgreichen Authentisierung zu bewegen, obschon die entsprechenden Voraussetzungen (legitimer Benutzer und korrekte Stimme) nicht gegeben sind. Der Angreifer probiert sich also an die Anforderungen des Fingerabdrucks anzunähern – Wiederum unter Berücksichtigung von Tonhöhe, Frequenzen, Modulation, Intonation und Pausen.
Im Gegensatz zu vielen anderen Angriffstechniken erfordert ein solcher Angriff in seinen Grundzügen ein hohes Mass an Verständnis für Audio und Akkustik. Ein Toningenieur kann viel eher verstehen, welche Anforderungen die Authentisierung stellt und wie diese adressiert werden können.
Die Entwicklungen in den letzten Jahren im Bereich der Künstlichen Intelligenz (KI) hat dies Angriffsmöglichkeiten jedoch massgeblich vereinfacht. Durch synthetische Stimmen lassen sich echt wirkende Aussagen generieren. Online-Services wie Lyrebird haben haben erste Gehversuche dieser Art ermöglicht. Mit iOS 17.0 wurde eine derartige Stimmsynthese mit dem Namen Your Voice gar auf iPhones eingeführt. Stimmsynthese steht also mittlerweile jedem zur Verfügung.
Im Rahmen von Sicherheitstests gehen wir in der Regel den umgekehrten Weg: Wir versuchen als erstes zu identifizieren, welche Abweichungen ein legitimer Fingerabdruck aufweisen kann, bis er nicht mehr als legitim anerkannt wird. Das initiale Pairing wird durchgeführt und zeitgleich aufgezeichnet. Dieses garantiert die maximal mögliche Übereinstimmung, die ein Sprachsample haben kann: Wenn es wieder abgespielt wird, sollte es ein Matching von 100% erreichen.
In einem weitere Schritt findet nun die Verfremdung des Sprachsamples statt. Dabei unterscheiden wir in den Grundzügen die folgenden Kategorien:
ID | Kategorie | Beschreibung |
---|---|---|
1 | Kompression | Durch das Erhöhen der Kompression werden Feinheiten eliminiert. |
2 | Echo und Hall | Zusätzliche Echo- und Hall-Effekte führen zu einer Verfremdung. |
3 | Sonstige Effekte (z.B. Chorus) | Zusätzliche Effekte können eine sehr starke Verfremdung erzwingen. |
4 | Reverse | Durch das Umkehren des Original-Samples werden viele Eigenschaften beibehalten (z.B. Frequenz), gewisse jedoch grundsätzlich eliminiert bzw. ausgetauscht (Intonation, Pausen). |
5 | Sample Rate | Durch das Verändern der Sample Rate kann Einfluss auf die Aufnahmequalität ausgeübt werden. |
6 | Tempo | Das Anpassen des Tempos, in der Regel unter Berücksichtigung der Tonhöhe/Frequenzen, kann Aufschluss über Analysetechniken geben. |
7 | Heimliche Aufnahme (Wanze) | Heimliche Mitschnitte von Gesprächen können abgespielt oder in der Form eines Soundbords genutzt werden. |
8 | Zusammenschnitt | Durch das Zusammenschneiden von Aufnahmen lassen sich künstlich Aussagen fabrizieren, die jedoch in Bezug auf Intonation verfremdet wirken. |
9 | Synthetische Stimmgenerierung | Die Generierung von synthetischen Stimmen kann aufzeigen, wie einfach individuelle Sprachgenerierung sein kann. |
Es werden dann mit eine Vielzahl verschiedener Samples eine entsprechende Authentisierung angegangen. In erster Linie interessiert, ob diese erfolgreich war, oder nicht. Manche Hersteller entsprechender Authentisierungssysteme weisen jedoch einen Confidence-Level aus. Diese gibt zusätzlichen Aufschluss darüber, ob und inwiefern eine Abweichung durch eine Verfremdung gegeben ist. Dadurch können Rückschlüsse auf Attribute und Gewichtung dieser gezogen werden.
Es gibt verschiedene Massnahmen, die eingesetzt werden können, um Angriffe auf Voice Authentisierung zu erschweren. Einerseits den nicht-technischen Aspekt, dass ein Dialog dynamisch zu erfolgen hat. Also dass zum Beispiel die Fragen zufällig gewählt sind oder die Authentisierung in einem natürlichen Gespräch stattzufinden hat.
Ein Angreifer kann sich nur schwierig darauf einstellen. Vorgefertigte Sprachsamples lassen sich dann nicht oder nur sehr harzig einsetzen. Ein entsprechender Angriff wird dann also schon auf zwischenmenschlicher Ebene als solcher erkannt. Eine Vollautomatisierung von Voice Authentication ist nicht in der Lage, auf dieser Ebene nachhaltig zu funktionieren.
Hinzu kommt, dass das Matching strikter eingestellt werden kann. Auf technischer Ebene wird somit erzwungen, dass ein hohes Mass bei der Übereinstimmung gegeben sein muss.
Dies erhöht zwar die Sicherheit, jedoch auch nur auf relativer Ebene. Denn eine absolute Übereinstimmung kann nie erzwungen werden. Dabei gilt es zu bedenken, dass bei diesem Ansatz neue Probleme eingeführt werden. Zum Beispiel, wenn jemand müde oder krank ist (z.B. heiser), ein unübliches Gerät für die Kommunikation verwendet wird (z.B. Skype statt Festnetztelefon) oder eine schlechte Sprachqualität gegeben ist (z.B. Empfangs- oder Netzwerkprobleme). Der Komfort, der biometrischen Mechanismen beigemessen wird, verfliegt dann unter Umständen sehr schnell wieder.
Voice Authentication klingt komfortabel – und sicher. Bei näherer Betrachtung stellt sich jedoch heraus, dass beides nicht wirklich gegeben ist. Technische oder gesundheitliche Einflüsse können den Nutzen für legitime Anwender einschränken. Und die Verbesserung bei der Replizierbarkeit und Generierung von Stimmen haben Angriffe in den letzten Jahren enorm vereinfacht.
Wie immer bei biometrischen Authentisierungen eignen sich diese nur bedingt, um ein hohes Mass an Sicherheit gewährleisten zu können. Sie können einen zusätzlichen Faktor bereitstellen, um Angriffe zu erschweren. Sich aber alleine auf diese zu verlassen, ist weder sinnvoll noch zeitgemäss. Diese in Umgebungen mit einem hohen Mass an Sicherheit einzusetzen, ist entsprechend nicht zu empfehlen.
Biometrie sollte in erster Linie ein Identifikationsmerkmal sein. Für eine Authentisierung eignet sie sich nicht wirklich. Schon nur alleine deswegen, wenn bei einem “Verlust” (z.B. Bekanntwerden von Fingerabdrücken) diese nicht ohne weiteres geändert werden können. Das Anpassen von Passwörtern ist da definitiv praktikabler.
Unsere Spezialisten kontaktieren Sie gern!
Marc Ruef
Marc Ruef
Marc Ruef
Marc Ruef
Unsere Spezialisten kontaktieren Sie gern!