Sie wollen mehr?
Weitere Artikel im Archiv
Wie PETs (Privacy Enhancing Technologien) Ihre Privatsphäre sicherstellen
Die wachsende Menge an Informationen, die im Internet fliessen, stellt die Privatsphäre der Online-Nutzer und ihre Kontrolle über ihre Daten in Frage. Privacy Enhancing Technologies (PETs) zielen darauf ab, Werkzeuge für den Schutz der Privatsphäre der personenbezogenen Daten der Nutzer bereitzustellen, indem sie die Daten, die sie weitergeben, minimieren und ihnen die Kontrolle darüber geben, wer darauf zugreifen kann und wie sie verwendet werden. In diesem Artikel geben wir einen Überblick darüber, wofür PETs eingesetzt werden können, sowie über Beispiele für solche Tools und die Herausforderungen, die bei ihrer derzeitigen Entwicklung bestehen. Wir haben uns entschieden, diesen Artikel in vier Hauptabschnitte zu unterteilen, die sich jeweils auf einen Bereich konzentrieren, in dem PETs den Datenschutz verbessern können: Datenanalyse, Bearbeitungstools, Zugangsverwaltung und Kommunikation.
In der Datenanalytik werden Datensätze von Einzelpersonen verwendet, um Ergebnisse abzuleiten. Diese Ergebnisse können Statistiken für Forschungszwecke oder Datenmodelle für Vorhersagezwecke sein. Das Problem dabei ist, dass einzelne Daten persönliche Informationen enthalten können, die dann den an der Verarbeitung beteiligten Parteien zugänglich gemacht werden. Die Nutzer möchten diesen Parteien ihre Daten möglicherweise nicht anvertrauen. PETs wie beispielsweise synthetische Daten, Differential Privacy (also differenzielle Privatsphäre) und Federated Learning (föderales Lernen) zeigen verschiedene Ansätze zur Verschleierung dieser Daten oder zur Verhinderung des Zugriffs auf Rohdaten.
Synthetische Daten sind Daten, die künstlich erzeugt werden. Zu diesem Zweck werden Modelle mit ähnlichen statistischen Eigenschaften wie bei “echten” Daten verwendet, um synthetische Datensätze zu erstellen. Eine der verbleibenden Herausforderungen besteht darin, sicherzustellen, dass Originaldatensätze nicht aus synthetischen Datensätzen wiederhergestellt werden können und keine Angriffe zur Re-Identifizierung möglich sind.
Die folgende Abbildung zeigt ein einfaches Beispiel für einen Datensatz, der das Alter von Personen in Abhängigkeit von ihrer Abteilung darstellt. Die statistischen Eigenschaften der Originaldaten werden extrahiert, in diesem Fall der Durchschnitt des Alters pro Abteilung, um das statistische Modell zu definieren. Aus diesem Modell werden dann synthetische Daten erzeugt, wobei die ausgewählten Eigenschaften beibehalten werden.
Bei der differenziellen Privatsphäre wird den einzelnen Daten ein Rauschen hinzugefügt, so dass die Originaldaten nicht mehr identifiziert werden können. Die aggregierten verrauschten Daten führen aber immer noch zu ähnlichen Ergebnissen wie bei den Rohdaten. Die Herausforderung besteht hier also darin, einen Schwellenwert zu finden, bei dem das hinzugefügte Rauschen einen angemessenen Grad an Zurückweisung der individuellen Originaldaten bietet, ohne die Ergebnisse der Analyse grosser Datensätze zu verändern.
Die folgende Abbildung zeigt am Beispiel des vorherigen Datensatzes, dass den Altersfeldern ein Rauschen zwischen -2 und +2 hinzugefügt wird, was zu ähnlichen statistischen Ergebnissen führt und den Personen im ursprünglichen Datensatz die Möglichkeit gibt, ihr wahres Alter zu verbergen.
Beim Federated Learning werden die Rohdaten lokal an der Datenquelle vorverarbeitet und dieses lokal trainierte Modell dann mit anderen geteilt, um ein allgemeines Modell zu erhalten, das aus den einzelnen Modellen aggregiert wird. Auch hier besteht die grösste Herausforderung darin, zu verhindern, dass persönliche Informationen sowohl aus den lokal als auch aus den allgemein trainierten Daten wiederhergestellt werden.
Die folgende Abbildung zeigt vier verschiedene Organisationen mit ihrer eigenen privaten Datenbank. Sie leiten zunächst ein lokales Modell ab, bevor sie es mit anderen Organisationen teilen, um ein gemeinsames Modell zu erstellen.
Mit Bearbeitungstools, z. B. beim Cloud Computing, werden Operationen an Daten durchgeführt. Wenn Daten sensibel sind oder geheim bleiben müssen, besteht eine Lösung darin, Wege zu finden, verschlüsselte Daten so zu verarbeiten, dass die Berechnungen auf die entschlüsselten Daten zurückwirken. Homomorphe Verschlüsselung, Secure Multi-Party Computation und Trusted Execution Environment bieten verschiedene Ansätze für die Verarbeitung verschlüsselter Daten.
Die Homomorphe Verschlüsselung beruht auf einem mathematischen Objekt namens Homomorphismus. Ein Homomorphismus ist eine mathematische Funktion f, die eine bestimmte Operation x so bewahrt, dass f(a x b) = f(a) x f(b) ist. Wenn f() eine Verschlüsselungsfunktion ist und x die Operation ist, die wir an den Daten durchführen wollen, dann kann die Verarbeitung (=Operation) an den verschlüsselten Daten f(a) und f(b) durchgeführt werden. Das Ergebnis ist dasselbe, als hätten wir die Operation an Klartextdaten durchgeführt und sie dann verschlüsselt. Die grössten Herausforderungen sind hier die längere Rechenzeit im Vergleich zur Berechnung mit unverschlüsselten Daten und der Bedarf an erfahrenen Entwicklern, um diesen komplexeren Aufbau richtig umzusetzen.
Wie in diesem Artikel näher beschrieben, ermöglicht Secure Multi-Party Computation verschiedenen Parteien, eine gemeinsame Operation auf ihren jeweiligen privaten Daten zu berechnen. Alle Parteien erhalten ein gemeinsames Ergebnis, ohne jemals die privaten Eingaben der einzelnen Parteien zu kennen. Auch hier liegt eine wichtige Herausforderung in den Rechenkosten.
Eine Trusted Execution Environment ist ein isolierter Bereich in einem Computerprozessor, der sicheren Speicherplatz für Daten bietet und bestätigt, dass alle darauf ausgeführten Operationen erwartet und beabsichtigt sind. Im Vergleich zu anderen in diesem Artikel erwähnten Lösungen, die softwarebasiert sind, handelt es sich bei TEEs um Hardware-Datenschutztechnologien, was ihre Bereitstellung und Wartung teurer macht.
Was die Zugangsverwaltung anbelangt, so besteht eine gängige Methode darin, dass ein Benutzer Informationen über seine Identität bereitstellt, z. B. Name, Email und Geburtstag, und dann ein Konto mit diesen Daten verknüpft. Zero-Knowledge-Proof und Attribute-Based Credentials zeigen Wege auf, um Authentifizierung und Autorisierung zu ermöglichen und gleichzeitig zu begrenzen, was der Benutzer über sich selbst preisgibt.
Der Zero-Knowledge Proof ist eine kryptografische Methode, mit der ein Benutzer einer anderen Partei beweisen kann, dass eine bestimmte Aussage wahr ist, ohne weitere Informationen preiszugeben. Mit anderen Worten: Der Nutzer beweist, dass er eine bestimmte Information oder einen bestimmten Status besitzt, ohne den Inhalt dieser Information preiszugeben, und beweist, dass ein gültiges Konto für eine Plattform besteht, ohne seine eigene Identität preiszugeben. Protokolle zur Umsetzung dieses Konzepts für die Zugangsverwaltung sind nicht trivial und derzeit noch weitgehend theoretisch.
Mit Attribute-Based Credentials kann sich ein Benutzer mit einem minimalen Satz von Attributen authentifizieren, die für die Authentifizierung erforderlich sind, ohne seine vollständige Identität preiszugeben. Die Attribute können zusätzlich durch einen Zero-Knowledge-Proof geschützt werden. Nehmen wir zum Beispiel eine Streaming-Plattform, die verschiedene Arten von Inhalten anbietet und für die verschiedene Abonnementpakete verfügbar sind, je nachdem, auf welche Inhalte ein Nutzer zugreifen möchte. In diesem Fall bestimmt das Abonnement eines Nutzers die Kategorien von Inhalten, auf die er zugreifen kann, d. h. er zahlt für ein bestimmtes Paket von Kategorien und kann dann auf alle Inhalte in diesen Kategorien zugreifen, aber nicht auf Inhalte in anderen Kategorien, für die er nicht bezahlt hat. Das Abonnementpaket ist mit einem bestimmten Nutzer verknüpft. Aber was dieser Nutzer dann auf der Plattform abruft, muss nicht mit ihm verknüpft sein. Die Plattform muss lediglich überprüfen, ob jeder, der auf einen bestimmten Inhalt zugreift, ein Abonnement für die entsprechende Kategorie von Inhalten hat. In diesem Fall könnte es sich bei den Attributen um den Satz von Kategorien handeln, für die ein Nutzer bezahlt hat. ABC bietet einem Nutzer die Möglichkeit, diese Zugriffe nachzuweisen, ohne sie mit dem Nutzer zu verknüpfen, der das Abonnement abgeschlossen hat. Diese Protokolle sind komplex, beruhen auf mathematischen Eigenschaften und befinden sich noch in einem theoretischen Stadium.
Schliesslich sind die Metadaten der Kommunikation im Internet für jedermann einsehbar. Selbst wenn der Inhalt verschlüsselt ist, sind die am Internet-Austausch beteiligten Stellen immer noch sichtbar und geben Aufschluss darüber, welcher Endpunkt mit einem anderen kommuniziert, welche Art von Daten ausgetauscht wird und mit welcher Häufigkeit. Onion- und Garlic-Routing sind zwei Ansätze zur Anonymisierung dieser Kommunikation.
Das Onion-Routing basiert auf dem Konzept der Mix-Netze, bei dem Router, die Kommunikationspakete im Internet empfangen, diese in zufälliger Reihenfolge an den nächsten Router weiterleiten, um die Verknüpfung eines Pakets, das in den Router gelangt, mit einem Paket, das ihn verlässt, zu erschweren. Der Begriff “Onion” (also Zwiebel) kommt daher, dass jeder Router auf dem Kommunikationspfad zwischen zwei Endpunkten (z. B. Sie und die Website, die Sie besuchen) eine Verschlüsselungsschicht hinzufügt, so dass jeder Router nur den vorherigen und den nächsten Router auf dem Pfad kennt. Dadurch wird die Kommunikation etwas verzögert, und Implementierungen wie TOR bieten immer noch eine potenzielle Angriffsfläche für die Analyse des Datenverkehrs, indem sie es einem Angreifer ermöglichen, die beiden kommunizierenden Endpunkte erneut zu verknüpfen.
In der folgenden Abbildung zeigen wir eine vereinfachte Darstellung der mehrschichtigen Verschlüsselung beim Onion Routing. Alice sendet eine Nachricht “Hello” an Bob. Clara sendet daraufhin ihre eigene Nachricht “Hi” an Dave. Der erste Router auf dem Kommunikationspfad entfernt seine Verschlüsselungsschicht (gelb dargestellt) und sendet beide Nachrichten in einer zufälligen Reihenfolge an den nächsten Router auf dem Pfad. Schliesslich entfernt dieser letzte Router seine eigene Verschlüsselungsschicht und leitet die Nachrichten, wiederum in zufälliger Reihenfolge, an ihre jeweiligen Ziele weiter.
Das Garlic-Routing basiert auf dem Onion-Routing. Der Hauptunterschied besteht darin, dass es mehrere Pakete zusammen verschlüsselt, um Angreifern die Analyse des Datenverkehrs zu erschweren. Dies funktioniert am besten, wenn der Gesamtverkehr gleichmässig auf die Router verteilt ist, was nicht immer der Fall ist.
Anhand des gleichen Beispiels wie beim Onion-Routing wird im Folgenden gezeigt, wie mehrere Nachrichten in einer einzigen zusammengefasst werden, bevor ein Router sie an ihr gemeinsames nächstes Ziel sendet. In diesem Fall ist es für einen Angreifer zwischen Router 1 und 2 schwieriger, die Grösse der Pakete zu analysieren, um zu versuchen, sie mit den von Router 1 empfangenen Nachrichten in Verbindung zu bringen, insbesondere in einem realistischeren Fall, in dem Router 1 mehr Nachrichten von anderen Quellen erhält, die an unterschiedliche Ziele gehen.
Wir gaben einen Überblick über verschiedene Arten von PETs für unterschiedliche Anwendungen und Ziele. Wir haben uns auf PETs konzentriert, die Daten bei der Analyse oder Berechnung durch Dritte und bei der Kommunikation schützen und neue Paradigmen für die Abkopplung der Identität von der Zugangsverwaltung bieten. Dies ist keine abschliessende Liste der bestehenden PETs, und jedes von ihnen würde einen eigenen Artikel verdienen. Sie soll jedoch einen ersten Vorgeschmack geben und hoffentlich die Neugierde wecken, mehr über diese aufkommenden Technologien zu erfahren, wenn man die vielen Herausforderungen bedenkt, die mit dem Schutz der Privatsphäre einhergehen. Daten haben sich bereits als kostbare und sensible Ressource erwiesen, sei es in der Forschung, in der Wirtschaft, im Informationswesen oder bei Aufklärungsarbeiten. Die Entwicklung konkreter Instrumente zum Schutz dieser Daten ist sowohl auf individueller als auch auf gesellschaftlicher Ebene von entscheidender Bedeutung geworden.
Wir führen gerne für Sie ein Monitoring des Digitalen Untergrunds durch!
Ian Boschung
Yann Santschi
Michèle Trebo
Ralph Meier
Unsere Spezialisten kontaktieren Sie gern!