Datenkorrelation - Wie sie funktioniert

Datenkorrelation

Wie sie funktioniert

Dominik Bärlocher
von Dominik Bärlocher
Lesezeit: 17 Minuten

Wie sich herausstellt, zeichnen Android- und Applegeräte die GPS-Daten ihrer Nutzer standardmässig auf. Das ist aber kein Versuch, die Nutzer auszuspionieren, sondern ein Versuch, so viel Daten wie möglich zu sammeln, indem das Prinzip des Crowdsourcing angewendet wird. Es handelt sich hierbei um ein Paradebeispiel der Datenkorrelation. Zudem zeigt der Fall auf, dass die Unternehmen nicht hinter den Usern her sind, sondern hinter deren Wissen.

Google und Apple wissen, wo Sie sind.

Es vergeht kaum mehr ein Tag ohne irgendeinen neuen Skandal, der irgendetwas mit Privatsphäre oder generell mit Information Security zu tun hat. Aus professioneller Perspektive wird das schnell etwas trocken und die generelle Einstellung der Profis gegenüber den jüngsten Skandalen scheint Ist doch gar nicht so schlimm. Warum ist das überhaupt ein Problem? zu sein.

Was die Leute im InfoSec-Sektor aber oft nicht realisieren, ist, dass nicht jeder ihr breites Wissen über die inneren Mechanismen von Computersystemen haben. Nicht jeder weiss, wie sie funktionieren und was sie überhaupt können. Klar, ein gewisses abstraktes Verständnis über die Tatsache, dass Menschen über ihr Handy geortet werden können, ist da. Immerhin macht das Horatio Caine, Star der Serie CSI Miami beinahe täglich. Die meisten aber denken nicht daran, dass sie selbst zum Ziel dieser Überwachung werden könnten.

Daher ist es nicht gross überraschend, dass Leute darüber überrascht sind, dass unsere iPhones und unsere Android Geräte jeden Schritt, den wir machen, aufzeichnen. Was ebenfalls nur wenige wissen, ist, dass die Geräte das nur tun, wenn wir das zulassen. Es gibt keine grosse, weltweite Verschwörung von Superschurken auf Teppichetagen, die sich darin manifestiert, dass Apple und Google jeden unserer Schritte überwachen. Es ist genau diese Haltung, dieses Insistieren auf die Verschwörung, die Profis in der Branche den Kopf schütteln lässt. Stets folgt diesem Kopfschütteln die Versicherung, dass alles halb so wild ist. Das führt zu einer recht unglücklichen Pattsituation zwischen zwei Fraktionen, die immer verhärteter in ihrer Meinung werden.

Darum wurde dieser Artikel geschrieben. Dieses Labs versucht, die Lücke zwischen dem, was ein Profi sieht, und dem, was der Konsument nicht weiss, zu schliessen, indem mit einfachen aber akkuraten Beispielen aufgezeigt wird, wie der Prozess der Datenkorrelation funktioniert. Und, natürlich, was Kunden den Firmen mitteilen, vielleicht ohne das zu wollen.

Warum es funktioniert

Grundsätzlich wäre das alles nicht so ein Skandal, wenn die Menschen neugieriger wären. Weil im Normalfall läuft der Prozess des Handykaufs in etwa so ab:

Kurz: Die Kunden gehen einfach davon aus, dass die Firmen die selben Interessen wie der Kunde haben, ohne auch nur darüber nachzudenken, was die eigenen Interessen, geschweige denn die der Unternehmen, sind.

Dem gegenüber stehen Firmeninteressen, die in etwa so aussehen.

Im Namen der Kürze und der besseren Lesbarkeit wird im Rest dieses Artikels Google als Beispielsfirma verwendet. Apples Korrelation funktioniert ähnlich, genau wie ihre Produkte.

Auch soll der oben erwähnte Fall mit der Ortung weiter als Beispiel herhalten. Beide Firmen geben an, dass sie mit der gesammelten Location Data, wie die Daten im Fachjargon genannt werden, ihre Kartendienste und ihre Verkehrsinformationen verbessern wollen. Offensichtlich müssen die Firmen dazu wissen, wo ihre User sind. Aber warum sollten sie da aufhören? Beide Firmen versuchen, ihren Nutzern so gute Informationen wie nur irgendwie möglich zu liefern. Google integriert sogar visitenkartenartige Anzeigen mit zeit- und ortsbasierten Vorschlägen, die ihre User interessant finden könnten in ihre Google Search App worin Google Now enthalten ist. Aktuell fragt mich mein Visitenkarteninterface, ob ich an Cricket interessiert sei, weil ich vor einiger Zeit mal danach gesucht habe. Eine andere Visitenkarte sagt mir, dass die jüngste Ausgabe des scip monthly security summary online ist. Diese Karten würden mir wesentlich mehr anzeigen, wenn ich meine Location Data eingeschaltet hätte. I würde das aktuelle Wetter sehen, wo die Verkehrsstaus rund um meinen aktuellen Aufenthaltsort wären und ich bin mir ziemlich sicher, dass Google mir auch anzeigen könnte, was das Tagesmenü meines liebsten Restaurants in der Gegend ist.

All dies ist eigentlich – abhängig davon, welchen Wert die Kunden ihrer Privatsphäre zumessen – eine Situation in der keiner verliert. Kunde bekommen so gegen Mittag das Tagesmenü ihres Lieblingslokals vorgeschlagen, wenn die Wahl des Essens hungerbedingt relevant wird. Google kriegt mehr Daten und Werbeeinnahmen. Mehr über die Privatsphäre aber später.

Datenkorrelation: Wie sie wissen, wo was ist

So viel Google auch weiss, der Konzern kann nicht überall sein. Sie haben schlicht nicht die Infrastruktur dazu, um alle neuralgischen Verkehrsknotenpunkte jederzeit zu überwachen. Trotzdem weiss Google Maps jederzeit, wo gerade Verkehrsstaus sind. Wenn Sie das selbst ausprobieren wollen, dann versuchen Sie Folgendes:

  1. Öffnen Sie Ihre Google Maps app oder gehen sie auf das Web-Interface
  2. Planen Sie eine Route von ihrem Wohnort zu ihrem Arbeitsplatz
  3. Schauen Sie sich die roten und blauen Abschnitte der Karte an
    • Rot: Stau
    • Blau: Freie Fahrt

Das stimmt doch mit Ihren Erfahrungen überein, oder? Oder sicher mal so mehr oder weniger. Die Frage ist nun: Wie machen die das? Das ist der Punkt, an dem die Datenkorrelation ins Spiel kommt.

Doch bevor das beginnen kann, müssen wir uns vor Augen halten, was Google schon hat.

Angenommen, da wären keine Autos auf der Strasse. Google wüsste genau, wie die Nutzer am schnellsten von einem Ort zum anderen Fahren müssen. Verkehrsregeln und alles bereits inbegriffen. Sie könnten den kürzesten, den schnellsten, den längsten Weg und noch viele andere berechnen. Allerdings gibt es immer mal wieder Verkehrsstaus. Angenommen, diese tauchen so gegen 07.30 Uhr morgens auf und lösen sich eine halbe Stunde später wieder auf.

Darum zeichnet Google die Daten sekundengenau auf. Aus Sicht der Datenkorrelation ist das extrem wichtig. Warum?

Zeit Event Datenkorrelation
07.00 User wacht auf Nachdem sich das Telefon über Nacht einige Stunden lang nicht bewegt hat, bewegt es sich wieder.
07.30 User nimmt das Auto zur Arbeit Telefon verlässt Haus, Bewegung wird schneller
07.35 User nimmt schnellsten Weg zur Arbeit GPS-Daten
07.45 User weicht einem Verkehrsstau aus, da er die Gegend kennt Kurz vor einer grossen Kreuzung verlässt das Telefon die schnellste Route und nimmt Nebenstrassen, die um die Hauptverkehrsachse herumführen
08.00 User kommt am Arbeitsplatz an Telefon ist am selben Ort, an dem es zu dieser Zeit immer ist

Wenn der Event von 07.45 Uhr sich regelmässig wiederholt, und das selbe von einer grösseren Anzahl Nutzer getan wird, die sonst ebenfalls regelmässig auf dieser Route sind, dann kann ein kurzer Blick auf lokale Verkehrsnachrichten und deren Archiv schnell Auskunft darüber geben, dass da tatsächlich oft ein Verkehrsstau an der Kreuzung um etwa 07.45 Uhr ist.

Aber ein User, der dieselbe Strecke eine Stunde später abfährt, muss dem Stau nicht ausweichen, da dieser sich längst aufgelöst hat. Bestätigung kann den Geschwindigkeitsdaten und den Verkehrsnachrichten entnommen werden.

Ähnlich kann auch das Lieblingsrestaurant des Users herausgefunden werden.

Zeit Event Datenkorrelation
12.00 User verlässt Büro Telefon verlässt Arbeitsplatz
12.10 User geht zum Restaurant Telefon bewegt sich langsam während zehn Minuten, bleibt dann stationär. Das Telefonbuch, Yelp und Google Plus zeigen an der Adresse ein Restaurant an.
12.40 User verlässt das Restaurant, geht wieder zurück zur Arbeit Telefon bewegt sich im Schritttempo wieder zurück ins Büro

Wenn ein User oft ins selbe Restaurant geht, dann kann davon ausgegangen werden, dass er das Essen dort mag. Daher könnte eine Empfehlung des Restaurants für alle User in der Gegend interessant sein.

Die Methode Ort plus Zeit plus lokales Wissen kann auf so ziemlich alles angewendet werden. Das sind die drei Faktoren, die Datenkorrelation ziemlich einfach machen. Jemand, der in einer bestimmten Gegend arbeitet, und jeden Tag irgendwo zu Mittag essen geht, wird irgendwann wissen, wo die guten Restaurants in der Gegend sind. Daher ist es für ein Unternehmen wie Google, das mit guten Informationen handelt, wichtig, an das Wissen dieser Person zu kommen. Im gleichen Gedankengang weiss jemand, der jeden Tag dieselbe Route fährt, wo die Verkehrsstaus liegen.

Fassen wir zusammen: Google ist gar nicht daran interessiert, wo Sie als Person sind. Apple auch nicht, nur damit wir mal wieder die Konkurrenz erwähnt haben. Sie wollen Ihr Wissen. Sie wollen wissen, wie am besten Staus ausgewichen werden kann oder wo die beste Pizza serviert wird. Keiner mag Verkehrsstaus oder schlechte Pizza.

Eine Frage des Vertrauens

Die unausweichliche Frage nun ist: Können wir den Konzernen vertrauen? Die Antwort kann aber gar nicht absolut sein und sollte damit auf individueller Basis gefunden werden. Es liegt an jedem User selbst, ob er oder sie der Welt den Ort der besten Pizzeria in der Stadt oder den geheimen Schleichweg um den Stau herum mitteilen will.

Aber: User müssen wissen, dass sie nicht nur solche Daten übertragen. Mit der Location Data alleine kann noch viel mehr über einen User herausgefunden werden. Unter anderem erhalten sie folgende Datasets:

Dataset Korrelation
Wohnadresse Telefon bleibt an der Adresse öfter stationär als an jedem anderen Ort
Arbeitsort Telefon bleibt dort mehr oder weniger stationär während lokalen Arbeitszeiten
Transport Autos stoppen nur bei Ampeln und im Stau
Öffentliche Verkehrsmittel halten in regelmässigen Abständen und fahren Umwege.

Velofahrer fahren abseits von Strassen, auf Fusswegen und sind schneller als Fussgänger
Fussgänger sind im Normalfall wesentlich langsamer als alle anderen Verkehrsmittel
Oft besuchte Orte GPS-Daten zeigen an, dass ein Telefon regelmässig an den selben Orten ist. Korrelation mit Adressen und Tageszeit werden Auskunft über die Art der Lokalität geben

Der Wohnort ist nicht wirklich von allzu grossem Interesse oder auch nur wichtig, wenn es um Businessinformationen geht. Klar, die Konzerne können in etwa herausfinden, wie viele Menschen in einem Haushalt leben, basierend auf der Anzahl Smartphones, aber das ist sehr vage und scheitert kläglich bei Wohnblocks.

Der Arbeitsort hingegen ist interessanter. Wenn sie den demografischen Werten des Wohnorts hinzugefügt werden, dann kann in etwa das Einkommen einer Person benannt werden. Das macht den Arbeitsort auf einmal sehr interessant, vor allem, wenn es um gezielte, persönliche Werbung geht:

Telefondaten Korrelation
Telefon bewegt sich tagsüber kaum Büro, medizinischer Sektor, Verkauf, Industrie, etc.
Telefon geht an zentralen Ort, dann zu Verschiedenen Arbeiter auf Baustellen, Journalisten, Kuriere und Lieferpersonal etc.
Telefon bewegt sich stets, halt nur gelegentlich an bestimmten Orten an Fahrer, Airline Personal, Polizei, Door-to-door Verkäufer, etc.

So beeindruckend und schockierend das auch klingt, User müssen sich vor Augen halten, dass das nicht etwas ist, das von Menschen erledigt wird. Es gibt keine riesigen Gebäude voll mit tausenden von Leuten, die nichts anderes zu tun haben, als Location Data von Android-Geräten anzusehen und zu verarbeiten. Im September 2013 hat Google bekannt gegeben, dass eine Milliarde Android-Geräte aktiv sind. Wenn auch nur die Hälfte davon ihre Location Data einmal pro Sekunde an Google schicken, dann sind das immer noch 43’200’000’000’000 Datensätze pro Tag. Das sind 43.2 Trillionen Datensätze. Apple hat 500 Millionen iPhones verkauft. Dieselbe Annahme von prozentualer Anzahl der User mit eingeschalteter Location Data ergibt 21.6 Trillionen Datensätze pro Tag.

Die ganze Korrelation wird von Big Data Computer Systemen erledigt, die automatisch die Location Data verarbeiten, sie in die relevanten Programme, zum Beispiel Google Maps, einspeist und analysiert wo der Verkehrsstau ist, und herausfindet, wer womit unterwegs ist, basierend auf obiger Methode. Die Korrelation passiert automatisch. Die Leute bei Google haben das alles vorher herausgefunden und ihre Infrastruktur so eingestellt, dass sie sich nur noch um Feineinstellungen kümmern müssen, nicht aber um die Verarbeitung. Theoretisch ist es also möglich, dass Ihre Location Data jahrelang verarbeitet aber nie von einem Menschen angesehen wird.

Das soll aber keineswegs heissen, dass es nicht zumindest theoretisch möglich ist, dass ein Mensch die Userdaten eines Kunden anschaut. So ziemlich jedes Android-Gerät ist an einen Google-Account gebunden. Dieser ist wiederum, auch wenn der Name und die Mailadresse falsch ist, in der Regel an eine Kreditkarte gebunden. Egal, ob nun Leute interessiert, fähig und willens sind, persönlich die Daten eines einzelnen Users zu studieren, das ist ein recht realistisches Szenario. Es ist eine gerade Linie zwischen Location Data und Identität.

Die Entscheidung, der nun jeder User gegenübersteht, ist Folgende: Will ich Teil meiner Privatsphäre aufgeben, damit andere und auch ich besseren Service erhalte? Die Antwort darauf wird von Person zu Person unterschiedlich sein. Einige werden denken, dass die Vorteile, gute Ratschläge automatisch zu erhalten, klar überwiegen und dass die Aufopferung eines bisschen Privatsphäre kein so schlechter Tauschhandel ist. Andere werden sagen, dass die Privatsphäre mehr wert ist, als ein Betriebssystem auf einem Gerät, das keine drei Jahre überlebt und die Location Data ausschalten.

Wie Sie dem entkommen und neugierig sind

Natürlich kann die Location Data ausgeschaltet werden. Aber es bedingt, dass die User in ihren Einstellungen herumwühlen. Die Einstellungen sind nicht gut versteckt, aber auch nicht gemacht, dass sie den Usern ins Auge springen.

Für _Android_-User:

  1. Gehen Sie zu Einstellungen
  2. Scrollen Sie zu Standort
  3. Entfernen Sie alle Häkchen in den Feldern

Für _iOS_-User:

  1. Gehen Sie zu Einstellungen
  2. Scrollen Sie zu Datenschutz
  3. Tippen Sie auf Ortungsdienste
  4. Schieben sie den Schalter in die _Aus_-Position

Dies ist auch die perfekte Gelegenheit, alle Features eines Geräts anzusehen. Da gibt es eine Unzahl Einstellungen, die vorgenommen werden können. Zudem ist es unendlich schwierig für einen Endkunden ein Android- oder iOS-Gerät mit irgendetwas in diesen Einstellungen so kaputt zu machen, dass es für immer und ewig zerstört ist. Darum: Drücken Sie etwas herum und finden Sie heraus, was Ihr Telefon eigentlich kann, ausser zu telefonieren und SMS zu schreiben.

Das Ausschalten der Location Data macht User aber nicht absolut unauffindbar. Ein Mobiltelefon kann auch anders gefunden werden. Unter anderem mit GSM Localization. Aber die oben genannten Einstellungen werden die Lokalisierungsdienste von Apple und Google ausschalten. Denn wenn das eingebaute GPS ausgeschaltet ist, dann werden keine Ortungsdaten übermittelt. Also, im Zweifelsfall, sind Sie immer noch auffindbar, aber Sie werden nicht mehr willens in den Big Data Projekten von Apple und Google mitmachen und so ihr Wissen nicht deren Marketingmaschinerie zur Verfügung stellen.

Über den Autor

Dominik Bärlocher

Der Journalist Dominik Bärlocher ist seit 2006 im IT-Bereich tätig. Während seiner Arbeit als Journalist bei grossen Schweizer Zeitungen sind ihm seine Recherchefähigkeiten und seine IT-Affinität immer wieder zu Hilfe gekommen. Bei scip AG führt er OSINT Researches durch und betreibt Information Gathering.

Links

Herausforderung Datenschutz-Grundverordnung DSGVO?

Unsere Spezialisten kontaktieren Sie gern!

×
Konkrete Kritik an CVSSv4

Konkrete Kritik an CVSSv4

Marc Ruef

Das neue NIST Cybersecurity Framework

Das neue NIST Cybersecurity Framework

Tomaso Vasella

Angriffsmöglichkeiten gegen Generative AI

Angriffsmöglichkeiten gegen Generative AI

Andrea Hauser

iOS Mobile Application Testing

iOS Mobile Application Testing

Ian Boschung

Sie wollen mehr?

Weitere Artikel im Archiv

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv