Personal Digital Assistants - Die Zukunft der allgegenwärtigen K.I.

Personal Digital Assistants

Die Zukunft der allgegenwärtigen K.I.

Marc Ruef
von Marc Ruef
Lesezeit: 18 Minuten

Keypoints

  • Personal Assistants sind Software-Lösungen, die konkrete Arbeiten abnehmen sollen
  • Durch Sprachkommandos können zum Beispiel Nachrichten verschickt und Kalendereinträge vorgelesen werden
  • Die Erkennung von Sprachkommandos erfolgt meist lokal, die Datenverarbeitung dann in der Cloud
  • Die Produkte können sich dann breitflächig durchsetzen, wenn die Spracheingabe natürlich und unkompliziert erfolgen kann
  • Eine Akzeptanz und Verbreitung, wie heute bei Smartphones, ist in wenigen Jahren zu erwarten

Bei digitalen Personal Assistants bzw. Virtual Assistants handelt es sich um Lösungen, die einem im Alltag die Möglichkeiten eines Assistenten gewähren wollen. Verschiedene Produkte buhlen um die Gunst der Nutzer. Dieser Artikel diskutiert die Möglichkeiten und zukünftigen Entwicklungen, die sich in diesem Bereich, der einen massgeblichen Einfluss auf technischer und soziologischer Ebene haben wird, entfalten werden.

Funktionsweise

Personal Assistants kommen als dedizierte Software daher. Traditionell trifft man sie in Form von Siri oder bzw. Google Assistant als Nachfolger auf Google Now auf dem Smartphone an. Nachdem Amazon ihre Alexa als Echo und Dot eigene autonome Hardware bereitgestellt hat, sind auch Google mit Home und Apple mit HomePod endlich um solche bemüht. Schliesslich geht es hier um die Vorherrschaft im Wohnzimmer: Umso natürlicher sich ein Assistent in das tägliche Leben integrieren kann, desto eher wird er akzeptiert und wird benutzt. Microsoft hat ihre Cortana mittlerweile in das Windows-Betriebssystem integriert, Apple tat es mit Siri in macOS gleich und die anderen Hersteller werden früher oder später diesen Ansatz ebenso verfolgen wollen. Dass auf Konkurrenzplattformen eigene Apps angeboten werden, die zwar aufgrund der eingeschränkten Einbindung im fremden Ökosystem nur einen Bruchteil der Möglichkeiten bereitzustellen in der Lage sind, ist zu einer Selbstverständlichkeit geworden.

Diese Lösungen sind in erster Linie auf Audio-Kommunikationen ausgelegt: Sie warten auf die Nennung eines Schlüsselworts, um dann per Spracheingabe Kommandos entgegennehmen zu können. Die Resultate werden dann wiederum bevorzugt per Audio ausgegeben. Manchmal aber auch nur als Auflistung von Resultaten einer Websuche. Dadurch lassen sich beispielsweise Anrufe initiieren, Kurznachrichten diktieren, Terminkalender bewirtschaften, Musik abspielen und Spiele spielen.

Sowohl Siri als auch Allo (eine alternative Anbindung an Google Now) erlauben ebenso die Texteingabe am Gerät. In Bezug auf Architektur kann man also Ein-/Ausgabe von der Datenverarbeitung trennen und wieder nach Belieben kombinieren. Kommandoeingaben über OCR sind genauso denkbar wie Bilderkennung (z.B. als Basis für Gebärdensprache). Dies ermöglicht eine barrierefreie Nutzung modernster Elektronik.

Produkt Hersteller Hauptplattformen Stärken
Alexa Amazon Echo, Dot, Kindle Fire Einkauf, zusätzliche Skills
Cortana Microsoft Windows Phone, Windows Allgemein, Integration Windows
Google Assistant Google Android, Home Wissen, Abdeckung, Genauigkeit
Mycroft GPL Linux Quelloffen, Integration Linux, Raspberry Pi
Siri Apple iOS, macOS Integration Apple-Ökosystem

Hierbei entstehen die ersten Sicherheitsbedenken bezüglich Privatsphäre. Damit die Assistenten ihr Schlüsselwort erkennen können, müssen sie ständig mithören. Gerade im europäischen Raum stand und steht man dem skeptisch gegenüber. Und dies nicht nur, seitdem Alexa als Zeuge in einem Mordfall eingesetzt wurde. Um diese Bedenken auszuräumen, bieten viele Produkte eine physische Aktivierung der Spracheingabe an. Beim iPhone muss zum Beispiel lange der Home-Button gedrückt werden. Amazon Echo unterstützt sogar die komplette knopfbasierte Deaktivierung des Mikrofons. Schweizerdeutsch scheint, wenigstens zurzeit, ein Vorteil zu sein, um nicht systematisch und automatisiert abgehört werden zu können.

Die Hersteller versprechen, dass auch beim ständigen Zuhören durch sie keine Datensammlung erfolgt. Aus Sicht der Ergonomie wäre dies eigentlich auch nicht erwünscht. Amazon Echo und Apple Siri zeichnen zum Beispiel maximal 3 Sekunden auf, um das Schlüsselwort erkennen zu können. Dieses wird durch einen lokalen Chip ausgewertet, um minimale Latenz gewährleisten zu können. Erst nach der Angabe des Schlüsselworts wird die Spracheingabe zur umfangreichen Analyse, Auswertung und Bearbeitung in die Cloud geschickt.

Im Umkehrschluss haben die Anbieter dennoch ein Interesse, dass möglichst viele Audio-Daten gesammelt werden können. Es ist auch absehbar, dass die Hersteller die Audioaufnahmen für längere Zeit aufbewahren wollen. Zum Beispiel, um passiv die Spracherkennung verbessern zu können, was wiederum dem Benutzer zugutekäme. Aber natürlich auch, um Gesprächsinhalte, Gesprächsteilnehmer und Umgebungsgeräusche erkennen zu können. Denn auch hierbei handelt es sich um Daten mit einem Wert, der zum Beispiel durch die Werbeindustrie genutzt werden will. So finden sich im Internet jüngst Diskussionen dazu, dass Personen nach persönlichen Gesprächen zu einem Thema plötzlich personalisierte Werbung zu den dazugehörigen Produkten erhalten haben. Dies wäre natürlich ein Eingriff in die Privatsphäre, der so nicht akzeptiert werden will. Technologisch wäre dies durchaus umsetzbar, kommerziell gar wünschenswert. Und wie bei vielen Eingriffen in die Privatsphäre ist es nur eine Frage der Zeit, bis auch dieser den breiten Widerstand überwinden kann.

Einschränkungen und Durchbruch

Personal Assistants sind mit einer Künstlichen Intelligenz (KI) verknüpft. Diese ist dafür zuständig, entsprechend intelligent auf die Eingaben zu reagieren. Es ist deshalb wichtig, dass die Eingabeverarbeitung möglichst klug erfolgt. Ist dies nicht der Fall, wird das Gerät durch Nutzer als dumm wahrgenommen und nicht akzeptiert.

Google hat hier natürlich in Bezug auf Qualität und Quantität der Daten einen Marktvorsprung. Ein Anbieter wie Amazon wird diesen innert kurzer Zeit nicht aufholen können. Es scheint absehbar, dass zusätzliche Datenbestände von anderen Anbietern eingekauft (z.B. IBM Watson wird hier plötzlich sehr interessant) oder direkt beim Marktführer bezogen werden müssen. Amazon weiss um dieses Hindernis und hat ihre Produkte in erster Linie darauf ausgelegt, dass darüber Waren unkompliziert in ihrem Online Store gekauft werden können.

Die Bewertung der Intelligenz eines Assistenten ist subjektiv ebenfalls sehr stark von der Kommandoeingabe abhängig. Die Qualität der Spracherkennung ist also enorm wichtig, ob sich ein Gerät durchsetzen kann. Dies beginnt bei der durch das Mikrofon gewährleisteten Audioqualität. Hier hat Amazon Echo starke Vorarbeit geleistet, indem die Geräte mit einer Vielzahl an Mikrofonen ausgestattet werden, um maximale Spracherkennung erreichen zu können. Dies ist eine reine Hardware-Angelegenheit. Und auch in Bezug auf die Reaktionszeit (Erkennung von Beginn und Ende der Spracheingabe) vermag hier Amazon vorzulegen.

Doch eigentlich noch wichtiger wird die Sprachanalyse selbst. Also wie gut kann das System die einzelnen Worte erkennen und in eine nachvollziehbare Anweisung umwandeln. Im Gegensatz zu den Mikrofonen ist dies die Aufgabe der Software. Diese Software ist zurzeit nicht auf den Endgeräten vorhanden. Stattessen werden die Sprachdaten immer in die Cloud geschickt und dort ausgewertet. Dort steht ein Mehr an Ressourcen zur Verfügung. Dieser cloudbasierte Ansatz ermöglicht es den Herstellern zudem, dass sie Optimierungen umsetzen können, ohne Anwender zum Kauf neuer Produkte oder der Installation von Patches bewegen zu müssen.

Personal Assistants können sich schlussendlich im Alltag nur durchsetzen, wenn deren Nutzung auf natürliche Weise erfolgen kann. Benutzer über 30 Jahren tun sich anfänglich schwer damit, sich mit einem Computer zu unterhalten. Da haben die letzten 20 Jahre Smartphones und Voicemails nur wenig geholfen. Hinzu kommt bei den Schweizern das Problem, dass die Anweisung in einer Fremdsprache zu erfolgen haben. Und sei dies auch nur auf Hochdeutsch. Es fühlt sich einfach sonderbar an, wenn man plötzlich einzelne Sätze in einer anderen Sprache formulieren muss. Diese Hürde dürfte bei englischsprachigen Benutzern naturbedingt geringer ausfallen.

Woran die heutigen Lösungen aber hauptsächlich kränkeln, ist der teilweise widernatürliche Umgang, der vom Benutzer erwartet wird. Es ist zum Beispiel zu erwarten, dass die deutschsprachige Alexa mit der Anweisung Starte Zufallswiedergabe dazu bewegt werden kann, dass Lieder in zufälliger Reihenfolge abgespielt werden. Alexa kennt diese Anweisung jedoch nicht. Stattdessen muss mit Shuffle dieser Effekt erzielt werden, der dann ironischerweise mit Zufallswiedergabe aktiviert quittiert wird.

Hierbei handelt es sich wahrscheinlich nur um das Versäumnis, den Sprachbefehl entsprechend einzudeutschen. Möchte man aber zum Beispiel eine Playlist namens Best of Rock starten, dann reicht es nicht, wenn die Anweisung wie folgt formuliert wird: Spiele Best of Rock. Stattdessen muss explizit angegeben werden: Spiele Playlist Best of Rock.

Solche Beispiele gibt es auf allen Plattformen zuhauf. Sie zeigen, dass sich der Benutzer noch zu sehr an den Gepflogenheiten des Geräts anpassen muss. Und wenn man zuerst überlegen muss, wie man eine Anweisung zu formulieren hat, wirkt die Interaktion holprig und widernatürlich.

Dies wird generell bei den sogenannten Skills von Alexa bewusst. Hierbei handelt es sich quasi um Apps, die auf einem Echo oder Dot nachgerüstet werden können. Die Anzahl der Skills ist von 135 in Q1-2016 auf 10’000 in Q1-2017 gewachsen. So bieten verschiedene Nachrichten-Portale, Musikdienste und Webseiten ihre eigenen Skills an. Beispielsweise kann explizit Wikipedia geöffnet und darin etwas gesucht werden. Die massgebliche Einschränkung dabei ist, dass diese Skills dediziert aufgerufen werden müssen. Die Anweisung muss also lauten: Alexa, öffne WikiPedia und suche nach Cybersecurity. Dieses Beispiel vermag harmlos erscheinen. Es wird aber umso schwieriger, desto mehr Skills installiert sind und desto seltener man sie braucht. Auch hier muss man plötzlich vor dem Stellen der Frage überlegen, wie man sie richtig zu formulieren hat.

Amazon täte gut daran, die Skills zwar direkt mit einem Schlüsselwort ansteuern zu lassen. Aber diese ebenfalls in Produktkategorien zusammenzufassen und zu priorisieren – Entweder durch Amazon selbst oder durch die einzelnen Entwickler. Dass wenn also Spiele Rockmusik gesagt wird, sowohl Spotify als auch alle anderen Skills der Kategorie Musik/Radio auf mögliche Treffer geprüft werden.

Konkrete Zukunftsvisionen

Die heutigen Personal Assistants sind in erster Linie Mikrofone und Lautsprecher, mit denen interagiert werden kann. Amazon hat versucht mit dem Dot ein kostengünstiges Gerät bereitzustellen, um in einem Haushalt eine Abdeckung in jedem Raum erreichen zu können. Dabei war man darum bemüht, dass die einzelnen Geräte (Echo oder Dot) autonom funktionieren und nicht miteinander interferieren. Jenes Gerät, welches das Sprachkommando am besten erkennt, wird auch darauf reagieren. Eine echte Synchronisation der Geräte, also quasi ein Multi-Room-System im Sinn von Sonos oder Bose, findet noch nicht statt. Dies wird aber der nächste offensichtliche Schritt sein.

Ein grundlegendes Problem der heutigen Lösungen ist die Sicherheit. Es findet keine echte Authentisierung statt. Bei Siri kann zwar eingestellt werden, dass sich der Benutzer zuerst auf dem Smartphone anmelden muss, um Kommandos abzusetzen. Dies ist aber eine unerwünschte Hürde, die das Benutzererlebnis massgeblich schmälert. Bei Alexa können zwar verschiedene Konten eingerichtet und zwischen diesen Gewechselt werden. Die Eingabe eines Passworts ist aber nicht erforderlich. Jenachdem können also Einsichten und Manipulationen durch Fremde vor Ort stattfinden. In vielen Haushalten kommt deshalb ein generisches Benutzerkonto ohne die Einbindung sensitiver persönlicher Inhalte zum Zug. Damit wird die Funktionalität aber wiederum geschmälert. Im Idealfall findet also in Zukunft, so wie von Google vorgesehen, die Benutzerauthentisierung anhand der Stimmerkennung statt. Tonlage, Klangfarbe und Sprechmuster könnten es massgeblich erschweren, dass Anweisungen durch Drittpersonen durchgesetzt werden.

Bei aller Diskussion über die Intelligenz entsprechender Systeme darf nicht vergessen werden, dass es sich um Computer handelt. Sie sind vernetzt, greifen auf cloudbasierte Dienste zu. Der Schutz der Privatsphäre ist dabei genauso wichtig, wie das Härten und Patchen der Komponenten. Durch das Deaktivieren einzelner Funktionen kann in manchen Fällen der Informationsabfluss eingeschränkt werden. Gänzlich verhindern lässt er sich aber aufgrund der Architektur der heutigen Lösungen nicht. Diese führt wenigstens den Vorteil mit sich, dass die ständig vernetzten Geräte automatisiert und unkompliziert gepatcht werden können. Es bleibt hierbei zu hoffen, dass die Anbieter dieser Pflicht auch in nachhaltiger Weise nachkommen werden.

Die Funktionalität der Lösungen – das was wir als ihre Intelligenz bezeichnen – wird massgeblich zunehmen. Die Spracherkennung wird immer besser und es können immer mehr Daten miteinander verknüpft werden. In diesem wichtigen Punkt wird jenes Produkt das Wettrennen gewinnen, dessen Möglichkeiten am schnellsten und besten wachsen. Eine möglichst offene Lösung kann hier also einen entscheidenden Wettbewerbsvorteil erlangen lassen. Amazon ist mit dem Alexa Skills Kit SDK schon sehr weit und erlaubt das Erstellen von eigenen Skills. Es ist anzunehmen, dass auch Google da eher eine offene Strategie fahren wird, um zu Echo und Siri aufschliessen zu können. Komplette Quelloffenheit, wie sie das Projekt Mycroft gewährleistet, dürfte aber eine Seltenheit bleiben.

Aber generell müssen die Systeme lernfähig werden. Und zwar nicht durch Programmierung, sondern im dynamischen Umgang mit dem Benutzer. Wenn also mehrfach nach Spiele Best of Rock gefragt wird, dann jeweils irgendein Album mit diesem Titel abgespielt wird und dann wiederum eine Korrektur zu Spiele die Playlist Best of Rock stattfindet, dann muss nach dem zweiten oder dritten Mal durch das System ausgegangen werden, dass der Benutzer halt eben bevorzugt die Playlist und nicht ein Album meint.

Der Schlüssel zum breitflächigen Erfolg, wie er zum Beispiel das Internet oder die Smartphones für sich erschliessen konnten, liegt in einem natürlichen Umgang. Sobald an jeder Stelle und unkompliziert auf die Möglichkeiten zurückgegriffen werden kann – ähnlich dem Computer in Star Trek -, wird die Nutzung von Personal Assistants zu einer alltäglichen Sache werden. Bis dann dürften aber sicher noch 5 bis 10 Jahre verstreichen. Zwischenzeitlich unbestritten sind solche Lösungen gerade für Menschen mit Behinderungen (Dyslexie, Sehschwäche, Paraplegie) von grossem Nutzen.

Über den Autor

Marc Ruef

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Links

Sie wollen eine KI evaluieren oder entwickeln?

Unsere Spezialisten kontaktieren Sie gern!

×
Konkrete Kritik an CVSS4

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

scip Cybersecurity Forecast

Marc Ruef

Voice Authentisierung

Voice Authentisierung

Marc Ruef

Bug-Bounty

Bug-Bounty

Marc Ruef

Sie wollen mehr?

Weitere Artikel im Archiv

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv