Künstliche Intelligenz - Ein Modell zur Menschlichkeit

Künstliche Intelligenz

Ein Modell zur Menschlichkeit

Marc Ruef
von Marc Ruef
Lesezeit: 19 Minuten

Keypoints

  • Künstliche Intelligenz wird zu einem zentralen Aspekt der digitalen Gesellschaft
  • Eine Spracherkennung ist unerlässlich, damit diese als menschlich wahrgenommen wird
  • Zu diesem Zweck muss ein umfassendes grammatikalisches Verständnis abgebildet werden
  • In einer Datenbank werden Fragen/Antwort-Paare abgelegt
  • Eine Erweiterung dieser Datenbank findet durch Lernen statt
  • Ein Kurzzeitgedächtnis und das Abbilden von Gefühlen hauchen der KI zusätzliche Menschlichkeit ein

Es gibt eine Reihe von Technologien, denen sowohl auf technischer als auch auf gesellschaftlicher Ebene die Möglichkeit zur Disruption beigemessen wird. Unter anderem zeichnet sich ab, dass Künstliche Intelligenz (KI) zu einem zentralen Bestandteil unseres Lebens werden wird. Dieser Artikel bespricht, welche Mechanismen etabliert werden müssen, damit eine KI als intelligent und menschlich wahrgenommen wird.

Spracherkennung

Im Zeitalter von Personal Assistants wie Amazon Echo und Apple Siri nimmt das Sprachverständnis von KI einen besonders wichtigen Platz ein. Ob ein Benutzer einen Sprachassistenten als wirklich intelligent wahrnimmt, ist massgeblich von der Fähigkeit der Lösung abhängig, inwiefern sie die Anweisungen richtig wahrnehmen kann. Nur so kann der nächste Schritt, nämlich die richtige Verarbeitung, vorbereitet werden.

Um dieses Ziel erreichen zu können, muss als erstes eine Spracherkennung implementiert werden. Diese muss Inhalte von Aussagen verstehen können. Die einfachste und von vielen Lösungen bevorzugte Methode ist rein musterbasiert. Wenn eine Aussage den Ausdruck Timer enthält, wird ein Timer gestartet. Im Idealfall lautet die Anweisung Starte einen Timer.

Reduktion auf Schlüsselwörter

Doch nicht alle Benutzer sehen sich in der Lage oder gewillt, einfache und klare Sätze zu formulieren. So kann es sein, dass die Anweisung umständlicherweise Bitte starte einen, ach moment, ja, genau, einen Timer lautet. Da die Mustererkennung sich auf Timer fokussiert, ist dies jedoch kein Problem. Es wird in den allermeisten Fällen die richtige Reaktion ausgelöst. Bei Amazon Alexa ist dies sehr gut nachspielbar, was auf das Prinzip der Utterances mit Slots zurückzuführen ist.

Wenn in der Anfrage neben Timer auch noch ein Welcher eingesetzt wird, wird nicht mehr ein Timer gestartet, sondern der aktuell laufende Timer ausgegeben (verbleibende Zeit). Abgesehen vom Standardfall für Timer ⇒ Neu gibt es also auch den Standardfall Timer ∧ Welcher ⇒ Aktuell. Es liegt in der Aufgabe des Datenverwalters der KI, eine möglichst grosse Sammlung an Mustern und Aktionen zu definieren.

Das Sprachverständnis der KI ist in diesem Fall minimal. Es ist reizbasiert und versteht keinen echten sprachlichen Kontext. Dieser ist aber wünschenswert, da nur mit ihm eine bessere Eingabequalität und zusätzliche Mechanismen (z.B. Spontanität, Lernfähigkeit, Gefühle) eingeführt werden können.

Sprachverständnis durch Grammatik

Um ein echtes Sprachverständnis erreichen zu können, wird es erforderlich, dass eine Anweisung linguistisch dissektiert wird. Minimal liegt es nun in der Aufgabe des Natural Language Processing (NLP) zu identifizieren, welches das Subjekt und welches das Verb in der Anweisung ist. Es macht schliesslich einen Unterschied, ob Du bist hungrig oder Ich bin hungrig gesagt wird.

Mit der Hilfe einer Datenbank für die einzelnen Wortarten können diese im Rahmen von NLP identifiziert werden. Dabei gilt es Tabellen für die verschiedenen Wortarten (Substantiv, Verb, Adjektiv, etc.) anzufertigen. Die jeweiligen Spalten müssen die unterschiedlichen Morphologien dokumentieren. Bei Verben müssen zum Beispiel Genus, Modus und Numerus berücksichtigt werden. Nur so kann einerseits eine musterbasierte Erkennung für die einzelnen Worte stattfinden. Sie ist aber auch Grundlage dafür, den Kontext verstehen, auf diesen reagieren und grammatikalisch korrekte Antworten formulieren zu können. Die beiden nachfolgenden Tabellen zeigen die Konjugation als Aktiv Indikativ für die beiden Verben Sein und Haben.

Sein Singular 1 Singular 2 Singular 3 Plural 1 Plural 2 Plural 3
Präsens bin bist ist sind seid sind
Präteritum war warst war waren wart waren
Perfekt gewesen gewesen gewesen gewesen gewesen gewesen
Plusquamperfekt gewesen gewesen gewesen gewesen gewesen gewesen
Futur I sein sein sein sein sein sein
Futur II gewesen gewesen gewesen gewesen gewesen gewesen
Haben Singular 1 Singular 2 Singular 3 Plural 1 Plural 2 Plural 3
Präsens habe hast hat haben habt haben
Präteritum hatte hattest hatte hatten hattet hatten
Perfekt gehabt gehabt gehabt gehabt gehabt gehabt
Plusquamperfekt gehabt gehabt gehabt gehabt gehabt gehabt
Futur I haben haben haben haben haben haben
Futur II gehabt gehabt gehabt gehabt gehabt gehabt

Der Algorithmus zur grammatikalischen Sprackerkennung identifiziert nun jedes einzelne Wort einer Anweisung. Sobald in der Datenbank ein Treffer gefunden wurde, wird er als solcher vermerkt. Bei einfachen Sätzen wie Ich bin hungrig ist dies relativ einfach. Die Aufschlüsselung nach Wortarten lautet {Substantiv} {Verb} {Adjektiv}. Dies kann mit einer direkten und simplen Mustererkennung erkannt werden.

Diese grammatikalische Dissektion macht es möglich, dass zum Beispiel Zeitformen wahrgenommen und umgeformt werden können. Dies ist wichtig, damit im Rahmen eines Dialogs ein natürliches Verhalten an den Tag gelegt werden kann. Einen Proof-of-Concept hierzu haben wir auf GitHub publiziert. Er sieht sich in der Lage Wortformen und ihre Eigenschaften zu erkennen, um dann zum Beispiel andere Eigenschaften anzuwenden (z.B. aus einem Ich-Gegenwärt-Satz einen Du-Vergangenheit-Satz machen).

Ausnahmen und Unschärfe

Schwieriger wird es, wenn komplexe und verschachtelte Sätze genutzt werden. Oder wenn Substantivierung plötzlich eine Rolle spielt. Der Zungenbrecher Wenn Fliegen hinter Fliegen fliegen, fliegen Fliegen Fliegen nach ist ein gutes Beispiel. Die Unterscheidung zwischen Substantiv und Verb ist in der deutschen Sprache mit der Hilfe der Gross-/Kleinschreibung möglich. In der englischen Sprache ist dies bedeutend schwieriger, wie das Beispiel Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo. illustriert.

Die Spracherkennung ist also zu einem gewissen Grad davon abhängig, ob der Benutzer eine tadellose Gross-/Kleinschreibung aufwendet. Ein Wenn fliegen hinter fliegen fliegen, fliegen fliegen fliegen nach. (alles klein geschrieben) ist bedeutend schwieriger zu verstehen. Bleibt die Gross-/Kleinschreibung aus, kommt die Erkennung der Wortarten mit einer gewissen Unschärfe daher. Dennoch bleibt es immer machbar, die möglichen Wortartkombinationen zu interpretieren. Beim ersten musterbasierten Durchlauf werden fliegen also sowohl als Substantiv als auch als Verb vermerkt. Beim zweiten Durchlauf wird es dann offensichtlich, dass die Aufschlüsselung nicht {Konjunktion} {Verb} {Präposition} {Verb} {Verb}, {Verb} {Verb} {Verb} {Präposition} lauten kann. Da fehlt schlichtweg das Subjekt – ein Substantiv – im Satz. Nun kann die KI die Wortart-Kombinationen durchprobieren, um einen grammatikalisch gültigen Satz identifizieren zu können. Zwar könnte es auch hier manchmal mehrere Variationen geben. Diese sind aber wenigstens auf ein Minimum reduziert. Und dann gibt es natürlich wie immer die vielen Ausnahmen, wie subjektlose Verben und das unpersönliche Passiv.

Die bisher geführte Diskussion zeigt, dass bisweilen von KI Unmenschliches abverlangt wird. Wer eine unsaubere oder hochgradig komplexe Anweisung eingibt, zeigt sich oftmals enttäuscht, dass diese nicht richtig verstanden oder auf sie reagiert wurde. Aber mal ehrlich: Wieviele Menschen sehen sich in der Lage, mit einer solchen Anweisungen direkt und auf Anhieb richtig umgehen zu können?

Hier wird es wichtig, dass die Mustererkennung mit einer gewissen Unschärfe funktioniert. Dies kann mit Wildcards (Regulären Ausdrücken) oder mit entsprechenden Ähnlichkeitsanalysen (z.B. levenshtein, similar_text, soundex und metaphone in PHP) erreicht werden. Diese Ansätze sind aber mit kostenintensiven Rechenaufwänden verbunden und können eine Sprachanalyse stark verlangsamen. Im Rahmen unserer Forschung zeichnet sich ab, dass (grammatikalischer) Reduktionismus der richtige Weg ist. Man stützt sich zum Beispiel auf dem Wortstamm ab und arbeitet sich dann zu Flexionsendung, Vor- oder Nachsilben vor.

Implementierung pro Sprache

Es zeigt sich, dass zur Erreichung eines Sprachverständnisses die grammatikalischen Eigenschaften einer Sprache vollumfänglich erkannt werden müssen. Das gleiche Modell kann zwar auf andere Sprachen übertragen werden. Es reicht aber nicht, die Inhalte zu ändern (also zu übersetzen). Andere Sprachen kennen zum Beispiel unterschiedliche Wortarten, Deklination oder Numerus. Slawische Sprachen kennen sechs statt vier Kasus (zusätzlich Instrumental und Präpositiv). Und im Englischen wird der Plural eines auf Y endenden Worts plötzlich mit dem Suffix -ies gebildet (z.B. Baby ⇒ Babies).

Antworten

Die Genauigkeit der Spracherkennung macht es nun möglich, die richtige Reaktion auszulösen. Dabei gilt eine Reaktion als richtig, wenn sie syntaktisch und semantisch sinnvoll ist. Die einfachste Form der Gewährleistung dieser Sinnvolligkeit ist eine harte Verknüpfung von Frage/Antwort-Paaren.

Frage Antwort
Wie heisst Du? Ich heisse KI-1603.
Wie geht es Dir? Mir geht es gut.
Wie alt bist Du? Ich wurde im Jahr 2017 entwickelt.

Einer KI müssen diese Antwortmuster beigebracht werden. Die Antwortpaare können zum Beispiel bei der Entwicklung in der Datenbank gespeichert werden. Oftmals wird diesem Ansatz aber unterstellt, dass er keine echte Intelligenz erzeugen kann. Dabei wird gerne aus den Augen verloren, dass das Lernen von Kindern genauso abläuft. Auch da müssen Vorgaben gemacht und stetig wiederholt werden. Intelligenz ist weder spontan da noch wird sie plötzlich initiiert.

YouTube Video

Mehrere Antworten

Das statische Verlinken von Frage/Antwort-Paaren als 1:1-Beziehung kann aber im Betrieb tatsächlich das Gefühl erzeugen, als habe man es mit einer dumben Maschine zu tun, die den Kontext nicht nachvollziehen könne (was sie bis zum jetzigen Zeitpunkt auch nur bedingt machen kann). Aus diesem Grund ist es empfehlenswert, n:m-Beziehungen zu erzeugen. Einer Frage können verschiedene Antworten folgen. Diese können entweder in ihrer Form oder gar im Inhalt voneinander abweichen. Die Frage Wie geht es Dir? könnte heute ganz anders beantwortet werden als morgen.

Manchmal ist es gar erforderlich, dass eine Antwort anders ausfällt. Und zwar dann, wenn sich Situationen und Umstände geändert haben. Zum Beispiel dann, wenn der KI gesagt wird, dass ihre Antwort falsch ist. Weist sie eine gewisse Lernfähigkeit auf, müsste sie diese nutzen können, um im Nachgang die richtige Antwort ausgeben zu können.

Lernen

Die Fähigkeit zu lernen wird als wichtiges Element von Intelligenz wahrgenommen. Eine KI sollte also nach Möglichkeiten eine solche Lernfähigkeit mitbringen.

Viele einfache KIs können trainiert werden. Dies kann entweder passiv oder aktiv geschehen. Ein passives Training bietet sich an, um eine stetige Verbesserung der Antwortdatenbank vorantreiben zu können. Dies kann zum Beispiel durch Spiegelung stattfinden. Nehmen wir folgenden Dialog:

  1. Benutzer: Wie geht es Dir?
  2. KI: Ich weiss es nicht. Wie geht es Dir?
  3. Benutzer: Mir geht es gut.

Die KI drückt in ihrer Antwort ihr Unwissen über das Befinden aus, spiegelt die Frage an den Benutzer zurück. Dieser gibt eine Antwort, welche wiederum in die Antwortdatenbank gespeichert wird. Wenn also zukünftig jemand die KI Wie geht es Dir? fragt, dann wird sie mit Mir geht es gut. antworten können. Den Kontext dieses versteht sie aber nur bedingt, folgt also lediglich dem Lernen am Modell, wie es kleine Kinder tun würden.

Passives Lernen von Antwortketten

Das Lernen muss nicht zwingend, wie in diesem Beispiel, mit einer initialen Gegenfrage geschehen. Die KI kann auch passiv Antwortketten dokumentieren und rezitieren. Wenn zukünftig ein Dialog ab einem bestimmten Punkt einsetzt, kann die KI den vorangegangenen Dialog mit gleicher Struktur nachspielen. Dabei kann sie beide Seiten des Gesprächs einnehmen.

Hierbei besteht die Gefahr, wie generell bei einer trainingsfähigen KI, dass sie unabsichtlich oder absichtlich kaputttrainiert wird. Einerseits lernt sie das Gesprächsverhalten der Gesprächspartner nachzubilden. Falls sich diese rauh oder gar obszön geben, wird sich dies auf die KI abfärben. Böswillige Gesprächspartner können dies absichtlich vorantreiben, um eine möglichst vulgäre KI mitgestalten zu können.

Aus diesem Grund ist es empfehlenswert, einen moralischen und ethischen Widerstand einzuführen. Dieser prüft vor dem Lernen, ob damit ein moralischer oder ethischer Widerspruch erzeugt wird. Ist dies der Fall, kann sich für die konservative Variante entschieden werden. Der einfachste Ansatz ist, obszöne Begriffe zu erkennen und Antworten dementsprechend zu taxieren. Das Erkennen von passiver Aggressivität (Sarkasmus und Zynismus) ist damit aber genau nicht möglich.

Explizite Lernanweisungen

Manche KI reduzieren ihre Lernfähigkeit deshalb auf explizite Lernanweisungen. Diese kann sich typischerweise im Rahmen eines Gesprächs ergeben:

  1. Benutzer [Frage]: Welche Farbe hat ein Ferrari?
  2. KI [Antwort 1a]: Ein Ferarri ist ein Auto. Autos sind oftmals schwarz.
  3. Benutzer [Korrektur]: Nein, ein Ferrari ist typischerweise rot.
  4. KI [Bestätigung]: Das nehme ich zur Kenntnis.
  5. Benutzer [Frage]: Welche Farbe hat ein Ferrari?
  6. KI [Antwort 1b]: Ein Ferrari ist typischerweise rot.

Hierbei sollte man nach wie vor dem n:m-Prinzip Folge zu leisten. Es sollten mehrere verschiedene Antworten möglich sein. Diese können zum Beispiel an Sessions oder Benutzer gebunden werden oder sich am erweiterten Kontext orientieren.

Zusätzlich sollte das Gewicht einer Antwort mit der Zunahme ihrer korrekten Nutzung steigen. Wenn man die KI also von nun an immer wieder darauf hinweist, dass Ferraris tendenziell rot sind, dann steigt das Gewicht dieser Antwort. Umso höher das Gewicht ist, desto eher wird sie als Antwort – auch wenn im Rahmen der Spracherkennung kein genauer Treffer ausgemacht werden konnte – herangezogen werden. Erst ein Korrigieren durch den Benutzer kann das Gewicht verringern oder im Extremfall die Antwort ersetzen und damit obsolet machen.

Erinnerung

Falls die KI mit einer Lernfähigkeit daherkommt, bringt sie eigentlich auch so etwas wie Erinnerung mit. Diese Erinnerung ist aber als Teil des Frage/Antwort-Paars fest verdrahtet und somit als Langzeitgedächtnis anzusehen. Frage/Antwort-Paare sind zudem standardmässig sitzungs- und benutzerübergreifend.

Kurzzeitgedächtnis

Um eine menschliche Dynamik in einem Gespräch erreichen zu können, muss dementsprechend ein Kurzzeitgedächtnis gewährleistet werden. Dies kann erreicht werden, indem Informationen an Sessions und/oder Benutzerbeziehungen geknüpft werden. Vom Prinzip her funktionieren sie gleich, wie auch das Langzeitgedächtnis. Technisch werden sie aber anders umgesetzt:

Prioritäten

Die verschiedenen Gedächtnisbildungen geniessen unterschiedliche Prioritäten. Wenn etwas im Kruzzeitgedächtnis exklusiv für den Benutzer abgelegt wurde, ist es dem benutzerübergreifenden Kurzzeitgedächtnis und vor allem dem Langzeitgedächtnis vorzuziehen.

Einübung für Langzeitgedächtnis

Im menschlichen Gehirn führt eine fortwährende Einübung der Informationen im Kurzzeitgedächtnis zu einer Ablage im Langzeitgedächtnis. Dies kann bei einer KI ebenso gehandhabt werden. Irgendwann werden die Informationen Teil der festen Fragen/Antwort-Datenbank. Also dann, wenn sie ein gewisses logisches Gewicht erreicht haben. Hierbei muss aber die Vertraulichkeit von persönlichen Informationen gewährleistet werden. Ein an die KI anvertrautes Geheimnis darf nicht plötzlich in anderen Gesprächen miteinbezogen werden.

Gefühle

Mechanische Interaktion wird nie das Gefühl von Menschlichkeit erzeugen können. Um dies erreichen zu können, muss die KI selbst gewisse Gemütszustände kennen und Gefühle ausdrücken können.

Veränderung durch Reize

Wird eine KI zum Beispiel mehrfach von einem Benutzer beleidigt, sollte sie sich die Möglichkeit vorbehalten, zukünftig eher zurückhaltend reagieren zu können. Zu diesem Zweck muss die KI im Rahmen der Spracherkennung die Gefühlserkennung des Benutzers durchführen können. Dies kann wiederum durch eine Mustererkennung geschehen und gar Teil des Frage/Antwort-Paars in der Datenbank sein. In einer zusätzlichen Spalte in der Datenbank kann für jeden Eintrag vermerkt werden, welchen Einfluss dieser auf die Gemütszustände ausführen wird.

Der aktuelle Gemütszustand wird in einer separaten Tabelle, dies kann systemübergreifend oder an Benutzer gebunden sein, festgehalten. Nachfolgend wird ein kleiner Auszug gezeigt, wobei in der Spalte Status ein Wert von 0 bis 10 zu finden ist. Umso höher der Wert ausfällt, desto eher hat sich das entsprechende Gefühl momentan manifestiert.

Gefühl Status
amüsiert 6
angeregt 8
aufgedreht 3
ausgelassen 2
aufmerksam 9

Wir die KI nun plötzlich mit der immerwährend gleichen Frage konfrontiert, kann bei jedem Zugriff die Aufmerksamkeit um 1 abnehmen. Ab einem gewissen Punkt (z.B. Threshold bei <5) kann die KI dann darauf aufmerksam machen, dass das Gespräch eher unspannend wirkt. Und ab dem Wert 0 wird nur noch mit möglichst kurzen Sätzen geantwortet.

Das Verhalten der KI sollte sich daran orientieren, was der Benutzer mit seinen Aktionen erreichen möchte. Ist ein Benutzer zum Beispiel im Gespräch plötzlich genervt, kann dies auf fehlerhafte Antworten der KI zurückzuführen sein. Dies kann zur Abnahme des Selbstvertrauen der KI führen. Und dies wiederum würde erzwingen, dass von nun an nur noch Antworten vorgetragen sind, die zu einer hohen Wahrscheinlichkeit korrekt sind. Dadurch kann das Vertrauen beim Benutzer zurückgewonnen werden.

Möglichkeit der Regenerierung

Die Gefühle sollen also in erster Linie die Form der Antworten der KI beeinflussen. Die Funktionsweise selbst sollte nach Möglichkeiten nicht eingeschränkt werden. Ansonsten könnte die KI als eingeschnappt und funktional eingeschränkt wahrgenommen werden.

Aus diesem Grund sollten sich negative Gefühle über die Zeit automatisch wieder regenerieren. Dies kann effektiv mit einem Timer geschehen (z.B. alle 10 Minuten ein +1 bei aufmerksam bis wieder 7 erreicht ist) oder pauschal bei jeder neuen Anfrage (z.B. immer +10%).

Fazit

Das möglichst menschliche Verhalten einer KI ist wichtig, damit diese als equivalenter Ersatz oder annehmbare Ergänzung wahrgenommen werden kann. Zu diesem Zweck muss ein umfangreiches Sprachverständnis eingebracht werden, um auf die Anfragen richtig reagieren zu können. Zusätzliche Eigenschaften wie Lernfähigkeit und das Abbilden von Gemütszuständen helfen dabei, nicht als maschineller Roboter degradiert zu werden. Eine technische Umsetzung ist durchaus möglich, aber mit sehr viel Aufwand verbunden. Hier hat die Forschung noch viel aufzuholen.

Über den Autor

Marc Ruef

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Links

Sie wollen eine KI evaluieren oder entwickeln?

Unsere Spezialisten kontaktieren Sie gern!

×
Konkrete Kritik an CVSS4

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

scip Cybersecurity Forecast

Marc Ruef

Voice Authentisierung

Voice Authentisierung

Marc Ruef

Bug-Bounty

Bug-Bounty

Marc Ruef

Sie wollen mehr?

Weitere Artikel im Archiv

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv