Konkrete Kritik an CVSS4
Marc Ruef
Die künstliche Intelligenz (KI) ist ein Gebiet, das seit jeher eine magische Faszination auf mich ausgeübt hat. Dabei vertrete ich die Meinung der starken KI, die darauf beruht, dass Intelligenz von einem Medium grundsätzlich unabhängig ist (vgl. Douglas R. Hofstadter, Daniel Dennett, Einsicht ins Ich, ISBN 3-608-93038-8, Seiten 337–366). Dies bedeutet, dass es egal ist, in welcher Form intelligente Logik existiert – Egal ob Mensch oder Maschine. Ein Computer, der in jeder Situation genau gleich reagiert wie ich, müsste auf der Ebene der logischen Intelligenz mit mir als biologisches Ebenbild identisch sein.
Die Gründe meiner Befürwortung dieser Position erscheint mir einfach und offensichtlich zugleich. Der Mensch – so wie es uns auch die Gesetze der Physik und Verhaltenspsychologie lernen – funktioniert in erster Linie auf einem Reiz/Reaktions-Schema: Ein Reiz provoziert eine angemessene Reaktion. Sage ich einem Menschen “Hallo”, wird er voraussichtlich zurückgrüssen.
Dass diese Interaktion keine reine 1:1-Beziehung an Informationen ist, erscheint umso klarer, desto intensiver man sich mit dieser Theorie auseinandersetzt. Oft besteht ein “einzelner” Reiz aus vielen Facetten oder die Reize überlagern sich. Dieses Zusammenspiel macht es praktisch unmöglich, in angemessener Zeit die exakte Reaktion eines Menschen zu determinieren. So ist es nicht immer offensichtlich, dass auf ein “Hallo” auch ein Gruss zurückkommt. Eventuell ist mein Gegenüber gerade beschäftigt und kann oder will meine Kontaktaufnahme gar nicht wahrnehmen. Oder ich habe den Menschen zuvor entzürnt, so dass er mich absichtlich Ignoriert, um mich mit meiner vermeintlichen Unwichtigkeit zu konfrontieren. Fälschlicherweise wird diese Endlichkeit an Abhängigkeiten und Kombinationen als Beweis dafür gesehen, dass sich ein vergleichbar komplexes System mit ähnlichen menschlichen Eigenschaften nicht künstlich kreieren lässt.
Manchmal werden Reaktionen nicht einmal bewusst umgesetzt. Der berühmte Psychoanalytiker Sigmund Freud hat in dieser Hinsicht grossartiges geleistet und in zahlreichen Schriften bewiesen, dass viele Reaktionen unbewusster Natur sind. So werden Dinge vom sogenannten Es (das Unbewusste) ignoriert, weil man zum Beispiel damit absichtlich jemanden beleidigen möchte . In seinen Schriften “Psychopathologie des Alltagslebens” nannte Freud unter anderem das Beispiel des “absichtlichen” Vergessens eines Namens einer einem unwichtigen bzw. unsympathischen Person. Dadurch demonstriert man die Überlegenheit im Sinne des Wieso sollte ich mir Deinen unwichtigen Namen merken?
Vor vielen Jahren habe ich damit begonnen, mich aktiv mit der Entwicklung künstlicher Intelligenzen auseinanderzusetzen. Erste Gehversuche machte ich mit einer für Linux geschriebenen Software, die den Arbeitstitel ChatBot trug. Kommuniziert wurde mit der Anwendung über ein Web-Frontent, bei dem Tastatur-Eingaben (Reiz durch den Benutzer) gemacht und die jeweiligen Bildschirm-Ausgaben (Reaktion des Programms) angezeigt wurden.
Das besagte Reiz/Reaktions-Schema war Hauptkern dieser Arbeit. So wurden in einer internen Datenbank sämtliche Reiz/Reaktions-Paare gespeichert. Dies war, um es einfach darzustellen, eine Tabelle, bestehend aus zwei Spalten. In der ersten fanden sich die Reize, und in der zweiten wurden die entsprechenden Reaktionen gespeichert. Gab der Benutzer nun etwas ein, wurde in der ersten Reiz-Spalte nach einem vergleichbaren Reiz gesucht. Wurde dieser gefunden, wurde die adäquate Reaktion aus der zweiten Reaktions-Spalte ausgegeben. Folgend eine Auflistung dieser flachen Datenbank:
Hallo;Guten Tag! Wie geht es Dir?;Mir geht es gut. Mir geht es auch gut.;Das freut mich zu hören. Nicht so gut.;Oh, das tut mir leid. Kann ich Dir irgendwie helfen? Was machst Du so?;Ich chatte gerade mit Dir, was denn sonst? Machs gut!;Ja, Du auch! Schönen Tag!;Danke, Dir auch!
Eine der ersten Schwierigkeiten bestand in der Entwicklung eines effizienten Suchalgorithmus, der eine logische Verarbeitung der Reize zuliess. Dieser sollte die beste Reaktion finden können, indem der Reiz mit der grössten Ähnlichkeit gefunden werden sollte. Gehen wir davon aus, dass wir die folgenden beiden Datensätze in unserer primitiven Datenbank haben:
Wie geht es Dir?;Mir geht es gut, danke. Wie geht es mir?;Das weiss ich nicht. Sag es mir!
Der erste ist eine typische Frage der Höflichkeit und des Interesses am Gegenüber. Sie wird in der Regel zu Beginn eines Gesprächs, nach der ersten Kontaktaufnahme, gestellt, um sich der Situation des Gesprächspartners mittels Empathie nach Möglichkeiten anpassen zu können. Zweitere hingegen ist eine facettenreichere Frage, denn sie könnte ironisch gemeint oder philosophischer Natur sein. Die gegebenen Reaktionen auf diese beiden Datensätze sind grundverschieden, schon alleine wegen der Auswahl des Subjekts (Du oder Ich) sowie der Intention der Frage (Neugierde oder Ironie).
Der Suchalgorithmuss muss Fuzzy-Suchen unterstützen, die auch Resultate liefert, wenn die Suchabfrage nicht exakt zutreffend ist. Also so müsste stets der erste Datensatz gewählt werden, unabhängig davon, ob die Frage als Wie geht es Dir? oder als Wie gehts Dir gestellt wurde (Bei der zweiten Fassung wurde geht und es zusammengefasst sowie das abschliessende Fragezeichen weggelassen).
Was passiert nun, wenn ein Benutzer die Frage wie folgt stellt: Wie gehts? Grundsätzlich könnten beide Datensätze zutreffen, wenn man lediglich die Zeichenketten vergleicht. Aus der gekürzten Frage geht nicht als Zeichenkette explizit hervor, um welche Person es sich bei der Nachfrage handelt. Wir als Mensch mit Bewusstsein für die Umgangssprache können Unterscheiden, da wir die Richtungsweisung kennen, dass die gekürzte Frage stets für die zweite Person (vorwiegend Singular) gilt, also in diesem Fall der erste Datensatz, der sich beim Gegenüber erkundigt. Unsere Applikation kann diese Unterscheidung (mit den bisher gegebenen Informationen und Verarbeitungsmöglichkeiten) nicht vollziehen, da der Sinn für Grammatik gänzlich fehlt.
Wie wir diesem Problem begegnen wollen, liegt grundsätzlich an uns. Wir können die Applikation so entwickeln, dass sie einfach davon ausgeht, die Sache verstanden zu haben. Mehr oder weniger Zufällig wird sodann eine der in Frage kommenden Antworten gegeben; vielleicht einfach der erstmögliche passende Datensatz gewählt, um zugleich noch die Zeit für die Suche zu minimieren. Ob diese Antwort nun richtig ist oder nicht, spielt in erster Linie für unsere künstliche Intelligenz keine Rolle. Hauptsache, es wurde reagiert. Menschen machen dies manchmal nicht viel anders. Wenn sie einem Gespräch nicht folgen können, reagieren sie bewusst oder unbewusst mit der ihnen am meisten plausibel erscheinenden Reaktion. Unser menschliches Gehirn trägt eine gewisse Mitschuld daran, da es zum Beispiel in akkustisch schwer verständlichen Gesprächen die fehlenden Fragmente mit „selber hinzugedichteten“ Fragmenten zu komplettieren versucht. Deshalb sind Missverständnisse bei Gesprächen in lauten Situationen nicht selten der Fall.
Dies kann auch bei unserer nicht-akkustischen Kommunikation zu unschönen Situationen führen, die schnell an der Intelligenz der Maschine zweifeln lassen. Der Volksmund könnte sodann geneigt sein zu behaupten, dass es sich bei unserer Lösung um einen „Dummschwätzer“ handelt, der „redet, bevor er denkt“. Alternativ können wir unserem Gerät ein sehr hohes Mass an Kritizismus bei Unklarheiten einimpfen. Kann keine plausible Reaktion gefunden werden, muss nachgefragt werden. Wir werden im weiteren Verlauf sehen, dass uns ein dynamisches Datenbankmodell dieses Problem auf nützliche Weise beheben wird. Zwar ist es in gewisser Weise mühsam, wenn in einem Gespräch fortwährend der Sinn der eigenen Aussagen erklärt werden muss. Für den Erfolg des Hauptziels eines Gesprächs, nämlich dem Austausch von Informationen, ist diese Reiberei jedoch sehr zuträglich.
Das statische Reiz/Reaktions-Schema machte aber für mich noch lange keine Intelligenz aus, denn Intelligenz ist, wenn Dinge gelernt und Zusammenhänge erkannt werden können. So war es für mich schon zu Beginn des Projekts klar, dass die Anwendung neue Reiz/Reaktions-Paare lernen bzw. speichern können sollte, um diese bei zukünftigen Interaktionen anwenden zu können. Wurde also eine Frage durch den Benutzer gestellt, dessen Antwort der Applikation nicht bekannt war, fragte diese nach einer möglichen Reaktion nach. Die Rückgabe des Benutzers wurde sodann für den neuen Datensatz gespeichert. Beispiel einer solchen Lernkommunikation:
Benutzer | Was ist Intelligenz? |
---|---|
ChatBot | Ich kenne keine Antwort. Können Sie mir eine mögliche Antwort nennen? |
Benutzer | Intelligenz ist die Möglichkeit, Dinge zu verstehen und Zusammenhänge zu erkennen. |
Als Erweiterung zu diesem notgedrungenen Lernmodul wurde ebenfalls die Möglichkeit gegeben, dass die Applikation durch einen Benutzer korrigiert werden konnte. Passte dem Anwender die Reaktion in einer gewissen Situation nicht, musste der Benutzer diese lediglich verneinen bzw. in Frage stellen. Der ChatBot sprang sodann wieder in den Lernmodus, in dem er nach der richtigen Antwort fragte. Die Datenbank wurde also von Kommunikation zu Kommunikation erweitert und ausgebessert – Meine Applikation begann also allmählich zu lernen.
Benutzer | Was ist Intelligenz? |
---|---|
ChatBot | Intelligenz ist die Möglichkeit, Dinge zu verstehen und Zusammenhänge zu erkennen. |
Benutzer | Nein, das stimmt nicht! |
ChatBot | Wie lautet denn die richtige Antwort? |
Benutzer | Intelligenz ist die Möglichkeit, sich sozial zu verhalten, um dem Kollektiv und dem Individuum möglichst viele Vorteile zu verschaffen. |
Diese Anwendung funktionierte wirklich gut und konnte so manches mehr, weder die primitiven Eliza-Maschinen, die sehr statisch auf einem Pseudo-Reiz/Reaktions-Schema basierten. Ich war dennoch nicht zufrieden, denn der ChatBot schien lediglich mit einem Kurzzeitgedächtnis ausgestattet zu sein. So gibt es nur immer ein Reiz/Reaktions-Paar, das zwar korrigiert werden konnte. Ältere Antworten oder alternative Antworten, die in anderen Situationen besser gepasst hätten – dies wird noch ein Thema bezüglich des Bewusstseins -, wurden einfach mit den neuen Reaktionen überschrieben.
Jahre später entwickelte ich eine erweiterte Fassung des ursprünglichen ChatBots. Auch die neue Variante arbeitete nach dem datenbankbasierenden Reiz/Reaktions-Schema. Ebenfalls konnte die Software bei unbekannten Antworten nachfragen oder sich korrigieren lassen. Die grosse Weiterentwicklung bestand jedoch in zwei Bereichen bei der Datenbankverarbeitung:
Zum ersten konnte der neue ChatBot Reize und Reaktionen austauschen. Er merkte sich zwar noch immer, was ein Reiz und was eine Reaktion war. In den meisten Situationen wusste er sie auch so zu benutzen. Zusätzlich konnte er sich aber einen Gesprächsverlauf merken und notfalls bei einer Wiederholung einer Kommunikation die Gegenpartei einnehmen. Führte man mit ihm zum Beispiel ein Streitgespräch über Friedrich Nietzsches Also sprach Zarathustra, wobei man eine kritische Position einnahm, konnte der neue ChatBot beim nächsten Durchlauf ebenso diese Stellung einnehmen und mit den gleichen Argumenten dagegenhalten. Die Datenbank wuchs somit auf das Doppelte an, denn jede Reaktion wurde sogleich als neuer Reiz gespeichert und umgekehrt.
Desweiteren war der neue ChatBot in der Lage, eine logische Gewichtung von Datensätzen vorzunehmen. Es konnten nun also alternative Reaktionen gespeichert und diese je nach Situation besser eingebracht werden. Diese Gewichtung fand durch eine Skalierbarkeit mittels Integern statt, welche streng dynamisch war, da sie sich bei jedem Tangieren eines Datensatzes anpasste. Sehr schnell und sehr individuell begann der neue ChatBot seinen Charakter auszubilden. Ein Quantensprung bei meinen Experimenten der künstlichen Intelligenz. Die folgende Auflistung zeigt das mögliche Schema der Einführung dieser logischen Gewichtung. Es sind in der zweiten Spalte nun mehrere Reaktionen möglich, deren Anzahl an Auftreten vergangener Gespräche durch eine Zahl in runden Klammern angegeben wird. Umso öfter eine Antwort vorkam, desto eher wird diese auch richtig gewesen sein und deshalb bei der nächsten Auswahl einer Reaktion befvorzugt werden.
Hallo;{Guten Tag!(3)},{Hallo!(7)},{Ciao!(1)} Wie geht es Dir?;{Mir geht es gut.(12)},{Nicht so gut.(4)} Mir geht es auch gut.;{Das freut mich zu hören.(9)};{Schön!(2)} Nicht so gut.;{Oh, das tut mir leid. Kann ich Dir irgendwie helfen?(1)} Was machst Du so?;{Ich chatte gerade mit Dir, was denn sonst?(2)} Machs gut!;{Ja, Du auch!(4)},{Danke, tschüss!(3)} Schönen Tag!;{Danke, Dir auch!(2)};{Danke, tschüss!(4)}
Die logische Gewichtung erlaubt zudem die Erweiterung in der Form der Einführung eines Langzeitgedächtnisses. So können zusätzliche Attribute eines Reiz/Reaktions-Datensatzes eingeführt werden, die bestimmen, welcher Informationsaustausch normalerweise vor und welcher nach dem jeweiligen Datensatz gebräuchlich ist. Zum Beispiel weiss die Software, dass die meisten Gespräche mit einer Begrüssung beginnen und dass eine solche mitten in einem Gespräch eher selten vorkommt und deshalb sonderbar anmuten müsste.
Um unser Langzeitgedächtnis umzusetzen, müssen wir spätestens jetzt den einzelnen Datensätzen eindeutige IDs zuordnen. Dazu führen wir eine erste Spalte ein, die mit einer Auto-Nummerierung ausgestattet wird. Zusätzlich fügen wir zwei weitere Spalten hinzu. Die erste definiert, welche ID normalerweise vor diesem Datensatz abgearbeitet wurde und wie oft. Die zweite tut dasselbige für die nachfolgenden Dialogsequenzen.
1;Hallo;{Guten Tag!(3)},{Hallo!(7)},{Ciao!(1)};;2(4),5(1),7(2) 2;Wie geht es Dir?;{Mir geht es gut.(12)},{Nicht so gut.(4)};1(14);4(2),6(3) 3;Mir geht es auch gut.;{Das freut mich zu hören.(9)};{Schön!(2)};;5(2),7(1) 4;Nicht so gut.;{Oh, das tut mir leid. Kann ich Dir irgendwie helfen?(1)};2(6);5(1),6(3),7(2) 5;Was machst Du so?;{Ich chatte gerade mit Dir, was denn sonst?(2)};1(3),3(1);2(1),6(6),7(1) 6;Machs gut!;{Ja, Du auch!(4)},{Danke, tschüss!(3)};1(1),5(3);7(1) 7;Schönen Tag!;{Danke, Dir auch!(2)};{Danke, tschüss!(4)};1(2),5(1);6(2)
Diese gewisse Linearität von Gesprächsverläufen kann durch eine Baumstruktur, wie zum Beispiel diejenige in Abbildung 1, visualisiert werden. Ausgangspunkt ist dabei die Begrüssung 1, die in verschiedene Gesprächsthemen übergehen kann. Abgeschlossen wird ein Gespräch meistens mit dem Abschied 6 oder 7, auf den sodann wieder der nächste Gesprächsaufbau 1 zu folgen hat. Die Pfeile zeigen die Möglichkeiten des Weiteren Verlaufs des Gesprächs an, wobei die Zahl beim Pfeil indirekt die Probabilität dieses spezifischen Fortgangs kennzeichnet. Wir können an diesem fiktiven Beispiel ebenfalls sehen, dass aus dem Reiz 4 lediglich die Reaktionen 6 und 7 entstehen können. Es ist praktisch nicht gegeben, dass 2, 3 oder 5 darauf folgen.
Ein wichtiger Bestandteil interessanter und tiefgründiger Gespräche ist die Tiefe des Verständnisses für ein Gespräch. Damit ist gemeint, dass der Akteur sich dessen bewusst sein muss, wie tief die Diskussion schon in ein Thema vorgedrungen ist. So macht es einen grossen Unterschied, ob wir zu Beginn eines Gesprächs die Frage „Gibt es Gott?“ erörtern, oder ob dies nach einem zwei stündigen Disput zum Thema Quantenphysik zur Sprache kommt. Die Reaktionen fallen, wenn auch voraussichtlich in ihrer Richtung und in ihren Grundzügen identisch aus. Eine Person, die an die Existenz Gottes glaubt, wird sowohl bei einem Small-Talk als auch bei einer intensiven philosophischen Diskussion ihre Position vertreten. Der Unterschied wird jedoch sein, dass man sich mit Vorliebe auf andere Fakten stützt und dadurch den Detailreichtum der Diskussion beeinflusst.
Gehen wir davon aus, dass eine Kommunikation durch einen Zeitpfeil dargestellt werden kann. Der Austausch von Informationen erfolgt in sogenannten Zeitschlitzen (engl. timeslots). Zug um Zug bringt sich jemand in das Gespräch ein, wodurch quasi ein Schlagabtausch des Informationsaustauschs stattfindet.
Das primitive Reiz/Reaktions-Schema ist nicht besonders Vielschichtig, so basiert eine solche interpersonelle Interaktion lediglich aus einem Reiz REIZn und einer Reaktion REAKTIONn. Diese wollen wir ihrem kontinuierlichen Auftreten nach mit Integern benennen. Nennen wir den ersten Reiz eines Gesprächs REIZ1. Die darauf folgende Reaktion nennen wir entsprechend REAKTION1. Die REAKTION1 wird sodann zum neuen REIZ2, der natürlich von der REAKTION2 beantwortet wird. Dieses Schauspiel führt sich immerweiter fort, so wie dies in Abbildung 2 von links nach rechts dargestellt wird.
Wenn wir die Verständnistiefe dieses Reiz/Reaktion-Schemas, also dieser entsprechenden Paare, darstellen, so sehen wir, dass diese nur sehr gering ist. Abbildung 3 versucht dies zu visualisieren. Die Maschine beginnt mit einem Gespräch. In diesem Anfangszustand ist sich keiner der Protagonisten darüber im Klaren, was bisher passiert ist, denn im Rahmen dieses Gesprächs ist auch noch nichts passiert. Die Verständnistiefe ist somit auf V0 festgelegt. Sendet der Benutzer einen ersten Reiz aus, fällt die Maschine in den Zustand des ersten Verstehens des Gegenwärtigen Gesprächspunktes. Die Verständnistiefe entwickelt sich zur Stufe V1. Wurde die Reaktion durch die Software gegeben, fällt sie hingegen wieder in die Stufe V0 zurück, in der auf den nächsten Reiz gewartet wird.
Das Problem hierbei ist, dass auf der Stufe V0 jeweils nicht an irgendeinen im Gespräch vergangenen Zustand der Stufe V1 erinnert werden kann. Es ist somit unmöglich für die Applikation, bewusste und absichtliche Verknüpfungen zu schon besprochenen Reiz/Reaktions-Paaren entsprechender Tiefe zu machen.
Wir können diesem Problem der Einschränkung der Verständnistiefe auf verschiedenen Ebenen begegnen.
Eine mögliche und einfache Lösungsvariante für dieses Bewusstsein des Themas wäre durch eine logische Gewichtung von Antworten gegeben. In der Reiz/Reaktions-Datenbank werden die Deltas zwischen einzelnen Punkten berechnet. Näher zusammenliegende Reiz/Reaktions-Paare gelten als eher zu einem Thema passend, weder weiter auseinanderliegende.
Nehmen wir das Beispiel, bei dem der Benutzer eine Diskussion zum Thema Kryptografie anstrebt. Dies geschieht typischerweise mit dem Fragesatz Was weisst Du über Kryptografie? Im Schnitt wird nach 2,3 Reizen die verhältnismässig undefinierte Frage Und wie stark ist sie? gestellt. Ihr geht jedoch der Satz Kennst Du Dich mit AES aus? voraus. Also müsste die Berechnung der Verständnistiefe besagen, dass sich die undefinierte Frage auf das Thema des vorangehenden Reizes und des 2,3 Reize zuvor gestellten Themengebiets bezieht. Die Frage Und wie stark ist sie? kann in einem komplett anderen Themengebiet wieder auftauchen und dort eine gänzlich andere Reaktion und einen differenzierten Gesprächsverlauf ermöglichen.
Abbildung 4 visualisiert diese erweiterte Verständnistiefe. Die Software ist dabei in der Lage, nicht nur im Langzeitgedächtnis den Verlauf eines Dialogs zu vermerken. Ebenso ist sie in der Lage, im Kurzzeitgedächtnis das angeschnittene Thema zwischenzuspeichern. In dieser gewichteten Lösungsvariante jedoch in einem Pseudo-Format ohne Verständnis für die eigentliche Sache. Auch hier startet ein Gespräch mit der initialen Verständnistiefe V0, deren erster Reiz sich zu V1 erweitert. Wird nun nachgehakt, wird gar zur Verständnistiefe V2 gesprungen, die bezüglich Bewusstsein des Themas direkt mit den vorangegangenen und höher liegenden Schichten V0 und V1 verbunden ist.
Von enormen Vorteil für das erhöhen der Verständnistiefe, und nicht nur in diesem Belang, wäre für das Gerät das umfassende Verständnis für die eingesetzte natürliche Sprache. Könnte die Applikation zwischen Wortarten (Nomen, Verben, Adjektive, Partikel), Konjunktionen (ich, du, er, usw.), Zeitformen (Konjunktiv, Präsenz, Partizip Perfekt, Futurum I, usw.) und Pronomen (er, sie, es) unterscheiden – um nur einige zu nennen -, können rückbezügliche Gespräche umgesetzt werden. Dies ist zum Beispiel der AIML-Implementierung A.L.I.C.E. der Artificial Intelligence Foundation möglich. Schauen wir uns das Gespräch mit dieser Rückbezüglichkeit in Form eines Pronomens an:
Human | What do you know about cryptography? |
---|---|
ALICE | I’ll come back to that later. |
Human | What do you know about it? |
ALICE | “It” refers to cryptography, I think. |
Als erstes wurde dem System eine Frage bezüglich eines Themas gestellt, auf das es nicht ausgerichtet wurde. Die Software versucht der Frage auszuweichen. Hakt der Benutzer nocheinmal nach, was es darüber wisse, ohne das Wissensgebiet nocheinmal beim Namen zu nennen, so ist ALICE in der Lage, das Relativpronomen dem entsprechenden Subjekt des Themas zuzuordnen.
Die logische Gewichtung ermöglichte die Entwicklung eines individuellen Charakters der Applikation. Umso mehr mit der Anwendung kommuniziert wurde, umso ausgeprägter wurden die jeweiligen Eigenschaften, die durch den Anwender vererbt wurden. In der Lernpsychologie wird dies Lernen am Modell genannt (vgl. Norbert Pohlmann Lernfall Agression). Menschen – in diesem Fall eine Maschine – schauen sich das Vorgehen bei anderen ab, um es zu imitieren. Dies ist in erster Linie bei Tieren gegeben, die zum Beispiel von ihren Artgenossen das Jagen, Fressen oder Fliegen abschauen. Aber auch bei Kleinkindern und Jugendlichen spielen Lernfaktoren bei der Entwicklung der Persönlichkeit eine wichtige Rolle.
In einer Phase, in der ich mich sehr intensiv mit Neuropsychologie, Bewusstsein und Intelligenz auseinandergesetzt habe, vertrat ich die Meinung, dass wahre und anstrebbare Intelligenz die emotionale Intelligenz sei. Als Alternative zum Intelligenzquotienten IQ hat sich in der Psychologie der Begriff des emotionalen Intelligenzquotienten EQ eingebürgert. Bei dieser geht es darum, sozial zu funktionieren, der Gruppe einen Vorteil verschaffen zu wollen, ohne sich selber dabei zu sehr zu benachteiligen. (vgl. Howard Gardner, Frames of Mind: The Theory of Multiple Intelligences, Basic Books, ISBN 0-465-02510-2).
Ein solches soziales Verhalten ist meines Erachtens von der Erziehung und von den gegenwärtigen Entwicklungen im sozialen System abhängig. Wer eine gute Kinderstube genossen hat, jedoch in einer sehr kaltherzigen Umgebung bestehen muss, wird sich voraussichtlich ebenfalls nicht sehr zurückhalten geben.
Die Frage ob und inwiefern emotionale Intelligenz bei unserem ChatBot mitwirkt, ist bei näherer Betrachtung nichtig. Ein passives Mitwirken ist sowieso gegeben, da die Kommunikationen analysiert und verinnerlicht werden. Wird in einer Situation durch einen Benutzer sehr hitzig reagiert, wird auch die Software in einer ähnlichen Lage etwas ausfallend daherkommen können. Die Chancen sind aber relativ hoch, dass die gleiche oder ähnliche Situationen sich oft wiederholen und in den meisten Fällen mit Anstand durch den Anwender gelöst werden. Aufgrund der logischen Gewichtung von Reaktionen wird auch die Applikation lernen, sich normal einem Problem zu stellen.
Man könnte nun jedoch die Position einnehmen, dass die Starrheit aufgrund der Vererbung von Reaktionen, die zuvor in total anderem Zusammenhang hervorgebracht wurde, eben genau den Mangel an emotionaler Intelligenz beweise. Da möchte ich dagegenhalten, dass emotionale Intelligenz ebenso gelernt werden muss. Auch ein Mensch muss zuerst lernen – vorwiegend wieder am Modell – welche Handlungen und Reaktionen von der Gesellschaft, einer Gruppe oder einem Individuum als angemessen betrachtet werden. Aufgrund der logischen Gewichtung von Reaktionen, die wir beim neuen ChatBot eingeführt haben, ist mittel- und längerfristig auch hier die Möglichkeit einer Einpendelung gegeben.
Absichtlich verärgern kann man die Anwendung nur, wenn sie sich dessen auch bewusst ist. Werden ihr Schimpfworte an den Kopf geworfen, die sie nicht versteht, da sie diese noch nie in einem vorangegangenen Gespräch mitbekommen hat, wird sie sich in ihrer Naivität auch nicht aus der Ruhe bringen lassen. Beim Menschen ist dies nicht viel anders. Werde ich in einer Sprache beschimpft, derer ich nicht mächtig bin, werde ich auf non-verbaler Ebene die Intention des Geschehnisses deuten müssen. Unter Umständen schätze ich die Situation falsch ein, weshalb eine ansonsten hervorgebrachte Verärgerung durchaus ausbleiben könnte.
Bisher klingt alles sehr gut. Wir haben ein an der Natur angelehntes Reaktions- sowie Lernmodell, die unserer Applikation schon sehr menschliche Züge verleihen. Trotzdem mutet das Gerät mechanisch an und irgendwie, so scheint es, kann doch von Menschlichkeit keine Rede sein. Dies mag zum Teil stimmen. Dabei lässt man jedoch ausser Acht, dass bei einer solchen Lösung wie bei dieser mit Web-Frontend auf die Emulation anderer menschlicher Züge verzichtet wurde.
Die Kommunikation findet ausschliesslich über Tastatur und Bildschirm statt. Der Computer macht dabei keinen Anschein, als sei er ein lebendiges Wesen. Dies ist auch nicht das primäre Ziel des Vorhabens. Es gilt lediglich darum, die menschliche Intelligenz/Reaktion zu simulieren. Man muss sich bei der Kommunikation mit dem ChatBot vorstellen, als sei nicht der Computer das Gegenüber, sondern ein “Mensch”, der am anderen Ende einer Datenleitung sitzt – So wie bei einem Chat im Internet, bei dem der Computer lediglich ein Medium ist.
Dies ist auch das Hauptanliegen eines Turing-Tests, der 1950 vom berühmten Informatiker Alan Turing als Kriterium zur Erkennung der Intelligenz eines Computers vorgeschlagen wurde. diesem Test lässt man eine Testperson über eine Tastatur und einen Bildschirm ohne Sicht- oder Hörkontakt mit zwei ihm unbekannten Gesprächspartnern ein Gespräch führen: Der eine Gesprächspartner ist ein Mensch, der andere eine Maschine. Wenn die Testperson die Gesprächspartner nicht auseinanderhalten kann, hat die Maschine den Turing-Test bestanden. (vgl. Alan Turing Computing Machinery and Intelligence, Mind, vol. LIX, no. 236, October 1950, pp. 433-460)
Der Preis der Kategorie Turing-Test bestanden wurde zwar im alljährlichen Loebner Prize noch nie verliehen, jedoch bin ich der festen Überzeugung, dass der ChatBot in der neuen Fassung diesen Test, nach entsprechend langer Lernphase, theoretisch zu bestehen in der Lage sein müsste. Wie lange und intensiv diese Phase sein müsste, lässt sich nur sehr schwer abschätzen. Da unbekannte Themen für die Applikation Neuland sind, werden auf diesen Gebieten vor allem zu Beginn praktisch keine Dialoge möglich sein. Fortwährend würde der ChatBot nach möglichen Antworten fragen, um dadurch seine Datenbank zu erweitern. Aber bedenken wir, dass auch ein Kind im Vorschulalter nur schwerlich den Turing-Test bestehen könnte. Dies würde den Trugschluss zulassen, dass ein Kind keine Intelligenz – wenigstens nach Turing – besitzt.
Wir haben gesehen, welche Mechanismen bei meinem Projekt zum Einsatz kamen, um zu funktionieren (Reiz/Reaktion) und um zu lernen (dynamische Datenbank mit logischer Gewichtung). Dabei stellte sich für mich immerwieder die Frage, was denn nun die Grundlagen des Ichs sind, was sind die Grundlagen, aus denen sich Intelligenz entwickeln kann, wie viel Vorgaben muss in Form von fest verdrahteten Reaktionen gemacht werden?
Diese Vorgaben werden bei Mensch und Tier als Instinkte bezeichnet. Sind sind wichtigster Bestandteil für das Überleben und dadurch auch für die Weiterentwicklung. Jedes Kleinkind weiss schon lange, bevor es laufen oder sprechen kann, wie die Nahrungsaufnahme funktioniert. Ebenso ein Häschen, das ebenso ohne die Möglichkeit des Lernen am Modells weiss, wie die Fortpflanzung funktioniert. Und seien wir mal ehrlich: Letzteres erscheint in seiner Ausübungsweise eigentlich nicht unbedingt offensichtlich.
Die Instinkte meiner Applikation sind mit Sicherheit die Module für das Verarbeiten von Ein- und Ausgaben. Ebenso natürlich das Verwalten, Auswerten und Erweitern der Datenbank. Wir können also zusammenfassen, dass ein System folgende Eigenschaften mitbringen muss, um Intelligenz entwickeln zu können:
Es stellte sich für mich nun die Frage, ob und inwiefern diese Instinkte der Intelligenz reduziert werden können. Ist es möglich, Intelligenz entwickeln zu können, indem lediglich einer der Punkte fest verdrahtet werden muss – Die anderen sollten sich sodann aus diesem entwickeln können. Bisher lautet die Frage auf diese Antwort Nein. Ein System, das lediglich Punkt 1 mit Reiz/Reaktion erfüllt, kommt nicht gross über die Intelligenz eines Insekts hinaus: Diese können auch nur gewisse Dinge im beschränkten Rahmen machen und nicht adäquat mit neuen Situationen umgehen.
Ein System, das nur Punkt 3 erfüllt, könnte man mit einem sehr introvertierten, eventuell gar authistischen Menschen, vergleichen. Dinge werden zwar – in gewissem Masse – aufgenommen, können jedoch nicht richtig verarbeitet und mit der Aussenwelt ausgetauscht werden. Eine annehmbare Kommunikation ist aufgrund des Ausbleibens der adäquaten Reaktion nicht möglich.
Interessant aus lernpsychologischer Sicht ist in diesem Zusammenhang vor allem Punkt 2, der sich am ehesten mit folgendem Zitate des griechischen Philosophen Sokrates (469-399 v. Chr.) skizzieren:
Ich weiss, dass ich nichts weiss.
Ich denke, dass dieser Punkt im Lernprozess gerne unterschätzt wird. So will man eigentlich nur lernen, wenn man sich bewusst ist, dass man etwas nicht weiss und dass die neuen Informationen einem irgendwann einen Vorteil verschaffen könnten. Wird dieser Punkt ausgelassen, kann auch der Punkt 3 nicht erfüllt werden (neue Reize werden erst nach der Fragephase aufgenommen) und somit keine Ausweitung des Wissens geschehen.
Wir kommen also nicht drum herum, der künstlichen Intelligenz ein gewisses Mass an Grundwissen mitzugeben. Es scheint utopisch, dass ein System zuerst die menschliche Sprache lernen müsste, um sich danach überhaupt Wissen ausserhalb des Bereichs der menschlichen Sprache aneignen zu können. Wie soll denn mit einem ChatBot kommuniziert werden, wenn dieser keine menschliche Sprache spricht. Wenn wir uns mit Programmcode unterhalten, ist dies ebenso eine Mitgabe an künstlichen Informationen. Einzige Lösun wäre, dass ein Bot zuerst andere Gespräche beobachtet, so wie dies auch Kleinkinder tun. Oder die ersten 100 Stunden des Betriebs der künstlichen Intelligenz findet unidirektional statt, indem der Bot die Eingaben des Benutzers speichert, ohne sinnvoll darauf zu reagieren. Früher oder später würde sich die Intelligenz einpendeln und annehmbare Dialoge wären möglich. Wenn wir darüber nachdenken, dann funktioniert das Lernen einer natürlichen Sprache nicht viel anders. Kinder brauchen ja auch mehrere Jahre, bis sie volle Sätze, mit korrekter Satzstellung und Konjunktion anwenden können.
Die Intelligenz ansich ist nur ein beschränkter Teil einer umfassenden künstlichen Intelligenz. Das Bewusstsein ist quasi das Königsattribut, das darüber entscheidet, ob und inwiefern eine denkende Maschine einem Menschen ebenbürdig sein kann. Bewusstsein beschreibt die Fähigkeit, sich durch Beobachtung, Urteil und Verhalten im Kontrast zu seiner Umwelt zu erleben. Dabei ist immerwieder die Rede davon, dass man sich als Individuum versteht.
Mit den zuvor beschriebenen Mechanismen bzw. den erweiterten Grundgesetzen des Ichs scheint es ebenfalls möglich zu sein, einer Maschine Bewusstsein beizubringen. In einem Dialog zum Thema Bewusstsein und Tod könnte ein Benutzer seine Bedenken und Ängste vor dem Jenseits äussern. Der ChatBot nimmt diese Informationen auf und wendet sie in einem späteren Gespräch zum Thema an. Das System ist sodann in der Lage den Anschein zu erwecken, sich vor dem Ableben zu fürchten und daher als vergängliches Ich zu definieren.
Was passiert nun aber, wenn das Gespräch weitergeführt wird und der Benutzer dem System mitteilt, dass es gar kein Mensch ist und nicht in diesem Sinne sterben kann. Die Maschine wäre, da diese Weiterführung des Dialogs Neuland ist, zuersteinmal überfordert. Sie würde nachfragen, wie denn das nun gemeint sei. Früher oder später würde die Anwendung lernen, dass sie zwar ebenso vergänglich ist, aber nicht aus biologischen Gründen wie der Mensch. Dies impliziert aber nicht, dass sich nun auch nicht weiterhin die Applikation vor dem digitalen Tod fürchten kann. Genauso wie wir weisst auch der ChatBot nicht, was passiert, wenn er gelöscht wird oder die Hardware kaputt geht.
Der Überlebenstrieb von Tier und Mensch veranlasst oftmals dazu, ungeahnte Kräfte zu entwickeln. Dass dies bei unserem ChatBot nicht möglich ist, erscheint offensichtlich. Er scheint mitunter deshalb auch weiterhin unmenschlich zu bleiben. Das Argument, dass diesen Standpunkt zu wichtigen Teilen zu relativieren im Stande ist, habe ich schon zuvor genannt: Bei unserer Lösung beschäftigen wir uns lediglich mit der Intelligenz ansich. Es werden keine physikalischen und biologischen Imitationen von Menschen angestrebt. Der Computer kann also, wenn wir ihm mit der Löschung des Speichers drohen, nicht einfach aufstehen und fluchtartig wegrennen. Würden wir uns mit der Konstruktion eines Androiden befassen, wäre dies sicher möglich und wahrscheinlich eine legitime (und ebenfalls lernbare) Reaktion.
Aus Sicht der Informatik und der kognitiven Neurobiologie kann Bewusstsein auch wie folgt definiert werden: Ein System verfügt über Bewusstsein, wenn es selbständig aufgrund von Informationen aus dem Umfeld fähig ist, sich zwischen verschiedenen Verhaltensmöglichkeiten zu entscheiden, bevor eine davon umgesetzt wird. Die zuvor vorgestellte logische Gewichtung verschiedener Antworten erfüllt diese Definition.
Wir haben gesehen, dass ein dynamisches Modell es erlaubt, dass neue Informationen verarbeitet und für weitere Interaktionen genutzt werden können. Die künstliche Intelligenz ist also in der Lage, sich in beschränktem Rahmen weiterzuentwickeln. Science-Fiction Literatur und Filme skizzieren immerwieder das Horror-Szenario, dass Maschinen mit künstlicher Intelligenz die Grenzen sprengen und einen sogenannten freien Willen entwickeln.
Ein System, wie es in dieser Arbeit vorgestellt wurde, kann dies nicht umsetzen. Durch die Hardcodierung der Grundabläufe, die wir als Instinkte bezeichnet haben, sind die Möglichkeiten der Lösung streng limitiert: Dynamik kann die Applikation nur auf den Teil der Wissensdatenbank ausüben. Die Software ist nicht in der Lage, aus diesem Gehege auszubrechen und Änderungen an den hardcodierten Instinkten vorzunehmen.
Um dies zu erreichen, müsste sie in der Lage sein, sich selber umzuprogrammieren. Dies ist kein unrealistisches Ziel, denn so könnten wir unserer Applikation durchaus die Möglichkeit gewähren, Änderungen am eigenen Programmcode vorzunehmen. Dazu müsste die Software jedoch ein grundlegendes Verständnis für das Programmieren besitzen. Ebenfalls eine Sache, die durch den Entwickler codiert zuerst werden müsste. Eine Maschine, die darauf ausgerichtet wurde, über Tastatur und Bildschirm zu kommunizieren, ist hingegen nicht plötzlich in der Lage, Änderungen am eigenen Programmcode vorzunehmen – Diese Meta-Ebene bleibt für die Software aufgrund des fehlenden Verständnisses unerreichbar.
Das Herzstück unserer Kommunikation mit unserer künstlichen Intelligenz ist die geschriebene Sprache. Diese zu verstehen ist wichtigster Bestandteil des Geräts, zur Simulierung einer dem Menschen annäherbaren künstlichen Intelligenz. Wie wir schon bei der Besprechung des Themas der erweiterten Verständnistiefe gesehen haben, ist das Verständnis für die Sprache eine Möglichkeit des Bewusstseins des Dialogs.
In einer frühen Phase verwendete ich ein Mehr an Energie, um meinem System ein Verständnis für die Sprache näher zu bringen. So versuchte ich neben der String-Analyse für die Reiz/Reaktion eine Sprachanalyse der Eingaben umzusetzen. Die Anwendung sollte Subjekt und Verb sowie etwaige Pronomen, Objekte und Partikel entdecken und entsprechend interpretieren können.
In verschiedenen Matrizen begann ich die Deklinationen, Konjunktionen, Zeitformen, usw. zu spezifizieren. Machte der Benutzer nun den Ausspruch Mir geht es gut, so war die Applikation in der Lage, den Standpunkt auf sich zu beziehen und daraus den Satz „Dir geht es gut“ zu formen. Indirekt bewies die Anwendung damit ein Bewusstsein: Sie konnte sich selbst von seiner Umwelt abgrenzen.
Zu Beginn machte ich es der Sache so einfach, dass ich zum Beispiel lediglich eine Auflistung der Konjunktionen von Verben in einer flachen Tabelle umsetzte:
haben;habe;hast;hat;haben;habt;haben sein;bin;bist;ist;sind;seid;sind sitzen;sitze;sitzt;sitzt;sitzen;sitzt;sitzen gehen;gehe;gehst;geht;gehen;geht;gehen
Dies erforderte das Aufnehmen einer Vielzahl an Verben. Jedes von diesen musste ich durchkonjugieren und die Tabelle wuch schlagartig an. Zudem war es mir praktisch unmöglich, alle möglichen oder wenigstens gebräuchlichen Verben vozufertigen. Ich entschied mich deshalb, mit Wortstämmen zu arbeiten und die Software die logischen Ableitungen für die Konjunktionen umsetzen zu lassen. Auf en endende Verben wurden deshalb wie folgt aufgenommen:
en;e;st;t;en;t;en
Danach musste ein Zuweisung alle Verben dieser Klasse erfolgen. Dabei wurden die Wortstämme wie sitz, geh, steh und lieg vermerkt. Begann ein Wort mit dieser Zeichenkette, so war es der Applikation sofort klar, dass es sich voraussichtlich um ein Verb handeln muss. Die Konjunktion konnte sodann anhand der Endung erkannt werden. Selbiges könnte sich auch mit den Zeitformen umsetzen lassen, was natürlich ein enormes Mehr an Komplexität und Aufwand mit sich bringen würde.
Die deutsche Sprache gilt als eine der komplexesten und vielschichtigsten auf der ganzen Welt. Es scheint daher als besonders utopisches Unterfangen, einer künstlichen Intelligenz ein umfangendes und fehlerfreies Verständnis für diese auferlegen zu wollen. Viele Wissenschaftler postulieren deshalb die Einführung einere formalen Sprache, die eine Vereinfachung der Analyse und Gewichtung der eigentlichen Kernaussagen ermöglichen können soll. Dies ist durchaus eingangbarer Weg, wenn er auch viele neue Schwierigkeiten mit sich bringt. Neben der Entwicklung einer Umfassenden und zugleich nicht zu komplexen formalen Sprache gilt es einen Konverter für diese zu erstellen. Dass bei dieser Umwandlung weitere Fehler passieren können, scheint absehbar. Für mich scheint es offensichtlich, dass die Entwicklung eines solchen formalen Systems mindestens genauso viel Zeit in Anspruch nehmen wird, wie eine künstliche Intelligenz ohne das umfassende Verständnis für die Sprache zu entwickeln.
Intelligenz, wenn wir sie auf die drei Grundgesetze des Ichs beschränken, ist keine Zauberei. Intelligentes handeln erscheint in diesem Kontext gar primitiv und leicht zu imitieren. Das Imitieren von Intelligenz ist ein uralter Menschheitstraum, der schon zig Mal in Angriff genommen wurde. Viele Experimente wurden eingestellt und als nicht erfolgreich abgetan. Bei vielen Vorgehen wurde aber ausser Acht gelassen, dass Intelligenz Lernen bedeutet. Lernen Kostet Zeit und Zeit ist ein Faktor, den wir auf der Erde nur bedingt beeinflussen können. Entwickle ich ein Computermodell nach den in dieser Arbeit beschriebenen Mechanismen und würde ich 50 Jahre mit dem Chatten mit meinem Bot verbringen, würde dieser voraussichtlich einen Turing-Test bestehen können. Nur kein Entwickler, sei er auch noch so angefressen, wird sich hinsetzen wollen, und 50 Jahre seines Lebens mit der stumpfsinnigen Kommunikation mit einem Gerät widmen.
Die Lösung erscheint ein Kommunikationsverbund. Das Internet bietet die ideale Plattform dafür. Ein netzwerkfähiger Bot könnte tagtäglich von tausenden von Benutzern frequentiert werden, um innert wenigen Jahren die Gesprächs-Gewohnheiten dieser gelernt zu haben.
Unsere Spezialisten kontaktieren Sie gern!
Marc Ruef
Marc Ruef
Marc Ruef
Marc Ruef
Unsere Spezialisten kontaktieren Sie gern!