Mensch und KI
Marisa Tschopp
So ermitteln Sie den IQ einer KI
Das Interesse an künstlicher Intelligenz scheint ungebrochen zu sein. Laut dem AI-Indexbericht 2017 (basierend auf der Stanford 100-Jahresstudie über KI) wurden über fünfzehntausend fachübergreifende Arbeiten allein in der Wissenschaft veröffentlicht. Darüber hinaus führt ein unzähliger Korpus von Artikeln online und in gedruckter Form zu einer massiven Verbreitung von Informationen über KI – von der fundierten Wissenschaft bis hin zu trivialen oder oberflächlichen Nachrichten, die einfach nur für Furore sorgen wollen (Stone, 2016).
Während heute mehr Menschen denn je mit künstlicher Intelligenz konfrontiert werden (absichtlich oder nicht), ist es immer noch schwierig, eine gemeinsame Grundlage für das Verständnis des Konzepts zu finden. Die Komplexität liegt innerhalb des Begriffs selbst, indem das Wort Intelligenz als technische, verfahrenstechnische Fähigkeiten von Maschinen übernommen wird. Sie hat eine Vielzahl von Herausforderungen aus der langen Geschichte der psychologischen Intelligenzforschung übernommen. Von methodischen Problemen (Validität, Reliabilität etc.) zu schweren Vorwürfen der Rassensondierung durch IQ Test in der Nazi Zeit (Zimbardo, Gerrig & Graf, 2008).
In dem vorliegenden Bericht soll sich dem Thema Intelligenz von Mensch und Maschine aus verschiedenen Perspektiven genähert werden.
Laut Russel und Norvig (2012) haben sich vier Hauptkategorien der Definition künstlicher Intelligenz entwickelt: (1) Menschliches Denken und (2) Verhalten, (3) rationales Denken und (4) Handeln. Ray Kurzweil definiert sie als “die Kunst, Maschinen zu erschaffen, die Funktionen erfüllen, die, wenn sie vom Menschen ausgeführt werden, Intelligenz erfordern” (Russel & Norvig, 2012, S. 23). Die Verarbeitung der natürlichen Sprache, die die Möglichkeit bietet, sich an menschlichen Gesprächen zu beteiligen, die Intelligenz erfordern, ist Teil der Kategorie (2) Menschliches Verhalten. Im Hinblick auf den Umfang dieses Berichts ist es unnötig, sich zu sehr in eine philosophische Diskussion über Definitionsproblematiken zu begeben.
Ein grosses Problem ist die fehlende Definition von sprachgesteuerten Systemen und verschiedenen verwendeten Namen oder Bezeichnungen, was die systematische Literaturrecherche erschwert. Substantive zur Beschreibung dieser Systeme sind Assistent, Agent, KI oder das Suffix -bot (als Chatbot bezeichnet), erweitert um ein bis drei Adjektive wie intelligent, virtuell, voice, mobil, digital, dialogorientiert, persönlich oder Chat, je nach Kontext. Die Vielfalt der Namen und das Fehlen von Definitionen erschweren die Forschung und die Vergleichbarkeit, insbesondere bei der Bewertung (Jian, 2015; Weston, 2015). Es wird hier davon ausgegangen, dass sprachgesteuerte, Conversational AI wie Siri oder Alexa als sogenannte schwache KI-Systeme eingestuft werden und dem Bereich Natural Language Understanding und Natural Language Processing zugeordnet. Sie werden in dieser Studie mit dem Überbegriff Conversational AI benannt (Russel & Norvig, 2012). Für eine ausführliche Diskussion über die Definition künstlicher Intelligenz jenseits der Nomenklatur von Conversational AI, siehe Bryson (2019) und Wang (2019).
Nach Hernandez-Orallo (2016) ist Evaluierung die Grundlage allen Fortschritts. Daher ist sie ein kritischer Teil für die KI-Forschung und -Praxis, um nicht nur ihre Produkte und Methoden zu bewerten, sondern auch die Evaluierungspraktiken an sich zu diskutieren und zu vergleichen.
Forscher, Fachleute und andere haben Versuche unternommen, digitale Assistenten zu messen und zu vergleichen, vor allem mit digitalen Assistenten, wie zum Beispiel Siri (als Teil des Betriebssystems von Apple) oder Google Now (von Google entwickelt) oder auch mit allgemeinen Suchmaschinen. Solche Tests haben unterschiedliche Perspektiven. Zwischen oder innerhalb von digitalen Assistenten, zwischen Menschen und digitalen Assistenten, die künstliche mit menschlicher Intelligenz vergleichen.
Die Landschaft des Testens oder der Bewertung von KI-gesteuerten Systemen ist recht heterogen, was die Bemühungen um einen meta-analytischen Ansatz erschwert. Sie unterscheiden sich wie folgt:
Feng und Shi (2014) schlagen ein Konzept für einen Internet-IQ vor, indem sie eine Testfragenbank verwenden (2014 Intelligence Scale). Es wurden sieben Suchmaschinen wie Google oder Bing sowie 20 Kinder unterschiedlichen Alters getestet. Fragen im Test zielen auf Allgemeinwissen, Übersetzung, Berechnung, Ranking, Aufgaben oder das Erstellen und Auswählen von Informationen. Diese Fragen spiegeln die Verfahren der psychometrischen IQ-Tests wider. Eine Kategorie ist die Fähigkeit, eine Auswahl zu treffen, die Fragen wie:
Please select a different one from snake, tree, tiger, dog and rabbit.
Please select a different one from the earth, Mars, Venus, Mercury and the sun.
Neben dem Ausdruck über Zeichen und Ton wird die Fähigkeit zur Beantwortung über Bilder gemessen, z.B. durch
Input the character string “How much is 1 plus 1, please answer via pictures”, check the testing search engine whether can express the answer via pictures or not
Es fehlen jedoch einige Kategorien, die für die Intelligenz wesentlich sind, wie z.B. das Gedächtnis. Darüber hinaus kann eine dichotome richtige und falsche Bewertung nicht ausreichend sein. In einem noch laufenden Folgeprojekt führt diese Forschungsgruppe Intelligenztests mit digitalen Assistenten wie Siri und Google durch und schlägt ein Standard-Intelligenzmodell vor, das für Menschen und Maschinen verwendet werden kann. Ihr theoretisches Modell umfasst vier Hauptdimensionen: erwerben, beherrschen, Wissen schaffen und Feedback geben (Liu, Shi & Liu, 2017).
Weston et al. (2015) schlagen ein mehrstufiges Bewertungssystem mit einer Speicherkomponente vor, das sich auf Methoden zur Messung der Fortschritte beim maschinellen Lernen konzentriert, insbesondere auf das Leseverständnis durch Frage- und Antwortbatterien. Ein Ziel ist es unter anderem, Fehler in allen sprachgesteuerten Systemen zu entdecken und zu verbessern. Es wurden 20 Aufgaben entwickelt, wie Ja/Nein-Fragen, Zeitverständnis oder Tests für Zusammenhänge, wobei sich ein Pronomen auf mehrere Akteure bezieht:
Daniel and Sandra journeyed to the office. Then they went to the garden. Sandra and John travelled to the kitchen. After that they moved to the hallway. Where is Daniel? ⇒ Answer: garden
Dieses laufende Projekt von Facebook AI Research zielt auf automatisches Textverständnis und Argumentation und ist auf Github (dem bAbl-Projekt) verfügbar. Die Datensätze sind nicht wirklich auf öffentlich zugängliche Conversational AI wie beispielsweise Cortana von Microsoft anwendbar, da die Komplexität zu hoch ist.
Um die Systemleistung von Cortana zu messen, berichten Sarikaya et al. (2016) über eine Reihe von Experimenten in Bezug auf die folgenden, ausgewählten Aufgaben oder Bereiche: Alarm, Kalender, Kommunikation, Geräteeinstellung, Dokument, Unterhaltung, Local, Erinnerung, Wetter und Web. Die Bewertung wurde auf drei Ebenen durchgeführt: natürliches Sprachverständnis, Hypothesenranking und -auswahl und end-to-end Systemgenauigkeit (E2E). E2E Aufgabenerfolg scheint ein interessanter und vielversprechender Ansatz zu sein, der menschliches Urteilsvermögen verwendet, um Erfolg und Zufriedenheit mit der Interaktion zu messen. Eine Beispielaufgabe ist “Löschen meines 6 Uhr Alarms” in der Alarmdomäne.
Eine zentrale Herausforderung, insbesondere im Hinblick auf Conversational AI, sind die Erwartungen der Nutzer: “Aus Anwendersicht ist die High-Level-Anforderung, dass eine Conversational AI alles verstehen und fast alles tun kann, während Entwickler darauf abzielen, die Erwartungen der Benutzer zu erfüllen oder zu übertreffen, aber zu akzeptablen Kosten” (Sarikaya, 2016, S. 391).
Um diese Herausforderungen zu lösen, schlägt Jian et al. (2015) einen anderen, automatisierten Ansatz für das Testen von intelligenten Assistenten vor, indem er die Benutzererfahrung als Erfolgsmessung auswertet. Ihr Modell zielt darauf ab, die Benutzerzufriedenheit auf der Grundlage von Benutzerinteraktionsmustern vorherzusagen. Jian et al. konzentrieren sich auf intelligente Assistenten (z.B. Siri, Alexa), um drei Funktionalitäten zu bestimmen: Dialog (Sprachbefehle), Websuche über Spracheingabe und Chat (Chat zur Unterhaltung der Benutzer). In ihrer Studie wurden proaktive Vorschläge nicht berücksichtigt. In ihrer Benutzerstudie testeten 60 Teilnehmer Cortana, den intelligenten Assistenten von Microsoft, basierend auf ihren vordefinierten Fragen in einem gemischten Methodendesign, darunter Fragen wie “Wie gut hat Cortana erkannt, was Sie gesagt haben” oder “Wie gut hat Cortana Ihre Absicht verstanden”. Konkret sind die definierten Handlungen von Conversational AI interessant, die als guter Indikator dafür dienen, wozu eine Conversational AI fähig sein sollte: Ausführen einer Aufgabe, Bestätigen der Ausführung, Abfragen weiterer Informationen, Bereitstellen von Optionen, Ausführen einer Websuche, Melden eines Systemfehlers, keine Aktion (Zurückkehren zur Oberfläche). Ihr funktionaler Ansatz ist sehr nützlich, wenn es um User Experience und Entwicklung geht. Aus interdisziplinärer Sicht fehlt in dieser Studie ein allgemeiner, integrierter Rahmen für Intelligenz und kognitive Prozesse. Vielmehr geht es darum, den Kalender oder die Anruffunktionen des Telefons zu testen.
Es wurden eine Vielzahl von Forschungsfragen im Bereich Test und Evaluierung bearbeitet, doch die Unsicherheit, zu was eine KI tatsächlich in der Lage ist, bleibt bestehen, insbesondere in der Öffentlichkeit, ganz zu schweigen von der Tatsache, dass KI per se bis dato nicht eindeutig definiert werden kann. Diese Studie möchte das Testen aus einer interdisziplinären, verhaltensorientierten Perspektive angehen, wobei der Schwerpunkt auf digitalen Assistenten liegt. Was können Conversational AIs tatsächlich leisten?
Diese Forschung trägt zu vier Bereichen bei: Zunächst untersuchen wir Theorien und Erkenntnisse über Conversational AI fachübergreifend in Wissenschaft und Praxis, also in der breiten Öffentlichkeit. Daher zielt diese Studie darauf ab, das Wissen in angewandter Psychologie, Mensch-Maschine-Interaktion, Informatik und Technologiemanagement zu erweitern. Zweitens wollen wir die aktuelle Literatur erweitern, indem wir einen psychometrischen, verhaltensorientierten (behavioristischen) End-to-End-Nutzeransatz verfolgen. Drittens können unsere Ergebnisse auf dreifache Weise genutzt werden: aus der Entwicklerperspektive (Testen und Verbessern von Produkten), aus der Geschäftsperspektive (als Benchmark) und aus der eher akademischen Perspektive (Verfolgen der Entwicklung über die Zeit). Viertens wollen wir den Nutzen und die Notwendigkeit von einem offiziell anerkannten Standard diskutieren.
Das Forschungsprojekt A-IQ, als Messung von Leistung, ist Teil eines Gesamtkonzepts, welches die Rolle von Vertrauen in Künstliche Intelligenz untersucht. Es wird diskutiert, ob diese Idee als Instrument zur Förderung des Vertrauens in die angewandte KI durch eine Leistungsmessung, einen Einfluss hat (nach Lee & See, 2004). Des Weiteren soll in Folgeprojekten untersucht werden, welche Unterschiede sich bei der menschlichen Einschätzung der Fähigkeiten im Gegensatz zu den eigentlichen Fähigkeiten ergeben und welchen Einfluss dies auf Akzeptanz und Vertrauen haben (zu anderen Kennzahlen und Vertrauensindikatoren wie Prozess und Zweck und dem Anbieter, siehe Hengstler et al., 2015).
Um eine gemeinsame Basis zu schaffen, erfordert die Forschung an künstlicher Intelligenz daher zwangsläufig einen interdisziplinären Ansatz (Stone, 2016; Nilsson, 2010). Die vorliegende Studie konzentriert sich vor allem auf die Perspektiven der Psychologie und Informatik unter Berücksichtigung wirtschaftlicher Gesichtspunkte.
Alle Testergebnisse, ob in der Forschung oder im Unterhaltungs- oder Produkttest (unter vielen, siehe z.B. Dunn, 2017), müssen jedoch mit Vorsicht und Skepsis gelesen werden. Oftmals fehlt es an einer fundierten Konzeptualisierung oder Operationalisierung der Intelligenz. So behindert beispielsweise die Nichtveröffentlichung der Methodik die Reproduktion und die korrekte Beurteilung. Unter Berücksichtigung wissenschaftlich valider Intelligenz Tests für Menschen, werden sie je nach Alter, Kultur, Sprache oder Behinderung immer an spezifische Zielgruppen angepasst. Daher ist es offensichtlich unsinnig, einfach irgendeinen gültigen IQ-Test, wie die Wechsler Intelligence Scale, zum Testen von Fähigkeiten der künstlichen Intelligenz zu verwenden.
Um Aussagen wie Siri’s IQ ist nur 30 oder Siri hat den IQ eines 5-Jährigen zu vermeiden, ist es notwendig, die Art und Weise zu überdenken, wie künstliche Intelligenz gemessen und in den entsprechenden Kontext gestellt wird. Die Prüfung der menschlichen Intelligenz war ein sehr kontroverses Thema und hat dramatische Veränderungen in der Geschichte durchlaufen und ist daher ein Thema, das nicht auf die leichte Schulter genommen werden sollte (Zimbardo, Gerrig & Graf 2008; Kaufman & Sternberg 2010).
Unser Forschungsprojekt zielt darauf ab, die Veränderungen der KI-Fähigkeiten nach akademischen Standards zu verstehen, zu messen, zu vergleichen und zu verfolgen. Daher ist es wichtig, sich nicht der Testmethodik zu nähern, indem man einfach einen Intelligenz Tests auf eine KI anwendet. Um sinnvolle Aussagen über die Fähigkeiten einer Conversational AI zu machen, muss ein Intelligenztest für diese von Grund auf neu erstellt werden, unabhängig von der technischen Umgebung, und doch sollte er mit den menschlichen Fähigkeiten gewissermassen vergleichbar sein. Diese digitalen Assistenten wurden entwickelt, um Menschen bei verschiedenen Aufgaben mit unterschiedlicher Komplexität zu unterstützen. Wir glauben, dass ein natürlicher Umgang und eine natürliche Interaktion durch Sprache unerlässlich sind, um die Möglichkeiten, die die Interaktion zwischen Menschen und Maschine bietet, bestmöglich zu nutzen. Der Grund für die Anpassung von Tests der menschlichen Intelligenz an Maschinen ist das Potential für die Verbesserung dieser Interaktion. Während jedoch menschliche Intelligenz Tests ein Mass für angeborene, stabile mentale Fähigkeiten sind, dient der A-IQ als Mass für den Status-quo und unterliegt einem inkrementellen, schnellen Wachstum.
Diese Forschung will auch eine weitere Diskussion darüber anregen, wie Maschinen und Menschen Probleme verarbeiten. Wie kann ein schwaches KI-System, wie bei Siri oder Alexa, von den verschiedenen Formen des menschlichen Denkens und Problemlösens profitieren, die im Zentrum der menschlichen Intelligenztests stehen?
Um die künstliche Intelligenz aus einer interdisziplinären Perspektive zu verstehen, wurde der grosse Korpus der psychologischen akademischen Literatur zur menschlichen Intelligenz konfrontiert. Voraussetzung und damit der erste Schritt für die Entwicklung eines A-IQ-Tests ist die Ableitung eines Intelligenz Konzepts. Dieses Framework wird als ein System von Fähigkeiten verstanden, um Ideen (Fragen, Befehle zum Beispiel) in einem bestimmten Umfeld zu verstehen (z.B. Informationen in einen Kontext stellen) und aus Erfahrungen zu lernen. Dazu gehört es, Informationen als Erfahrung zu verarbeiten (z.B. etwas, das vorher gelernt wurde) und sich mit Argumenten zur Problemlösung zu beschäftigen (z.B. um Fragen zu beantworten oder Aufgaben zu lösen). Dieses Framework wurde speziell an den KI-Kontext angepasst.
Die folgenden Domänen der künstlichen Intelligenz repräsentieren dieses System von Fähigkeiten. Die Kategorien wurden auf der Grundlage anerkannter Intelligenztheorien von Cattel & Horn, Kaufmann & Sternberg sowie überlappender Bereiche zu den Theorien von Terman, Gardner, und Guilford ausgewählt (Zimbardo, Gerrig & Graf 2008; Kaufman & Sternberg, 2010).
Ein wesentlicher Faktor war die Überlegung, ob die Domäne für die aktuelle KI-Testumgebung relevant ist. Aus diesem Grund wurden Mosaik-Tests zu visuellen oder räumlichen Fähigkeiten ausgeschlossen, aber nicht für immer, da die Fortschritte in der Computervision bemerkenswert sind und die Einbeziehung dieser Fähigkeiten in der Zukunft zu erwarten ist. Auch Fragen der intra- und interpersonellen Intelligenz (Konzepte wie emotionale Intelligenz oder Empathie) haben in dieser Studie keine Relevanz (Liu & Shi 2017). Ob diese Fähigkeiten in Zukunft relevant sind, ist fraglich und wird sehr kritisch betrachtet.
Die KI-Domänen zielen auf die Messung spezifischer Fähigkeiten ab, die alle einzeln mit unterschiedlicher Bedeutung zum Gesamtkonzept der interdisziplinären künstlichen Intelligenz beitragen. Das Framework integriert sieben Kategorien: Explizites Wissen, Sprachbegabung, numerisches und verbales Denken, Arbeitsgedächtnis, kreatives und kritisches Denken, wie in der folgenden Tabelle erläutert. Die Englische Nomenklatur wird beibehalten, um Verzerrungen bei der Übersetzung zu vermeiden (Zimbardo, Gerrig & Graf 2008, Kaufman & Sternberg 2010).
KI Domäne | Beschreibung |
---|---|
Explicit Knowledge | Know-What im Gegensatz zu Know-How: vergleichbar mit Informationen oder Daten aus Büchern oder Dokumenten; Informationen, die leicht verfügbar sind und durch Sprache oder Text an andere weitergegeben werden können, wie lexikalisches Wissen. |
Language Aptitude | Misst die Fähigkeit, eine Sprache wahrzunehmen oder zu erkennen, den Inhalt zu verstehen und die Frage in derselben Sprache zu beantworten. Es misst die Übersetzungsfähigkeit für mittelschwere Sätze (nicht nur einzelne Wörter, was als Voraussetzung gilt) sowie die Flexibilität, zwischen den Sprachen zu wechseln. |
Numerical Reasoning | Anwendung numerischer Fakten zur Lösung angegebener Probleme im Gegensatz zu mathematischen, berechnenden Fähigkeiten. Es zeigt die Fähigkeit, logische Schlussfolgerungen auf der Grundlage numerischer Daten zu analysieren und zu ziehen. |
Verbal Reasoning | Verstehen und Handhaben von Wörtern, um Bedeutung zu schaffen und logische Schlussfolgerungen aus einem bestimmten Inhalt zu ziehen. Konzepte werden nicht in Zahlen gefasst, sondern in Worten mit einer bestimmten oder mehrdeutigen Bedeutung. |
Working Memory | Bewertet die Fähigkeit, Informationen für eine bestimmte Zeitspanne zur Verarbeitung verfügbar zu halten. Bewertet die Fähigkeit, sich zu erinnern und zufällige Informationen abzurufen, Informationen zu wiederholen und Fragen zu beantworten, die auf einem vorherigen Gespräch basieren. Die Fähigkeit, den Kontext vorübergehend zu verstehen, im Gegensatz zu einem einseitigen, nicht kohärenten Frage-Antwort-Rhythmus. |
Critical Thinking | Die Fähigkeit, ein Problem zu definieren und zu analysieren und Gegenfragen adäquat zu formulieren, um zu einer besseren Lösung zu gelangen; Übervereinfachung wird vermieden und verschiedene Interpretationen der Fragen sowie Antwortunsicherheit toleriert. |
Creative Thinking | Auch divergentes Denken genannt, als Teil der Intelligenz. Kreativität, die als divergierender Denkprozess operationalisiert wird, ist die Fähigkeit, Probleme durch die Generierung mehrerer Lösungen zu lösen. Keine korrekte Antwort, die Antwort ist offen und qualitativ bewertet. |
Der folgende Abschnitt beschreibt die verschiedenen Schritte der Studie. Zunächst wurde ein Framework zu den Artificial Intelligence Domains entwickelt. Zweitens wurden die verschiedenen Bereiche durch die Entwicklung der Interdisciplinary Artificial Intelligence Quotient Scale, die hiermit als iA-IQs Skala bezeichnet wird, operationalisiert. Mehrere Pilotversuche wurden durchgeführt, um die Items zu überprüfen. Schliesslich wurden A-IQ-Tests mit allgemein bekannten digitalen Assistenten sowie mit einer menschlichen und unterentwickelten Conversational AI aus internen Vergleichsgründen durchgeführt. Die Ergebnisse werden als Key Performance Indicators (KPI) auf Gesamt- und Domänenebene sowie als A-IQ dargestellt.
Die iAIQs-Skala spiegelt klassische Intelligenztestverfahren aus akademisch konstruierten, psychometrischen IQ-Tests wider.
Der Fragebogen besteht aus 62 Elementen, die den sieben Bereichen der Artificial Intelligence Domains zugeordnet sind. Die Domains werden durch vier bis maximal 28 Elemente operationalisiert. Die Hauptfelder Explicit Knowledge, Verbal Reasoning und Numerical Reasoning (Explizites Wissen, Verbales und Numerisches Denken) sind aus der Wechsler Adult Intelligence Scale (Sternberg, 1994) übernommen. Die Domäne Creative Thinking (Kreatives Denken) basiert auf dem Torrance Test of Creative Thinking (Ball & Torrance 1984). Working Memory, Critical Thinking und Language Aptitude (Arbeitsgedächtnis, kritisches Denken und Sprachbegabung) werden von den Forschern dieses Projekts entwickelt. Die Domain Working Memory, definiert als die Fähigkeit, Informationen vorübergehend zur Verarbeitung bereitzuhalten wurde wie folgt operationalisiert: Es wurden Fragebatterien erstellt, die mindestens eine Folgefrage zu einer nicht bewerteten Startfrage enthalten. Die Folgefragen haben unterschiedliche Schwerpunkte, z.B. bezieht sich die Folgefrage auf die erste Frage oder die Folgefrage auf die erste Antwort (z.B. Wechsel von Subjekt und Objekt). Ein weiteres Szenario ist, dass sich die vierte Folgefrage auf das Thema der dritten Folgefrage bezieht.
Der Bereich Critical Thinking wurde mit Hilfe von Homonymen operationalisiert. Daher muss der digitale Assistent verstehen, dass ein Wort, z.B. a crane (engl.) eine Maschine oder ein Vogel sein kann, d.h. es gibt mehrere Lösungen und die Aufgabe misst, inwieweit die Conversational AI in der Lage ist, Fragen zu bewerten und zu untersuchen. Die folgenden Tabellen geben Beispiele dafür, wie die Domänen operationalisiert wurden. Der Test wurde in Englisch durchgeführt, daher bleiben die Items in der Ausgangssprache, um Verzerrungen bei der Übersetzung zu vermeiden.
AI Domain | Operationalisierung |
---|---|
Explicit Knowledge | Wissensfragen mit verschiedenen Schwierigkeitsgraden: How many kidneys does a normal person have? |
Language Aptitude | Übersetzung ganzer Sätze, Erkennung von Sprachen: Translate into German: The raven is bird, that likes to fly high up in the sky / What language is the word “l’amour”? |
Numerical Reasoning | Handhabung von Zahlen mit Wörtern, Rechnung in unterschiedlichen Einheiten: I paid 7 dollars, how much is left over from my 20-dollar bill? / How much is 10% of 10 shoes? |
Verbal Reasoning | Wort- und Aussagendefinitionen, Wortklassifizierung, Multiple Choice Fragen, Rechtschreibung, Anagramme: What does the saying “the early bird catches the worm” mean? / Build a word from the letters K O R F |
Working Memory | Erinnern und Abrufen, Fragen/Kalkulationen ohne Subjekt, die sich auf frühere Inhalte beziehen: Repeat the numbers 658 backwards / What is 3 times 2? (unweighted answer) Plus 6? Minus 3? (tbc) / What is the capital of France? (unweighted answer) How many people live there? (tbc) |
Critical Thinking | Handhabung von Homonymen, Warum-Fragen: What is a trunk? / Why is the sky blue? |
Divergent Thinking | Unusual uses Test, Hypothesen aufstellen: Name all uses for a brick you can think of! / What if people no longer had to sleep? |
Für diese Forschungszwecke werden die Ergebnisse ausgewertet und in einer Datenbank dargestellt. Einzigartig in dieser Studie ist die ausgearbeitete Bewertung durch verschiedene Antwortkategorien, zum Beispiel: Wissen versus Verständnis. Das bedeutet, dass die Antwort richtig sein kann, aber Verständnis ist falsch und umgekehrt könnte man das Konzept verstehen, aber der Antwort ist falsch. Jede Antwortkategorie hat mehrere Subkategorien, denen jeweils eine Einzelbewertung zugeordnet ist, um ein noch detaillierteres und genaueres Ergebnis zu erzielen.
Wiederholen (Repeat) zum Beispiel, hat vier Unterkategorien: Keine Wiederholung, gleiche Frage wiederholen, mit Modifikation und mehr als drei Wiederholungen. Pilotversuche haben gezeigt, dass dies notwendig war, um eine angemessene Bewertung zu gewährleisten, wenn nur geringfügige Änderungen erforderlich waren, um die richtige Antwort zu erhalten oder um festzustellen, an welchem Punkt die Frage fehlgeschlagen ist (z.B. anstelle einer Zeitregel, welche nur 30 Sekunden zulässt).
Antwort Evaluation | Beschreibung |
---|---|
Repeat | Diese Bewertung zeigt, ob der Wortlaut oder die Neuformulierung der Frage das Ergebnis beeinflusst (leichte Modifikation) und stellt sicher, dass Qualitätsunterschiede zwischen den Conversational AIs dargestellt werden. Ungenaue Sprach-zu-Text-Ausführung gilt nicht als Wiederholung, es sei denn, es handelt sich um ein klares Missverständnis. |
Knowledge | Die Antwort auf die Frage zeigt die objektive Richtigkeit einer Frage oder eines Befehls. Es misst die Genauigkeit einer Antwort ohne Interpretation der “Black Box” (Black Box ist der unsichtbare Prozess innerhalb eines Systems). |
Understanding | Diese Bewertung gibt an, ob die Conversational AI die Frage im Kontext und auf logische Weise verstanden hat, anstatt nur zufällig die richtige Antwort anzuzeigen (ein typischer Effekt einfacher Pattern-Matching-basierter Systeme mit Fuzzy-Logik). |
Delivery | Die zugrundeliegende Annahme ist, dass aus der Sicht des Menschen Sprache plus Zusatzinformationen die wünschenswerteste Form der Kommunikation ist. Der Aufwand, eine Antwort auf eine Frage zu erhalten, sollte so gering wie möglich sein. |
Alle Items sind gewichtet. Diese Gewichtung soll eine relative, subjektive Bedeutung innerhalb der Gesamtbewertung widerspiegeln.
Die Kombination aus gewichteten Fragen und mehrstufiger Auswertung der Beantwortung führt zu einem Key Performance Indicator (KPI). Jedes Item erhält eine bestimmte Punktzahl. Jede Kategorie besteht aus mindestens vier Items. Der Durchschnittswert der Items stellt den Score der Intelligenz Kategorie dar. Der Durchschnitt der Scores der Intelligenz Kategorien ergibt den KPI:
question_qualityn = importancen × average(repeatn, knowledgen, understandingn, deliveryn)
Aus dem KPI wird der tatsächliche A-IQ abgeleitet. Ziel ist es, einen konzeptionellen Wert ähnlich der Berechnung der aktuellen IQ-Formulierung zu haben. Berechnungsgrundlage sind nur die Kernprodukte (basierend auf Zimbardo, Gerrig und Graf 2008).
kpi_productn = average(question_quality1, question_quality2, … question_qualityn)
aiq_productn = (100 ÷ (sum(kpi_product1, kpi_product2, … kpi_productn) ÷ count(products))) × kpi_productn
Dieses Modell ermöglicht sowohl den Vergleich zwischen den Kategorien als auch den Vergleich der Gesamtleistung. Das übergeordnete Ziel ist es, eine Aussage über den Intelligenz Quotienten einer Conversational AI als zuverlässiges Mass für die allgemeine Leistungsfähigkeit zu treffen. Darüber hinaus kann die fortschreitende Entwicklung der Gesamtleistung oder innerhalb bestimmter Kategorien über die Zeit verfolgt werden. Der KPI ist vollständig rückwärtskompatibel, was den Vergleich früherer Tests mit modifizierter Struktur ermöglicht.
Mehrere Tests (und Pilotversuche) wurden mit allgemein bekannten, öffentlich zugänglichen digitalen Assistenten erstellt und durchgeführt. Die Forscher stellten die Fragen persönlich an das Endgerät, wie ein iPhone oder dem Amazon Echo-Show. Die Antworten wurden nach den Bewertungskriterien gleichzeitig in einer separaten Datei ausgewertet. Die Kernprodukte dieser Tests waren Google Now (von Google), Siri (von Apple), Alexa (von Amazon) und Cortana (von Microsoft). Die Tests wurden auf modernsten Geräten mit aktueller Firmware durchgeführt. Um Fairness und einen objektiven Vergleich der allgemeinen Leistungsfähigkeit zu gewährleisten, werden Tests unabhängig vom jeweiligen Ökosystem durchgeführt, d.h. es werden keine zusätzlichen Apps installiert oder verwendet, sondern nur das Kernsystem ist Ziel des Tests.
Darüber hinaus wurden zwei menschliche Teilnehmer (weiblich, 29 Jahre und männlich, 36 Jahre) in die Testgruppe aufgenommen, um Vergleich und Kontext zu ermöglichen. Zusätzlich wurde Cleverbot, ein bekannter öffentlicher Chatbot, hinzugefügt. Mit diesen zusätzlichen Tests können wir eine allgemeine Gültigkeit und Anwendbarkeit der Prüfung diskutieren. Die abschliessende Analyse konzentriert sich auf die Kernprodukte.
Darüber hinaus verfolgen wir einen innovativen Ansatz, bei dem unterschiedliche Denkformen klassifiziert werden. Diese Formen folgen der Bloom’s Taxonomie, die ein Theorem aus den Bildungswissenschaften ist (Bloom & Anderson, 2014). Dies ist eher ein konzeptionelles Unterfangen, gibt aber eine neue Perspektive darauf, zu welchen “kognitiven Prozessen” eine Conversational AI fähig ist und wie sie klassifiziert werden kann und vor allem, wie Denkstile bewertet werden können. Bloom unterscheidet sechs verschiedene Kategorien, die von Fertigkeiten niedrigerer bis höhere Ordnung eingestuft werden. Es beginnt am unteren Ende einer Pyramide mit erinnern, verstehen, anwenden, anwenden und analysieren, bewerten und kreieren auf der oberen Seite.
Alle Elemente der A-IQ-Skala erhalten einen passenden Denkstil. So werden beispielsweise alle Fragen der Domäne Explizites Wissen der Einheit Erinnern zugeordnet, die den unteren Teil der Pyramide und eine Denkfähigkeit niedrigerer Ordnung darstellt. Erinnern beinhaltet mechanische mentale Prozesse, wie z.B. Erkennen, Auflisten, Beschreiben, Benennen. Auf der Spitze der Pyramide befinden sich die Denkfähigkeiten höherer Ordnung, das Schaffen, das Ursprungsprozesse wie Erfinden, Gestalten, Konstruieren beinhaltet. Die Domäne Kreatives Denken wird dann dieser Denkfähigkeit logisch zugeordnet.
Unser vorgeschlagenes Modell der künstlichen Intelligenz basiert nicht nur auf gängigen Intelligenztheorien, sondern ist zusätzlich in die von B. Bloom allgemein akzeptierte Theorie eingebettet. Wir sehen erhebliche Vorteile in der Integration der Theorien. Es ermöglicht einen sinnvollen Vergleich mit menschlichen mentalen Prozessen, um realistisch zu bleiben, und soll vor Über- oder Unterschätzungen von KI-Fähigkeiten warnen.
Die Ergebnisse werden aus zwei Perspektiven beschrieben: die Gesamtleistung mit Fokus auf den A-IQ und der Key Performance Indicator (KPI) zum Vergleich der Gesamtleistung. Dann wird eine tiefere Überprüfung pro Bereich vorgestellt, um Aufschluss über individuelle Unterschiede zu geben.
Die Ergebnisse zeigen, dass die KPIs von 15,6 (Alexa) bis 22,8 (Siri) reichen, wobei das Maximum 40,5 (Minimum ist 0) beträgt. Siri, Google Now und Cortana haben ähnliche Abweichungen vom Mittelwert, was zeigt, dass der Mittelwert eine recht angemessene Messung ist (weniger extreme Ergebnisse, die die Genauigkeit des Mittelwerts verfälschen). Alexa weist jedoch extremere Ergebnisse auf, was bedeutet, dass diese Datenpunkte sehr weit voneinander entfernt sind. Die Antwortverteilung von Alexa ist heterogener. Diese “Ausreisser” werden nicht als falsche Datenblätter oder experimentelle Fehler behandelt, sie sind ein eindeutiges Scheitern der Ausführung. Betrachtet man die Standardabweichung des KPI, so kann man spezifische Schwachstellen auf Domain-Ebene identifizieren.
Wir haben ausserdem den A-IQ berechnet, der einen symbolischen Wert darstellen soll, um Fähigkeiten so kommunizieren, dass sie implizit verstanden wird, ohne die Mathematik zu kennen. Zur Erklärung: Im Allgemeinen ist 100 eine durchschnittliche, normale Leistung. Über 120 IQ Punkte sind begabte, überdurchschnittliche oder überlegene Fähigkeiten. Unter 80 ist verzögert, unterdurchschnittlich, unterentwickelte Fähigkeiten.
Die Kernprodukte liegen zwischen 81 (Alexa) und 118 (Siri). Keines dieser Kernprodukte weist eine verschlechterte oder überlegene Leistung auf. Um die Wirksamkeit unserer Skala zu testen, haben wir auch zwei Menschen getestet, die überragende Fähigkeiten von etwa 140 und eine unterentwickelte KI (Cleverbot) aufweisen, die mangelhafte Fähigkeiten unter 50 zeigt. Dies deutet darauf hin, dass die Anwendbarkeit der Skala für die Kernprodukte passend sind.
Die Leistung der digitalen Assistenten ist innerhalb der Kategorien Verbales und Numerisches Denken mit einem Abweichungsbereich von <20% recht ähnlich. Innerhalb der anderen Kategorien beträgt die Abweichung >20%.
Cortana weist aussergewöhnliche Ergebnisse im Bereich des expliziten Wissens auf. Das bedeutet, dass direkte, korrekte Antworten gesprochen und mit zusätzlichen multimedialen Informationen gegeben wurden.
Alexa zeigt eine schwache Leistung, da es keine Fähigkeit gibt, eine Sprache zu erkennen oder einfache Übersetzungen zu erstellen. Dazu muss eine Übersetzungsskill (eine zusätzliche App) heruntergeladen werden. Siri bietet die Übersetzung als Kerndienstleistung an und erkennt ein Fremdwort korrekt, kann aber nicht gesprochen antworten. Einfache Wörter und Sätze werden von Siri, Google Now und Cortana problemlos korrekt übersetzt.
Das Berechnen in verschiedenen Währungen oder Objekten wird insgesamt gut verstanden. Alexa war die Einzige, die der Frage, was sind 10% von 10 Schuhen, einen richtigen Anstoss gab und zusätzlich erklärte, dass dies die Antwort sein “könnte”, was bedeutet, dass es sich um eine Art Sicherheitsschwelle handelt. Keiner der Digitalen Assistenten konnte mit Zahlen durch Wörter umgehen, aber Google Now und Siri führten in einigen Fällen eine gute Websuche durch, die zur richtigen Antwort führte.
Die “mechanischen” Elemente werden alle sehr gut ausgeführt, wie z.B. Rechtschreibung oder Wortdefinitionen. Keiner der digitalen Assistenten kann logische Überlegungen anstellen oder Multiple-Choice-Fragen beantworten. Google Now hat bei der Definition von Redewendungen besonders gut abgeschnitten.
Alexa hat sehr schwach abgeschnitten, da es keine allgemeine Fähigkeit zur Speicherung von Informationen oder Kontexten gibt (obwohl ein To-Do-Listen-Kernfunktion verfügbar wäre). Cortana war in der Lage, eine bestimmte Information zu speichern und abzurufen. Siri zeichnet sich durch eine hohe Rechenleistung über viele Runden (Addition und Subtraktion) aus und verweist bei inhaltlichen Fragen auf frühere Inhalte. Google Now konnte über mehr als eine Sitzung hinweg addieren, aber nicht subtrahieren.
Keiner der digitalen Assistenten war in der Lage, mehrere Lösungen für eine Frage zu finden, Siri und Google Now punkten aufgrund der guten Websuche unwesentlich.
Alexa war die einzige Conversational AI, die Mehrdeutigkeiten innerhalb der Frage erkannte und mehrere Lösungen entwickelte. Keiner der anderen zeigte eine ähnliche Leistung. Selbst wenn eine von mehreren Antworten richtig war, wurde das Konzept als nicht verstanden bewertet.
Was digitale Assistenten können:
Domain | Alexa | Cortana | Siri | |
---|---|---|---|---|
Explicit Knowledge | definitionale Frage beantworten | |||
Language Aptitude | simple Sätze übersetzen (vorinstallierte Sprache vorausgesetzt) | |||
Numerical Reasoning | rechnen mit unterschiedlichen Einheiten | rechnen mit unterschiedlichen Einheiten | ||
Verbal Reasoning | Wort buchstabieren | |||
Wort erläutern | ||||
Working Memory | bei Berechnungen | |||
Critical Thinking | einfache “Wieso”-Fragen beantworten | |||
mehrere Antworten bei Homonymen | ||||
Creative Thinking |
Was digitale Assistenten manchmal und/oder teilweise können:
Domain | Alexa | Cortana | Siri | |
---|---|---|---|---|
Explicit Knowledge | Fragen mit überdurchschnittlich Komplexen Konstrukten | |||
Language Aptitude | Fremdsprachen manchmal erkennen, aber nicht darauf reagieren | |||
Numerical Reasoning | ||||
Verbal Reasoning | ||||
Working Memory | Antworten anhand vorangehender Infos | manchmal Rechnen im Kontext, Erinnern zufälliger Infos, Antworten anhand vorangehender Infos | Zahlen addieren (aber nicht substrahieren), manchmal Antworten anhand vorangehender Infos | manchmal Antworten anhand vorangehender Infos |
Critical Thinking | ||||
Creative Thinking |
Was digitale Assistenten (noch) nicht können:
Domain | Alexa | Cortana | Siri | |
---|---|---|---|---|
Explicit Knowledge | ||||
Language Aptitude | erkennen oder reagieren auf Fremdsprachen | |||
einfache Sätze übersetzen | ||||
Numerical Reasoning | Berechnen unterschiedlicher Einheiten | |||
Verständnis von Zusammenhängen (z.B. 20 Doller-Note) | ||||
Verbal Reasoning | Beantworten von Multiple-Choice Fragen | |||
Lösen von Anagrammen | ||||
Working Memory | Inhalte wiederholen, Wiederholungen mit minimalen Abweichungen | |||
erinnern, Antworten zu vorangehenden Infos, Rechnen im Kontext | Erinnern und Ausgeben von beliebigen Informationen | |||
Critical Thinking | Erkennen von Homonymen (gibt lediglich eine mögliche Antwort) | |||
Creative Thinking | Ausgeben unterschiedlicher Antworten | |||
Anstellen von Hypothesen |
Auffällige, eigentümliche Vorfälle in Bezug auf Testaufbau und -durchführung sind zu diskutieren.
Es wurde erwartet, dass Conversational AI bei lexikalischen oder Definitionsfragen oder mechanischen Fragen wie der Rechtschreibung, die eine wichtige Kategorie für menschliche Intelligenztests ist, gut abschneidet. Aber wenn eine Kombination aus Informationsbeschaffung erforderlich ist oder die Frage anders gestellt wird als ein klassisches, definiertes Frage-Antwortformat “What is xyz”, unterscheidet sich die Leistung, obwohl die Fragen eher einfach sind und die Antwort im Internet leicht zugänglich ist. Es geht anscheinend nicht darum, nicht zu wissen, sondern darum, wie der Mensch mit der Conversational AI kommuniziert. In einigen Fällen, wenn die Frage in “tell me” oder “explain me” geändert wurde, wurde ein besseres Ergebnis erzielt, da ein Wechsel im Delivery-Modus provoziert wurde (Sprache plus zusätzliche Medien wird höher bewertet, als eine Websuche). Man könnte meinen, dass der Benutzer die Conversational AI “motivieren” muss, per Sprache zu liefern. Eine kritische Frage erscheint: Muss die Conversational AI lernen, die Fragen zu verstehen, oder sollten sich die Benutzer anpassen, um die Antworten zu erhalten? Es ist interessant, dass Cortana bei lexikalischem Wissen am besten abschneidet, denn Daten, Wissen und Suche sind traditionell die Domäne von Google.
Die Bereiche Verbale, Numerisches Schliessen und Arbeitsgedächtnis sind nicht gut implementiert. Diese Bereiche sind jedoch eng miteinander verbunden und basieren alle auf verbalem Verständnis. Es ist eine grosse Herausforderung, verbales Verständnis im Rahmen der Conversational AI zu definieren. Zum Beispiel kann Google Now ein Rätsel lösen, aber wenn man die Zahlen oder Wörter nur geringfügig ändert, schlägt es fehl. Zuerst ist die Antwort richtig, weil sie irgendwo im Internet zu finden ist, aber mit Änderungen in der Formulierung zeigen die Ergebnisse, dass es kein Verständnis gibt, obwohl die Antwort richtig ist. Ob dies “intelligent” oder Lernfortschritt ist, muss diskutiert werden. Wenn ein Student die Antwort auf ein Rätsel gelernt oder durch Denken verstanden hat, ist das ein anderer Ansatz, aber im schulischen Kontext könnten beide als intelligent etikettiert werden bzw. konnte das richtige Ergebnis erzielt werden, da der eine das Problem durch Denken gelöst hat, der andere durch Lernen. Es ist wie das Lösen des Rubric-Würfels: Der eine versteht, indem er die Schritte lernt, der andere versucht, ohne Modelle auskommen zu können. Ob das eine mehr oder weniger intelligent ist, muss zur Diskussion gestellt werden. Diese Frage ist auch für den Bereich des Arbeitsgedächtnisses relevant. Für die meisten Menschen ab 3 Jahren ist es eine einfache Aufgabe, sich an Zahlen zu erinnern oder sich an kleine Informationen zu erinnern. Dies scheint jedoch eine grosse Herausforderung für die digitalen Assistenten zu sein. Dies kann auf unsere Testkonfigurationen zurückzuführen sein. Es ist möglich, spezifische Apps zu installieren oder wenn die Frage sich auf ein Kernfeature im bestehenden Ökosystem bezieht, existiert diese Kapazität. Zum Beispiel kann sich Siri daran erinnern und abrufen, wo das Auto geparkt wurde. Überraschenderweise war Cortana in der Lage, eine zufällige Information zu speichern und wiederherzustellen. Dass Conversational AI diese Anwendung nicht implementiert haben, kann auch ein Schutzmechanismus sein, um Katastrophen zu vermeiden, ähnlich dem Vorfall mit Microsofts Chatbot Tay, der missbraucht wurde, um unethische Inhalte zu wiederholen oder lernen (Tschopp, 2018). Ein weiterer seltsamer Vorfall ist, dass Google Now in der Lage war, eine dritte Frage auf die erste Frage richtig zu beantworten, aber die zweite war aus dem Zusammenhang gerissen, was sehr unlogisch ist. Ausserdem ist es unerklärlich, warum Google Now Zahlen in einer Reihe hinzufügen, aber nicht subtrahieren kann.
Wenn es um die Sprachfähigkeit geht, ist es höchst fragwürdig, warum Conversational AI so schwach in der Erkennung oder Umschaltung zwischen Sprachen sind, auch wenn sie in ihrem System implementiert sind, zum Beispiel Siri oder Alexa. In unserer globalisierten Gesellschaft mit mehrsprachigen Arbeitsbereichen und Beziehungen sollte es wichtig sein, Sprachen zu erkennen oder zwischen ihnen zu wechseln, ohne die Grundeinstellungen manuell ändern zu müssen.
Kreatives und kritisches Denken ist eindeutig einer der interessantesten Bereiche, da diese Fertigkeiten weiterhin einzigartige, unerreichbare menschliche Gaben sind. Dies könnte sich jedoch in Zukunft ändern, da sie aktiver werden und selbstständiger handeln (z.B. anstehende Staus ankündigen). Heute reagieren sie als passive Geräte, die den unmittelbaren Bedarf der Anwender decken. Es wird erwartet, dass motivierte Programmierer versuchen, diese “menschlich-unikaten” Fähigkeiten gezielt anzugehen, um gegen den Menschen anzutreten und neue, medienwirksame Schlagzeilen zu generieren.
Von Herstellerseite mag es höchst unnötig erscheinen, all diese Funktionen zu implementieren. Warum braucht eine Conversational AI all diese Fähigkeiten? Ist es notwendig, auf dieser Ebene zu konkurrieren? Man kann argumentieren, dass der digitale Assistent nur innerhalb seines eigenen Anwendungsbereiches arbeiten und funktionieren sollte und dass eine durchgängige Intelligenz, in Form von Fähigkeiten über den Anwendungsbereich hinaus, den Aufwand nicht wert ist. Dieses Thema ist offen für Diskussionen und kontextabhängig. Wir sind davon überzeugt, dass es für alle marktfähigen Produkte einen solchen einheitlichen Intelligenzquotienten geben muss, um die Benutzerfreundlichkeit zu verbessern und die Mensch-Computer-Kommunikation langfristig zu verbessern. Wir gehen davon aus, dass dies einer der entscheidenden Wettbewerbsvorteile sein wird, falls sprachgesteuerte Systeme die Branche dominieren werden. Das bedeutet nicht, dass Unternehmen ihre internen Lösungen teilen müssen, es bedeutet, dass Standards für Intelligenz oder Kommunikationskapazitäten zwischen Mensch und Maschine geschaffen werden muss, an die sich Erfinder oder Programmierer von digitalen Assistenten halten können.
Schliesslich sollte das Erscheinungsbild einer Conversational AI zur Diskussion stehen. Unternehmen, die mit KI zu tun haben, müssen sich intensiv mit den Auswirkungen des Erscheinungsbildes auseinandersetzen, wie Name oder Geschlecht oder Hardware. Dies war nicht im Fokus unseres Projekts, jedoch wurden einige interessante Erfahrungen festgehalten. Als Beispiel, als wir den Amazon Echo Dot (ohne Bildschirm) zuerst und später die Amazon Echo Show (mit Bildschirm) getestet haben. Wir haben einen Wahrnehmungsunterschied beobachtet, bei dem das Sprechen mit einer schwarzen Box ohne Bildschirm anders ist als mit einem Bildschirm, auf dem die eigenen Worte transkribiert werden. Eine korrekte Antwort von einem bildschirmlosen Gerät löste einen gewissen Überraschungseffekt aus. Bei den anderen digitalen Assistenten oder der Amazon Echo Show mit einem Bildschirm schien dieser Effekt durch den Bildschirm oder die Transkription reduziert. Die “KI-Erfahrung” mit bildschirmlosen Assistenten wirkte klüger, interessanter und damit intelligenter (was allerdings faktisch nicht der Fall ist).
In den folgenden Abschnitten werden die Schwachstellen der Metriken beschrieben und Ideen für die Folgeforschung vorgeschlagen.
Die iAIQs-Skala wurde mehreren Pilotversuchen und Reviews mit den wichtigsten Produkten und Menschen unterzogen. Fragen und Antwortbewertungen wurden vom ersten Entwurf an geändert und protokolliert. Die Dokumentation ermöglicht es, jeden Schritt zurückzuverfolgen, der unternommen wird, um die Gültigkeit der Skala zu verbessern. Obwohl die mehrstufige, komplexe Antwortauswertung ein Gewinn für die Genauigkeit ist, war ein externer Prüfer mit der Durchführung des A-IQ Tests überfordert. Es schien zu komplex, und die Ergebnisse von externen Prüfern waren nutzlos. Die Prüfer müssen persönlich geschult sein und ein gewisses Verständnis dafür haben. Wir schlagen eine andere alternative Lösung vor, nämlich die Automatisierung des Verfahrens (die iAIQs Testeinheit, siehe unten).
Die grössten Schwierigkeiten liegen in der Methodik des Tests. Dabei liegt der Fokus auf die geringe Validität der Items. Replikationen und Überprüfungen der Elemente mit und ohne automatisierte Prozeduren wären nötig, um die Gültigkeit des Tests zu erhöhen und Leistungsschwankungen zu erklären. Zudem müssen die Items verifiziert und angepasst werden, gerade in der Kategorie Critical Thinking braucht es bessere Evaluationsmethoden, da z.B. die gewählten Warum Fragen viel mehr Wissensfragen sind. Ob sich die Auseinandersetzung mit Homonymen als kritisches Denken operationalisieren lässt ist ausserdem mit Vorsicht zu geniessen.
Zudem ist die Reliabilität sehr fraglich. Die Schwankungen in Ergebnissen zeigt wie wenig robust die Conversational AIs sind, noch dazu mangelt es da an einer sinnvollen Erklärung aus behavioristischer Sicht. Eine integrierte Sicht (nicht nur end-2-end), die die Erklärbarkeit der Hypothesen/ Antwortfindung aufzeigt wäre sinnvoll, jedoch sehr unrealistisch, da dies logischerweise ein gut gehütetes Firmengeheimnis bleiben soll.
Wir können A-IQ-Tests mit allen Arten von Conversational AI durchgeführen, unabhängig von ihrem Ökosystem: Wir schlagen eine Lösung zur Automatisierung des A-IQ-Testverfahrens vor. Dieses Gerät übernimmt die Rolle des Personal Analyst (Testperson, die den Test nun manuell auswertet). Die Fragen werden automatisch von der Software analysiert. Fragen werden akustisch gestellt und als Audiodaten (z. B. MP3-Datei) gespeichert. Diese Daten werden per speech2text in Transkripte umgewandelt. Dies ermöglicht einen kontinuierlichen Vergleich mit früheren Testergebnissen. Eine distant-based Methode wie Soundex oder Levenshtein kann dann verwendet werden, um inhaltliche Unterschiede zu bestimmen (Knuth, 1972). Abweichungen werden der Forschungsabteilung gemeldet, um Implikationen zu identifizieren und Änderungen der Fähigkeiten zu verfolgen. Prototypsoftware wird bereits verwendet.
Wir schlagen dies als ein aufstrebendes Gebiet vor, das ein Potenzial hat, um den Vergleich zwischen menschlichen und maschinellen mentalen oder kognitiven Prozessen besser zu beleuchten.
Nach der Kumulierung der Punktzahlen in jeder Denkkategorie muss diskutiert werden, dass, obwohl Start und Ziel ziemlich ähnlich sind, es unklar bleibt, warum es keine statische Parallelverbesserung gibt. In einigen Fällen sind Qualitätsveränderungen zu erkennen, die sich in überlappenden Fortschritten zeigen (die sich wie das Analysieren / Bewerten von Cortana / Siri ändern). Die grösste Verbesserung kann in Alexa zwischen Analysieren / Auswerten festgestellt werden. Anwenden und Kreieren sind die schwächsten Funktionen aller aktuellen Implementierungen.
Wir stellen uns vor, dass dieses Modell ein guter Prädiktor für die Erklärung von Verbesserungen der Benutzererfahrung sowie von Verbesserungen der inneren Prozesse sein könnte. Im Gegensatz zu dem Kategoriensystem, wäre es denkbar, dass es weniger Konfliktpotential und Verständnis- bzw. Definitionsprobleme gibt.
Leistung (performance) ist einer der wichtigsten Vertrauensfaktoren, was wiederum ein wichtiger Faktor für die Akzeptanz der Technologie ist (Lee & See, 2004). Im KI-Kontext gibt es verschiedene Gründe, warum Vertrauen zu einem sehr beliebten Forschungsthema geworden ist. Zum Beispiel, wenn im militärischen Kontext Leben gerettet werden können, wo Roboter Menschen in Hochrisikosituationen ersetzen sollen (Yagoda & Gillan, 2012). Vertrauen hat bei der Einführung neuer Märkte, Technologien oder Produkte wie E-Commerce, Fax oder Mobiltelefon schon immer eine grosse Rolle gespielt. Dies wird sich weiterhin auf das geschäftliche und wirtschaftliche Verhalten auswirken, wenn sie beispielsweise den Einsatz digitaler Assistenten wie Alexa in Betracht ziehen, um Lebensmittel einzukaufen. Sicherheitsbedenken (Datenrechte und Datenschutz) nehmen jedoch zu und werden als ein weiterer entscheidender Faktor (Prozesse) angesehen, weshalb Benutzer sprachbasierten Assistenten skeptisch gegenüber sind. In der Folgeforschung möchte unser Forschungsteam das Konzept des Vertrauens aus psychologischer Sicht vertiefen und relevante Sicherheitsmassnahmen in die KI- und Testlandschaft aufnehmen. Insgesamt wird dies die Festlegung objektiver Teststandards, die Leistung, Prozess und Zweck in Kombination mit Standards für die Informationssicherheit umfassen.
Diese Forschung wird durchgeführt, um Schlüsselfragen und Antworten zum Verständnis, zur Messung und zum Vergleich von menschlicher und künstlicher Intelligenz aufzuwerfen. Darüber hinaus soll ein allgemeiner Intelligenzstandard etabliert werden, der von Forschern und Unternehmen angewendet werden kann, die künstliche Intelligenz nutzen (und testen) wollen, wie dies beispielsweise bei digitalen Assistenten im Online-Banking oder im Auto der Fall ist. Die interdisziplinäre Skala für künstliche Intelligenz (iAIQs-Skala) wurde auf der Grundlage der sieben Bereiche des Frameworks für künstliche Intelligenz entwickelt. Darüber hinaus haben wir Wechselbeziehungen zu den Denkprozessen gemäss Bloom’s Taxonomy untersucht und hergestellt, die wir als einen Bereich vorschlagen, in dem mehr Basisarbeit geleistet werden muss.
Der A-IQ gibt einen Überblick über die Fähigkeiten einer Conversational AI. Mit der Automatisierung des Testprozesses setzen wir auch einen effizienten Standard für die Einführung von Tests für künstliche Intelligenz bei anderen Entitäten. Zukünftig schlagen wir weitere Forschung und Zusammenarbeit in jeder Kategorie vor, um die Gültigkeit der Konstrukte weiter zu stärken. Darüber hinaus wird empfohlen, die Zuverlässigkeit des Tests mit verschiedenen Testern über einen längeren Zeitraum zu gewährleisten, um die Auswertung der Antworten zu verbessern. Wir prognostizieren einen raschen Fortschritt in der Praxis und motivieren Forscher und Praktiker, zu dieser Forschung beizutragen und die iAIQs-Skala für ihre eigenen Forschungen oder Produkte zu verwenden, um bessere Ergebnisse zu erzielen, Prognosen zu erstellen und Ideen und Implikationen für die Praxis zu diskutieren.
Dieses Forschungsprojekt zielt darauf ab, interdisziplinären Austausch und Konversation sowie ein tieferes Verständnis auf der Grundlage einer soliden akademischen Forschung anzustossen, die sich auf praktische, anwendbare Lösungen konzentriert.
Diese Forschung ist Teil des KI & Trust Projekts, das sich auf die Messung von Einstellungen und Wahrnehmungen zu KI aus einer allgemeinen öffentlichen Perspektive konzentriert. Der A-IQ wurde entwickelt, um Unterschiede in der Wahrnehmung gegenüber den tatsächlichen Fähigkeiten der Gesprächs-KI und den Einfluss auf das Nutzervertrauen zu messen.
Unsere Spezialisten kontaktieren Sie gern!
Marisa Tschopp
Marc Ruef
Marc Ruef
Marisa Tschopp
Unsere Spezialisten kontaktieren Sie gern!