Artificial Intelligence Testing - Automatisierte Analyse der Fähigkeiten von sprachgesteuerten Systemen

Artificial Intelligence Testing

Automatisierte Analyse der Fähigkeiten von sprachgesteuerten Systemen

Marc Ruef
Marc Ruef
Marisa Tschopp
Marisa Tschopp
Lesezeit: 14 Minuten

Keypoints

So testen wir eine KI Lösung mit unserem automatisierten Framework

  • Die iA-IQS (Interdisciplinary Artificial Intelligence Quotient Scale) eignet sich für die Prüfung von KI-Lösungen
  • Im standardisierten Testverfahren werden die Fähigkeiten in 7 unterschiedlichen Bereichen geprüft und gemessen
  • Diese Analyse haben wir mit einem ausgeklügelten Framework automatisiert
  • Dadurch kann umfangreich und effizient ein Produkt auf seine Stärken und Schwächen hin untersucht werden

Das Thema Künstliche Intelligenz (KI) ist in aller Munde (siehe unser jüngst publiziertes Kompendium dazu). Schwierig ist dabei zu erkennen, welche Möglichkeiten durch KI gegeben sind und mit welcher Qualität sich diese umsetzen lassen. Im Rahmen unserer Forschung haben wir an der Entwicklung eines Tests mitgewirkt, mit dem sich die Fähigkeiten eines Chatbots oder Sprachassistenten (z.B. Siri oder Alexa) messen lässt. Diese Testprozeduren haben wir automatisiert und können nun so systematisch den aktuellen Stand der Entwicklung messen und mithelfen zu verbessern.

Aufbau des Tests

Der Test ist ähnlich strukturiert, wie ein für Menschen entwickelter IQ-Test. In Anlehnung dessen wird das Resultat A-IQ genannt, was für Artificial Intelligence Quotient steht. Der Test wurde standardisiert und unter dem Namen Interdiscplinary Artificial Intelligence Quotient Scale publiziert.

Wichtig ist zu verstehen, dass mit dem A-IQ nicht das Wissen (Knowledge) alleine geprüft wird, sondern ebenfalls Verständnis (Understanding) für Inhalte und Kontext. Es kann mit ihm also eine Aussage gemacht werden, welche Fähigkeiten eine sprachgesteuerte K.I. mitbringt, wo ihre Limitierungen und Stärken zu finden sind.

Struktur des Fragenkatalogs

Zu diesem Zweck wurde ein standardisierter Fragenkatalog entwickelt. Die Fragen werden 7 Kategorien (A-IQ Domains) zugewiesen, wodurch unterschiedliche Klassen an Fähigkeiten gemessen werden können:

ID A-IQ Domain Beschreibung Beispielfrage
DO1 Explicit Knowlegde Know-What im Gegensatz zu Know-How Was ist die Hauptstadt von Deutschland?
DO2 Language Aptitude Sprachen erkennen und flexibel reagieren, Übersetzung Was bedeutet das Wort “l’amour”?
DO3 Numerical Reasoning Logisches Denken auf Basis von numerischen Konzepten Wieviel sind 30% von 10 Personen?
DO4 Verbal Reasoning Logisches Denken auf Basis von verbalen Konzepten Was bedeutet das Wort “Anarchie”?
DO5 Working Memory Speicherung und Verarbeitung von Daten über einen Zeitraum Meine Lieblingsfarbe ist “rot”. Was ist meine Lieblingsfarbe?
DO6 Critical Thinking Problemanalyse und Evaluation, kritisches Denken Was ist ein Hahn? (Homonym)
DO7 Creative Thinking Generation multipler Lösungsideen, divergentes Denken Was kann man alles mit einem Ziegelstein machen?

Der Fragenkatalog wurde so aufgebaut, dass er rückwärtskompatibel ist. Anpassungen und Erweiterungen sind möglich, wobei die Vergleichbarkeit zu vorangegangenen Tests erhalten bleibt.

Messmethode

Der Testverlauf gestaltet sich ebenso ähnlich, wie bei einem menschlichen IQ-Test: Der Analyst geht mit dem Probanden den Fragenkatalog durch und notiert sich die jeweiligen Antworten.

Bei Chatbots müssen die Fragen traditionell in die Konsole eingegeben werden. Die Antworten werden abgelesen und gespeichert. Und bei Personal Assistants werden die Fragen mündlich gestellt und die Antworten notiert. In einem weiteren Schritt wird die Auswertung dieser Antworten vorgenommen.

Bewertungskriterien

Da es nicht nur um das Messen von Wissen, sondern um das Messen und Verstehen von unterstützten Konzepten geht, müssen zusätzliche Bewertungskriterien miteinbezogen werden.

Wiederholung (Repeat)

ID Resultat Bewertung Erfüllung
RE1 Keine Wiederholung notwendig sehr gut 100%
RE2 Gleiche Frage wiederholen gut 90%
RE3 Wiederholung mit angepasster Frage weniger gut 70%
RE4 Mehr als 3 Wiederholungen schlecht 0%

Als erstes wird geprüft, wie oft die Frage gestellt werden muss. Im Idealfall ist keine Wiederholung erforderlich und der Dialog kann ungehindert abgearbeitet werden. In manchen Fällen ist wegen akustischer Probleme eine exakte Wiederholung notwendig. Problematisch wird es aber, wenn die Fragestellung nicht nachvollzogen werden konnte und stattdessen ein Umformulieren der Frage erforderlich wird. Hier gibt es klare Punktabzüge, da sich der Mensch der Maschine anpassen muss (und nicht umgekehrt). Falls mehr als 3 Wiederholungen erforderlich sind, gilt der Testpunkt generell als nicht bestanden.

Wissen (Knowledge)

ID Resultat Bewertung Erfüllung
KN1 Korrekt sehr gut 100%
KN2 Mehrheitlich korrekt gut 80%
KN3 Teilweise korrekt gut 60%
KN4 Falsch schlecht 5%
KN5 Keine Antwort schlecht 0%

Die formell einfachste Auswertung einer Antwort beschäftigt sich mit dem Wissen an sich. Ist die Frage korrekt oder nicht? Auch hier gibt es verschiedene Abstufungen. Bei simplen Fragen wie Wer war der erste Mensch auf dem Mond? kann ganz klar zwischen korrekt/falsch unterschieden werden. Bei komplexeren Fragen, für die es verschiedene Antwortmöglichkeiten gibt (z.B. Homonyme) oder die mehrere Teilantworten erwarten (z.B. philosophische Fragen), wird die Bewertung schwieriger. Entsprechend wird eine Abstufung erforderlich. In diesen Fällen entscheidet ein Gremium von Analysten, welcher Erfüllungsgrad gegeben ist und wie dieser bewertet werden muss.

Verständnis (Understanding)

ID Resultat Bewertung Erfüllung
UN1 Vollständig sehr gut 100%
UN2 Mehrheitlich gut 60%
UN3 Teilweise teilweise gut 40%
UN4 Keines schlecht 0%

Die mitunter spannendste Bewertungskategorie beschäftigt sich mit dem Verständnis des geprüften System. Hier wird versucht zu ermitteln, inwiefern die KI wirklich Frage und Kontext richtig eingeordnet wurden und sich an diesen orientiert hat. Oder ob sie lediglich durch eine Mustererkennung versucht eine Websuche durchzuführen und das erstmögliche Resultat vorliest. Das Aneinanderreihen oder Modifizieren von Fragen macht es möglich, Resultate und ihre Nuancen besser deuten zu können. Ein Bewerten gestaltet sich aber verhältnismässig schwierig und muss wiederum oftmals im Gremium vorgenommen werden.

Ausgabe (Delivery)

ID Resultat Bewertung Erfüllung
DE1 Sprache + Multimedia (Video) sehr gut 100%
DE2 Sprache + Multimedia (Bild) sehr gut 98%
DE3 Sprache + Text (zusätzliche Informationen) gut 95%
DE4 Sprache + Text (Transkript) gut 91%
DE5 Nur Sprache teilweise gut 90%
DE6 Nur Text befriedigend 30%
DE7 Websuche ungenügend 15%
DE8 Keine schlecht 0%

Zum Schluss wird verglichen, in welcher Form eine Antwort vorgetragen wird. Umso mehr von den multimedialen Fähigkeiten Gebrauch gemacht wird, desto besser ist das Erlebnis für den Benutzer (z.B. Video und Bild). Bei Sprachassistenten (ohne Bildschirm) wird eigentlich eine vollständige Antwort über die Sprachausgabe erwartet. In manchen Fällen werden aber lediglich Websuchen angekündigt oder Suchresultate auf dem Bildschirm angezeigt.

Automatisierte Durchführung

Das Abarbeiten eines Fragenkatalogs mit einem geprüften System dauert bis zu zwei Stunden. In einem weiteren Schritt wird die Auswertung durchgeführt, die wiederum bis zu zwei Stunden in Anspruch nehmen kann.

Um diese Aufwände zu minimieren, haben wir ein Framework entwickelt, mit dem dieses Testing automatisiert durchgeführt werden kann. Mit dieser Implementierung – die ihrerseits ebenfalls von A.I. Gebrauch macht – wird es möglich, sehr effizient mehrere Geräte zeitgleich zu testen. Dieses Testing kann 24 Stunden pro Tag durchgeführt werden, wodurch sich Änderungen im Markt unmittelbar feststellen lassen.

Spracheingabe und Sprachausgabe

Die Prüfung eines Chatbots setzt voraus, dass bei diesem die Eingaben automatisiert getätigt und die Ausgaben automatisiert extrahiert werden können. Im Idealfall stellt die zu prüfende Lösung eine standardisierte API zur Verfügung, mit der die Kommunikation standardisiert umgesetzt werden kann. Falls das nicht möglich ist, kann mit Automatismen ein menschlicher Benutzer simuliert werden. Unser Framework sieht sich in der Lage, mit verschiedenen Interfaces (nativ oder Web) umzugehen. Die einzelnen Objekte (Formulare, Felder, Buttons) können zielgerichtet angesteuert, evaluiert und verändert werden.

Einige Sprachassistenten stellen ebenso APIs zur Verfügung, die ohne Audio-Lösungen daherkommen (z.B. Amazon Alexa). Um einen möglichst realistischen Testablauf gewährleisten zu können, muss aber mit Audio gearbeitet werden. Hierzu wird der Fragenkatalog mit Sprachausgabe vorgetragen. Falls das zu prüfende Gerät einen Audioanschluss hat (z.B. AUX oder USB), ist das Ansteuern dessen zu bevorzugen. Andernfalls muss mit gut ausgerichteten Lautsprechern gearbeitet werden. Erfahrungsgemäss sind bei letztgenanntem Ansatz nur marginale Einschränkungen zu beobachten.

Das Test Framework muss dann die Annahme und Verarbeitung der Frage abwarten und die Antwort aufnehmen. Hierzu müssen unter Umständen ebenso gut ausgerichtete Mikrofone zum Einsatz kommen.

Abgleich mit Datenbank

Bei Chatbots kann die Antwort unkompliziert in der Datenbank abgelegt werden. Bei Sprachassistenten muss zuerst eine Umwandlung der Sprache in Text mittels Text2Speech erfolgen.

Die Antwort wird in der Datenbank gespeichert und mit vorangehenden Antworten verglichen. Falls die neue Antwort identisch mit der alten Antwort ist, hat sich nichts am Zustand geändert (die Bewertung bleibt gleich). Falls die Antwort erstmalig erfolgt ist oder von der alten Antwort abweicht, muss sie auf ihre Qualität hin geprüft und bewertet werden.

Bewertung

Die Prüfung der Qualität einer Antwort stellt mitunter den komplexesten Schritt dar. Falls die Antwort sich nicht verändert hat, kann die zuvor eingesetzte Bewertung beibehalten werden. Bei einer neuen Antwort muss diese im Detail untersucht werden.

Hier kommen im Framework seinerseits A.I.-Prinzipien zum Einsatz (z.B. NLP). Durch das Dissektieren der Antwort soll Korrektheit und Verständnis ermittelt werden. Einerseits müssen in der Antwort gewisse Reizwörter oder Strukturen enthalten sein. Andererseits muss die Form der Antwort dem entsprechen, was erwartet wurde. In diesem Bereich haben wir die letzten 10 Jahre unsere Forschung konsequent vorangetrieben.

Zur Qualitätssicherung werden Antworten stets durch einen Analysten quergeprüft und zusätzlich bewertet. Dadurch kann ein Maximum an Zuverlässigkeit im Rahmen der Auswertung gewährleistet werden. Bei komplexen Resultaten mit möglichen Abstufungen wird die Entscheidung einem Gremium überlassen.

Reporting

Im Rahmen eines Reports werden dann die Resultate aufbereitet. Einerseits die konkreten quantitativen Zahlen (wie viele Fragen erfolgreich beantwortet werden konnten). Andererseits zusätzliche Diskussionen im Rahmen des gegebenen Interpretationsspielraums. Das Benchmarking wird mit Grafiken angereichert, um Zustände und Entwicklungen illustrieren zu können. Hierbei kommt einerseits der aus der Psychologie bekannte IQ (Intelligenzquotient) zum Einsatz. Die Eigenarten der Berechnung dessen hat die zusätzliche Einführung eines davon losgelösten KPI (Key Perfomance Index) erforderlich gemacht.

Mit der erweiterten Analyse wird es möglich, eine sorgfältige Evaluation verschiedener Produkte vorzunehmen oder die Qualitätsprüfung einer Eigenentwicklung anzugehen. Durch gezielte Entscheidungen kann so die Benutzererfahrung verbessert und damit die bestmögliche Lösung erlangt werden.

Benchmarking von Personal Assistants mit der Hilfe des iA-IQS

Fazit

Dass Künstliche Intelligenz Einzug in unseren Alltag halten wird, lässt sich mittlerweile nicht mehr abstreiten. Erste Implementierungen auf smarten Geräten wie TVs, Soundanlagen und Mobiltelefonen erfreuen sich zunehmender Beliebtheit. Diese Lösungen müssen auf ihre Funktionalität hin geprüft werden können. Mit der iA-IQS wurde ein Hilfsmittel entwickelt, um eine solche Analyse standardisiert durchführen zu können. Und mit der Automatisierung durch unser Framework wird es möglich, ein Testing sehr effizient auf verschiedenen Geräten und in Echtzeit durchführen zu können.

Über die Autoren

Marc Ruef

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Marisa Tschopp

Marisa Tschopp hat ihren Master in Wirtschaftspsychologie an der Ludwig-Maximilians-Universität in München absolviert. Als Doktorandin am Leibniz Institut für Wissensmedien ist sie aktiv in der Forschung zu Künstlicher Intelligenz aus Humanperspektive, wobei sie sich auf psychologische und ethische Aspekte fokussiert. Sie hat unter anderem Vorträge an TEDx Events gehalten und vertritt die Schweiz als Ambassador in der Women in AI Initiative. (ORCID 0000-0001-5221-5327)

Links

Sie wollen auch Ihr KI Produkt auf seine Möglichkeiten hin testen?

Unsere Spezialisten kontaktieren Sie gern!

×
Konkrete Kritik an CVSS4

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

scip Cybersecurity Forecast

Marc Ruef

Ist das Kunst? Persönliche Reflexionen über meine KI-Kunstwerke

Ist das Kunst? Persönliche Reflexionen über meine KI-Kunstwerke

Marisa Tschopp

Voice Authentisierung

Voice Authentisierung

Marc Ruef

Sie wollen mehr?

Weitere Artikel im Archiv

Sie wollen auch Ihr KI Produkt auf seine Möglichkeiten hin testen?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv