Artificial Intelligence Testing

Automatisierte Analyse der Fähigkeiten von sprachgesteuerten Systemen

Marc Ruef

Marisa Tschopp

Lesezeit: 14 Minuten

Keypoints

So testen wir eine KI Lösung mit unserem automatisierten Framework

Die iA-IQS (Interdisciplinary Artificial Intelligence Quotient Scale) eignet sich für die Prüfung von KI-Lösungen
Im standardisierten Testverfahren werden die Fähigkeiten in 7 unterschiedlichen Bereichen geprüft und gemessen
Diese Analyse haben wir mit einem ausgeklügelten Framework automatisiert
Dadurch kann umfangreich und effizient ein Produkt auf seine Stärken und Schwächen hin untersucht werden

Das Thema Künstliche Intelligenz (KI) ist in aller Munde (siehe unser jüngst publiziertes Kompendium dazu). Schwierig ist dabei zu erkennen, welche Möglichkeiten durch KI gegeben sind und mit welcher Qualität sich diese umsetzen lassen. Im Rahmen unserer Forschung haben wir an der Entwicklung eines Tests mitgewirkt, mit dem sich die Fähigkeiten eines Chatbots oder Sprachassistenten (z.B. Siri oder Alexa) messen lässt. Diese Testprozeduren haben wir automatisiert und können nun so systematisch den aktuellen Stand der Entwicklung messen und mithelfen zu verbessern.

Aufbau des Tests

Der Test ist ähnlich strukturiert, wie ein für Menschen entwickelter IQ-Test. In Anlehnung dessen wird das Resultat A-IQ genannt, was für Artificial Intelligence Quotient steht. Der Test wurde standardisiert und unter dem Namen Interdiscplinary Artificial Intelligence Quotient Scale publiziert.

Wichtig ist zu verstehen, dass mit dem A-IQ nicht das Wissen (Knowledge) alleine geprüft wird, sondern ebenfalls Verständnis (Understanding) für Inhalte und Kontext. Es kann mit ihm also eine Aussage gemacht werden, welche Fähigkeiten eine sprachgesteuerte K.I. mitbringt, wo ihre Limitierungen und Stärken zu finden sind.

Struktur des Fragenkatalogs

Zu diesem Zweck wurde ein standardisierter Fragenkatalog entwickelt. Die Fragen werden 7 Kategorien (A-IQ Domains) zugewiesen, wodurch unterschiedliche Klassen an Fähigkeiten gemessen werden können:

ID	A-IQ Domain	Beschreibung	Beispielfrage
DO1	Explicit Knowlegde	Know-What im Gegensatz zu Know-How	Was ist die Hauptstadt von Deutschland?
DO2	Language Aptitude	Sprachen erkennen und flexibel reagieren, Übersetzung	Was bedeutet das Wort “l’amour”?
DO3	Numerical Reasoning	Logisches Denken auf Basis von numerischen Konzepten	Wieviel sind 30% von 10 Personen?
DO4	Verbal Reasoning	Logisches Denken auf Basis von verbalen Konzepten	Was bedeutet das Wort “Anarchie”?
DO5	Working Memory	Speicherung und Verarbeitung von Daten über einen Zeitraum	Meine Lieblingsfarbe ist “rot”. Was ist meine Lieblingsfarbe?
DO6	Critical Thinking	Problemanalyse und Evaluation, kritisches Denken	Was ist ein Hahn? (Homonym)
DO7	Creative Thinking	Generation multipler Lösungsideen, divergentes Denken	Was kann man alles mit einem Ziegelstein machen?

Der Fragenkatalog wurde so aufgebaut, dass er rückwärtskompatibel ist. Anpassungen und Erweiterungen sind möglich, wobei die Vergleichbarkeit zu vorangegangenen Tests erhalten bleibt.

Messmethode

Der Testverlauf gestaltet sich ebenso ähnlich, wie bei einem menschlichen IQ-Test: Der Analyst geht mit dem Probanden den Fragenkatalog durch und notiert sich die jeweiligen Antworten.

Bei Chatbots müssen die Fragen traditionell in die Konsole eingegeben werden. Die Antworten werden abgelesen und gespeichert. Und bei Personal Assistants werden die Fragen mündlich gestellt und die Antworten notiert. In einem weiteren Schritt wird die Auswertung dieser Antworten vorgenommen.

Bewertungskriterien

Da es nicht nur um das Messen von Wissen, sondern um das Messen und Verstehen von unterstützten Konzepten geht, müssen zusätzliche Bewertungskriterien miteinbezogen werden.

Wiederholung (Repeat)

ID	Resultat	Bewertung	Erfüllung
RE1	Keine Wiederholung notwendig	sehr gut	100%
RE2	Gleiche Frage wiederholen	gut	90%
RE3	Wiederholung mit angepasster Frage	weniger gut	70%
RE4	Mehr als 3 Wiederholungen	schlecht	0%

Als erstes wird geprüft, wie oft die Frage gestellt werden muss. Im Idealfall ist keine Wiederholung erforderlich und der Dialog kann ungehindert abgearbeitet werden. In manchen Fällen ist wegen akustischer Probleme eine exakte Wiederholung notwendig. Problematisch wird es aber, wenn die Fragestellung nicht nachvollzogen werden konnte und stattdessen ein Umformulieren der Frage erforderlich wird. Hier gibt es klare Punktabzüge, da sich der Mensch der Maschine anpassen muss (und nicht umgekehrt). Falls mehr als 3 Wiederholungen erforderlich sind, gilt der Testpunkt generell als nicht bestanden.

Wissen (Knowledge)

ID	Resultat	Bewertung	Erfüllung
KN1	Korrekt	sehr gut	100%
KN2	Mehrheitlich korrekt	gut	80%
KN3	Teilweise korrekt	gut	60%
KN4	Falsch	schlecht	5%
KN5	Keine Antwort	schlecht	0%

Die formell einfachste Auswertung einer Antwort beschäftigt sich mit dem Wissen an sich. Ist die Frage korrekt oder nicht? Auch hier gibt es verschiedene Abstufungen. Bei simplen Fragen wie Wer war der erste Mensch auf dem Mond? kann ganz klar zwischen korrekt/falsch unterschieden werden. Bei komplexeren Fragen, für die es verschiedene Antwortmöglichkeiten gibt (z.B. Homonyme) oder die mehrere Teilantworten erwarten (z.B. philosophische Fragen), wird die Bewertung schwieriger. Entsprechend wird eine Abstufung erforderlich. In diesen Fällen entscheidet ein Gremium von Analysten, welcher Erfüllungsgrad gegeben ist und wie dieser bewertet werden muss.

Verständnis (Understanding)

ID	Resultat	Bewertung	Erfüllung
UN1	Vollständig	sehr gut	100%
UN2	Mehrheitlich	gut	60%
UN3	Teilweise	teilweise gut	40%
UN4	Keines	schlecht	0%

Die mitunter spannendste Bewertungskategorie beschäftigt sich mit dem Verständnis des geprüften System. Hier wird versucht zu ermitteln, inwiefern die KI wirklich Frage und Kontext richtig eingeordnet wurden und sich an diesen orientiert hat. Oder ob sie lediglich durch eine Mustererkennung versucht eine Websuche durchzuführen und das erstmögliche Resultat vorliest. Das Aneinanderreihen oder Modifizieren von Fragen macht es möglich, Resultate und ihre Nuancen besser deuten zu können. Ein Bewerten gestaltet sich aber verhältnismässig schwierig und muss wiederum oftmals im Gremium vorgenommen werden.

Ausgabe (Delivery)

ID	Resultat	Bewertung	Erfüllung
DE1	Sprache + Multimedia (Video)	sehr gut	100%
DE2	Sprache + Multimedia (Bild)	sehr gut	98%
DE3	Sprache + Text (zusätzliche Informationen)	gut	95%
DE4	Sprache + Text (Transkript)	gut	91%
DE5	Nur Sprache	teilweise gut	90%
DE6	Nur Text	befriedigend	30%
DE7	Websuche	ungenügend	15%
DE8	Keine	schlecht	0%

Zum Schluss wird verglichen, in welcher Form eine Antwort vorgetragen wird. Umso mehr von den multimedialen Fähigkeiten Gebrauch gemacht wird, desto besser ist das Erlebnis für den Benutzer (z.B. Video und Bild). Bei Sprachassistenten (ohne Bildschirm) wird eigentlich eine vollständige Antwort über die Sprachausgabe erwartet. In manchen Fällen werden aber lediglich Websuchen angekündigt oder Suchresultate auf dem Bildschirm angezeigt.

Automatisierte Durchführung

Das Abarbeiten eines Fragenkatalogs mit einem geprüften System dauert bis zu zwei Stunden. In einem weiteren Schritt wird die Auswertung durchgeführt, die wiederum bis zu zwei Stunden in Anspruch nehmen kann.

Um diese Aufwände zu minimieren, haben wir ein Framework entwickelt, mit dem dieses Testing automatisiert durchgeführt werden kann. Mit dieser Implementierung – die ihrerseits ebenfalls von A.I. Gebrauch macht – wird es möglich, sehr effizient mehrere Geräte zeitgleich zu testen. Dieses Testing kann 24 Stunden pro Tag durchgeführt werden, wodurch sich Änderungen im Markt unmittelbar feststellen lassen.

Spracheingabe und Sprachausgabe

Die Prüfung eines Chatbots setzt voraus, dass bei diesem die Eingaben automatisiert getätigt und die Ausgaben automatisiert extrahiert werden können. Im Idealfall stellt die zu prüfende Lösung eine standardisierte API zur Verfügung, mit der die Kommunikation standardisiert umgesetzt werden kann. Falls das nicht möglich ist, kann mit Automatismen ein menschlicher Benutzer simuliert werden. Unser Framework sieht sich in der Lage, mit verschiedenen Interfaces (nativ oder Web) umzugehen. Die einzelnen Objekte (Formulare, Felder, Buttons) können zielgerichtet angesteuert, evaluiert und verändert werden.

Einige Sprachassistenten stellen ebenso APIs zur Verfügung, die ohne Audio-Lösungen daherkommen (z.B. Amazon Alexa). Um einen möglichst realistischen Testablauf gewährleisten zu können, muss aber mit Audio gearbeitet werden. Hierzu wird der Fragenkatalog mit Sprachausgabe vorgetragen. Falls das zu prüfende Gerät einen Audioanschluss hat (z.B. AUX oder USB), ist das Ansteuern dessen zu bevorzugen. Andernfalls muss mit gut ausgerichteten Lautsprechern gearbeitet werden. Erfahrungsgemäss sind bei letztgenanntem Ansatz nur marginale Einschränkungen zu beobachten.

Das Test Framework muss dann die Annahme und Verarbeitung der Frage abwarten und die Antwort aufnehmen. Hierzu müssen unter Umständen ebenso gut ausgerichtete Mikrofone zum Einsatz kommen.

Abgleich mit Datenbank

Bei Chatbots kann die Antwort unkompliziert in der Datenbank abgelegt werden. Bei Sprachassistenten muss zuerst eine Umwandlung der Sprache in Text mittels Text2Speech erfolgen.

Die Antwort wird in der Datenbank gespeichert und mit vorangehenden Antworten verglichen. Falls die neue Antwort identisch mit der alten Antwort ist, hat sich nichts am Zustand geändert (die Bewertung bleibt gleich). Falls die Antwort erstmalig erfolgt ist oder von der alten Antwort abweicht, muss sie auf ihre Qualität hin geprüft und bewertet werden.

Bewertung

Die Prüfung der Qualität einer Antwort stellt mitunter den komplexesten Schritt dar. Falls die Antwort sich nicht verändert hat, kann die zuvor eingesetzte Bewertung beibehalten werden. Bei einer neuen Antwort muss diese im Detail untersucht werden.

Hier kommen im Framework seinerseits A.I.-Prinzipien zum Einsatz (z.B. NLP). Durch das Dissektieren der Antwort soll Korrektheit und Verständnis ermittelt werden. Einerseits müssen in der Antwort gewisse Reizwörter oder Strukturen enthalten sein. Andererseits muss die Form der Antwort dem entsprechen, was erwartet wurde. In diesem Bereich haben wir die letzten 10 Jahre unsere Forschung konsequent vorangetrieben.

Zur Qualitätssicherung werden Antworten stets durch einen Analysten quergeprüft und zusätzlich bewertet. Dadurch kann ein Maximum an Zuverlässigkeit im Rahmen der Auswertung gewährleistet werden. Bei komplexen Resultaten mit möglichen Abstufungen wird die Entscheidung einem Gremium überlassen.

Reporting

Im Rahmen eines Reports werden dann die Resultate aufbereitet. Einerseits die konkreten quantitativen Zahlen (wie viele Fragen erfolgreich beantwortet werden konnten). Andererseits zusätzliche Diskussionen im Rahmen des gegebenen Interpretationsspielraums. Das Benchmarking wird mit Grafiken angereichert, um Zustände und Entwicklungen illustrieren zu können. Hierbei kommt einerseits der aus der Psychologie bekannte IQ (Intelligenzquotient) zum Einsatz. Die Eigenarten der Berechnung dessen hat die zusätzliche Einführung eines davon losgelösten KPI (Key Perfomance Index) erforderlich gemacht.

Mit der erweiterten Analyse wird es möglich, eine sorgfältige Evaluation verschiedener Produkte vorzunehmen oder die Qualitätsprüfung einer Eigenentwicklung anzugehen. Durch gezielte Entscheidungen kann so die Benutzererfahrung verbessert und damit die bestmögliche Lösung erlangt werden.

Benchmarking von Personal Assistants mit der Hilfe des iA-IQS

Fazit

Dass Künstliche Intelligenz Einzug in unseren Alltag halten wird, lässt sich mittlerweile nicht mehr abstreiten. Erste Implementierungen auf smarten Geräten wie TVs, Soundanlagen und Mobiltelefonen erfreuen sich zunehmender Beliebtheit. Diese Lösungen müssen auf ihre Funktionalität hin geprüft werden können. Mit der iA-IQS wurde ein Hilfsmittel entwickelt, um eine solche Analyse standardisiert durchführen zu können. Und mit der Automatisierung durch unser Framework wird es möglich, ein Testing sehr effizient auf verschiedenen Geräten und in Echtzeit durchführen zu können.

Über die Autoren

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Marisa Tschopp hat ihren Master in Wirtschaftspsychologie an der Ludwig-Maximilians-Universität in München absolviert. Als Doktorandin am Leibniz Institut für Wissensmedien ist sie aktiv in der Forschung zu Künstlicher Intelligenz aus Humanperspektive, wobei sie sich auf psychologische und ethische Aspekte fokussiert. Sie hat unter anderem Vorträge an TEDx Events gehalten und vertritt die Schweiz als Ambassador in der Women in AI Initiative. (ORCID 0000-0001-5221-5327)

Sie wollen auch Ihr KI Produkt auf seine Möglichkeiten hin testen?

Unsere Spezialisten kontaktieren Sie gern!

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

Marc Ruef

Ist das Kunst? Persönliche Reflexionen über meine KI-Kunstwerke

Marisa Tschopp

Artificial Intelligence Testing

Automatisierte Analyse der Fähigkeiten von sprachgesteuerten Systemen

Keypoints

Aufbau des Tests

Struktur des Fragenkatalogs

Messmethode

Bewertungskriterien

Wiederholung (Repeat)

Wissen (Knowledge)

Verständnis (Understanding)

Ausgabe (Delivery)

Automatisierte Durchführung

Spracheingabe und Sprachausgabe

Abgleich mit Datenbank

Bewertung

Reporting

Fazit

Über die Autoren

Links

Tags

Sie wollen auch Ihr KI Produkt auf seine Möglichkeiten hin testen?

Konkrete Kritik an CVSS4

scip Cybersecurity Forecast

Ist das Kunst? Persönliche Reflexionen über meine KI-Kunstwerke

Voice Authentisierung

Sie wollen mehr?

Sie wollen auch Ihr KI Produkt auf seine Möglichkeiten hin testen?

Sie wollen mehr?