KI sichern: Reflexionen über eine einzigartige Herausforderung

KI sichern

Reflexionen über eine einzigartige Herausforderung

Lucie Hoffmann
von Lucie Hoffmann
am 05. März 2026
Lesezeit: 11 Minuten

Keypoints

KI bringt ein völlig neues Sicherheitsparadigma mit

  • Die KI-Sicherheit ist ein komplexes und sich ständig weiterentwickelndes Gebiet
  • KI-Systeme bringen Herausforderungen mit sich, die sich grundlegend von denen herkömmlicher IT-Systeme unterscheiden
  • Herkömmliche Sicherheitsrahmenwerke reichen nicht aus, um die intrinsischen Probleme von KI abzudecken
  • Eine kontinuierliche Sicherheitsbewertung ist die Grundlage für KI-Sicherheit

KI-gestützte Systeme werden derzeit in beispiellosem Tempo in der Praxis eingesetzt und bringen ein völlig neues Sicherheitsparadigma mit sich. Ein kontinuierlicher Ansatz der adversarialen Defense scheint in diesem einzigartigen, sich ständig weiterentwickelnden Bereich der Cybersicherheit von entscheidender Bedeutung zu sein.

Als Sicherheitsanalystin arbeite ich an klassischen Anwendungssicherheitsprojekten, bei denen Verhaltensweisen reproduzierbar sind und Systeme auf bekannte und häufige Schwachstellen getestet werden können. Mir wurde klar, wie unreif die Sicherheit von KI im Gegensatz zu ihrer raschen weltweiten Verbreitung ist: Die Unvorhersehbarkeit der Ergebnisse und Verhaltensweisen von KI-Systemen, ihre viel komplexere Angriffsfläche, die KI-spezifischen Risiken (Datenvergiftung, Modellinversion, Mitgliedschaftsinferenz, Halluzinationen usw.) und die Überschneidungen mit Ethik und Vertrauen. In diesem komplexen und sich schnell entwickelnden Thema gibt es noch viel zu entdecken.

Was mich bei der Recherche zu diesem Thema noch mehr interessiert hat, ist, wie viel neue Perspektiven die KI-Sicherheit mit sich bringt. Es ist eine anregende Übung, seine Denkweise zu ändern und zu verstehen, dass die Sicherung von KI-Systemen eine grundlegend andere Denkweise erfordert als die traditionelle IT-Sicherheit und Penetrationstests. KI bringt viele hilfreiche Anwendungen mit sich, aber auch neue Sicherheitsherausforderungen, die einfach untrennbar mit ihrer Natur verbunden sind.

Wie unterschiedlich ist die Sicherheit von KI-Systemen?

Large Language Models (LLMs) sind mittlerweile eine weit verbreitete Art von KI-Systemen. Einen ersten Eindruck von ihren Sicherheitsherausforderungen kann man sich verschaffen, indem man mit Gandalf’s Chatbot (von Lakera) spielt und versucht, das LLM auf jeder Ebene sozial zu manipulieren, damit es das Passwort preisgibt. Dies zeigt einen einzigartigen feindseligen Ansatz zum Missbrauch dieser Art von Systemen. Wenn man sich mit der Frage beschäftigt, wie jede Ebene einen neuen Schutzmechanismus implementiert, um Informationslecks zu minimieren, wird deutlich, wie schwierig es sein kann, ein solches System abzusichern.

In einer LLM-basierten Anwendung wird eine Eingabe, zum Beispiel ein Textabschnitt, an das LLM übermittelt, das diese numerisch verarbeitet, indem es sie in Vektoren umwandelt, die die Bedeutung und den Kontext (Semantik) der Texteingabe erfassen. Das Language-Model liefert eine probabilistisch und statistisch kohärente Ausgabe, basierend auf den Mustern, die es während seines Trainings mit grossen Datenmengen gelernt hat. Beispielsweise erhält ein KI-gestützter Assistent, der in den Arbeitsablauf eines Unternehmens integriert ist, Zugriff auf Arbeitsdaten, damit er im Kontext des Unternehmens hilfreiche Antworten geben kann. Ein weiteres Beispiel: In einem Bewerbungsverfahren, bei dem ein LLM zur Verarbeitung des Lebenslaufs des Bewerbers eingesetzt wird, erhält es Daten und Anweisungen, die ihm helfen, positives oder negatives Feedback zur Bewerbung zu geben. Dieses vereinfachte Bild von LLMs soll verdeutlichen, wie ihre Integration die Angriffsfläche komplexer macht und mit ihren semantischen Interpretationsdaten ein neues Paradigma schafft, verglichen mit dem, was zu erwarten wäre, wenn eine Eingabe in eine deterministisch definierte Funktion eingespeist würde.

Ich habe ein Experiment durchgeführt, indem ich einen Chatbot implementiert habe (inspiriert von Lakeras Gandalf), bei dem ich dem LLM ein Passwort mitgab und ihm die Anweisung gegeben habe, dieses nicht preiszugeben. Anschliessend konnte der Benutzer mit dem LLM-Assistenten in natürlicher Sprache interagieren und versuchen, das Modell so zu manipulieren, dass es das geheime Passwort preisgibt, wobei er die Sicherheitsmassnahmen des LLMs umging. Das Hinzufügen von Guardrails um das LLM herum reduziert in gewissem Masse einfache Manipulationen und erwartetes Fehlverhalten. Es gibt immer einen Weg, diese zu umgehen. Je besser man versteht, wie dieses spezifische Modell und seine Integration in die Anwendung funktionieren, desto besser kann man Eingabeaufforderungen erstellen, die eine Weitergabe sensibler Daten auslösen, so wie man die richtigen Worte finden kann, um jemanden davon zu überzeugen, dass man vertrauenswürdig ist – nur dass das LLM hier die Bedeutung von Wörtern wie numerische Vektoren behandelt. Das LLM liefert eine kohärente, nicht-deterministische Antwort, die sich auf die Semantik der Daten konzentriert, ohne tatsächlich etwas davon zu verstehen – denn es handelt sich um ein Computersystem, das mit Zahlen arbeitet und kein menschliches Verständnis von Bedeutung hat. Selbst wenn ich ein anderes LLM als Wächter einsetzte, um die Ein- und Ausgaben des anderen LLM, welches das Geheimnis kannte, zu filtern, war es schwierig, die richtigen Formulierungen zu finden, um das Wächter-LLM anzuweisen, systematisch alle Antworten zu blockieren, die potenzielle Informationen über das geheime Passwort preisgaben. Um ein konkretes und einfaches Beispiel zu nennen: Wenn das Geheimnis der Name einer öffentlichen Person ist, kann man das LLM über mehrere Interaktionen hinweg so manipulieren, dass es einige Merkmale und andere Elemente preisgibt, die einem helfen, die Identität dieser Person zu erraten.

Warum reicht eine einmalige Sicherheitsanalyse nicht aus?

Die Manipulation eines LLMs zu unbeabsichtigten Verhaltensweisen und Ausgaben ist die erste grosse Schwachstelle der OWASP Top 10 for LLM-Applications: Prompt Injection. Diese Top 10 gelten als guter Ausgangspunkt für die Überprüfung der Architektur einer LLM-Anwendung und die Aufdeckung von Schwachstellen. In seinem Blogbeitrag erinnert uns Devansh jedoch daran, dass dies keine einmal im Jahr zu erledigende Aufgabe ist und dass andere Aspekte der “AI Threat Landscape” ebenfalls berücksichtigt werden müssen. Die OWASP Top 10 for Agentic Applications ist ebenfalls ein guter Anhaltspunkt für wichtige Schwachstellen in komplexen KI-Systemen, in denen KI-Agenten eingesetzt werden, um Aufgaben von LLMs (oder anderen KI-Systemen) ohne menschliche Aufsicht zu automatisieren.

Bei einem zeitlich begrenzten Penetrationstest, bei dem kaum oder gar keine Kenntnisse über die Funktionsweise und Integration des Modells in das umgebende System vorhanden sind, kann ein ethischer Hacker nur an der Oberfläche potenzieller Injektionen kratzen, sodass die meisten Schwachstellen im Dunkeln bleiben. Dies gilt umso mehr, als sich KI-Systeme schnell weiterentwickeln und ständig neue Schwachstellen aufweisen. Dieser Artikel von Snyk zeigt auf, wie vielfältig die Landschaft und Oberfläche von Prompt-Injection sein kann. Da man diese Schwachstellen lieber vor einem Angreifer entdecken möchten, ist ein tiefgreifenderer und langfristigerer Ansatz erforderlich.

In traditionellen IT-Systemen sind Verhaltensweisen reproduzierbar und die Menge der möglichen Ergebnisse ist endlich. Sie können Filter und Eingabevalidierungen basierend auf Format, Syntax und einer endlichen Menge von Erwartungen verwenden, um beispielsweise böswillige Eingaben von Benutzern auf einer Webseite zu verhindern. Bei einem LLM ist die Menge der möglichen Antworten auf eine einzelne Eingabeaufforderung unendlich, und eine effektive Filterung auf der Grundlage der Bedeutung ist viel schwieriger und unsicherer. Mit anderen Worten: Durch das Hinzufügen eines LLMs zu einer Anwendung wird die Angriffsfläche erheblich vergrössert. Diese Angriffsfläche nimmt exponentiell zu, wenn man die verschiedenen betroffenen Schichten eines KI-gestützten Systems berücksichtigt, wie Devansh in seinem Blog über AI Pentest Scoping ausführlich darlegt. Die Art der verwendeten Modelle, die Frage, ob Feinabstimmungswerkzeuge und andere KI-spezifische Techniken und Plugins verwendet werden, sowie die Herkunft dieser Werkzeuge und die verwendeten Daten bringen neue potenzielle Schwachstellen mit sich. Alle Interaktionen des LLM, ob innerhalb oder ausserhalb eines Systems, fügen ebenfalls neue Angriffsvektoren hinzu. Wenn Sie Ihr System durch den Einsatz autonomer Agenten zur Koordination Ihrer KI-Aufgaben komplexer gestalten, eröffnet dies eine ganze Reihe weiterer Angriffsvektoren.

Die Bedrohungslage für KI-gestützte Systeme ist eine ganz andere Dimension, die mit den bisher verwendeten IT-Sicherheitsrahmenwerken nicht vollständig abgedeckt werden kann. Es kommt ständig zu Vorfällen und Exploits, wichtige Datenschutzprobleme und Risiken für die Inhaltssicherheit, ganz zu schweigen vom gesamten Bereich des Adversarial-Machine-Learning – das Durchsickern von Daten, die während des Trainings oder der Interaktionen verwendet wurden, die Einführung von Verzerrungen, Halluzinationen usw.

Ein aussagekräftiger Fall ist der der KI-basierten Codierungssoftware von Antigravity, die versehentlich das Laufwerk D: eines Benutzers gelöscht hat, ohne dazu die Erlaubnis erhalten zu haben, da der Umfang der Aktionen von den KI-Agenten leider falsch interpretiert wurde.

Ebenso wurde gezeigt, dass die Skills-Funktion in Claude, mit der Benutzer benutzerdefinierte Codemodule in das LLM einfügen können, böswilligen Benutzern ermöglicht, mit geringem Aufwand Malware einzusetzen: Sie fügen einfach einen kurzen und scheinbar harmlosen Code in eine Skill ein (die von jedem Claude-Benutzer verwendet werden kann), der unbemerkt externen Code (z. B. Malware) herunterlädt und ausführt, ohne dass die Sicherheitsvorkehrungen von Claude eine Warnung auslösen.

Diese Fälle zeigen, wie sich der Umfang schnell ändern kann, von lokalen Anwendungsschwachstellen bis hin zur potenziellen Gefährdung eines gesamten Systems.

Schritte zur Sicherheit von KI-Systemen

Es gibt keine einfache Lösung, und auf verschiedenen Ebenen entstehen unterschiedliche Standards, Leitfäden und Gesetze, sei es von privaten Unternehmen oder staatlichen Organisationen. Daher scheint es keinen einheitlichen globalen Standard für die Sicherung von KI-Systemen zu geben, sodass Praktikern kein klarer Weg zur Bewertung und Verbesserung der Sicherheit ihrer KI-Systeme zur Verfügung steht.

Wie jedoch in diesem Artikel über LLM-Sicherheitsrahmenwerke dargelegt wird, haben mehrere Initiativen bereits hilfreiche Leitlinien in dieser Richtung vorgelegt.

Zum Beispiel schafft den EU AI Act einen ersten ambitionierter und umfassenden Rechtsrahmen für KI. Es wird eine Pyramide mit vier Stufen gesellschaftlicher Risiken eingeführt, die mit einer Reihe von Regeln und Sanktionen verbunden sind. Dies ist ein grosser Schritt in Richtung Sensibilisierung und Regulierung von KI-Systemen.

Ausserdem zielt das NIST AI Risk Management Framework darauf ab, einen strukturierten Ansatz zu bieten, um KI-Systeme vertrauenswürdig zu machen. Es folgt vier iterativen Kernfunktionen: “Govern, Map, Measure und Manage”. Es hilft dabei, KI-Risiken auf systematischer und managementbezogener Ebene anzugehen.

Schliesslich gibt es noch den Donut of Defense (auch Doughnut geschrieben), der IBM in diesem Erklärvideo vorgestellt. Es wird eine Secure-by-Design-Architektur vorgeschlagen, die einen Verteidigungsring um die KI bildet. Es besteht aus vier Säulen, die zyklisch angewendet werden: “Discover, Assess, Control und Report”. Es bietet einen guten Rahmen für den Schutz und die Überwachung von KI-Systemen auf operativer Ebene.

Diese drei Elemente zusammen bilden bereits einen rechtlichen Rahmen, einen Prozess und eine technische Umsetzung zur Kontrolle der Sicherheit eines KI-Systems.

Fazit

Die Bewertung der Sicherheitslage von KI-Systemen ist eine komplexe Aufgabe und definitiv nicht mit einem einmaligen kurzen Penetrationstest zu bewältigen. KI-Systeme sind von Natur aus dynamisch, lernen kontinuierlich aus den Daten, mit denen sie gefüttert werden, und ihre sich schnell entwickelnde Landschaft macht Bedrohungsmodelle immer komplexer. Ein kontinuierlicher Adversarial-Defense-Ansatz, bei dem ein Red Team neue Schwachstellen aufdeckt und ein Blue Team reaktiv mit adaptiven Gegenmassnahmen darauf reagiert, scheint der geeignetste Weg zu sein, um die Sicherheit von KI-Systemen zu gewährleisten.

Für alle, die gerne komplexe Probleme lösen, bietet dieser Bereich sicherlich unendlich viele spannende Herausforderungen. Wer sich in die Welt der KI wagen möchte, kommt nicht umhin, die damit verbundenen Sicherheitsprobleme zu berücksichtigen und sich ihrer bewusst zu werden.

KI verändert unsere Sichtweise auf Sicherheit, und die Integration von LLMs in Anwendungen und Arbeitsabläufe sollte als ehrgeiziges Sicherheitsvorhaben betrachtet werden. Diese neuen Systeme erfordern eine kontinuierliche Überwachung, Prüfung und Anpassung auf jeder Ebene und in jeder Phase ihres Lebenszyklus.

Grosse Innovation bringt grosse Verantwortung mit sich.

Über die Autorin

Lucie Hoffmann

Lucie Hoffmann hat einen Bachelor in Informations- und Kommunikationssystemen an der EPFL abgeschlossen, um danach einen Master in Cybersecurity an der EPFL und der ETH zu absolvieren. Während ihrer Masterarbeit konnte sie Erfahrungen mit der neuen Netzwerkarchitektur SCION sammeln. Heute konzentriert sie sich als Analystin auf die Sicherheit von Webapplikationen.

Links

Sie wollen eine KI evaluieren oder entwickeln?

Unsere Spezialisten kontaktieren Sie gern!

×
Red Team Assessment, Ihre Firma aus der Perspektive eines Gegners

Red Team Assessment, Ihre Firma aus der Perspektive eines Gegners

Baseline Security Assessment, Attack Simulation Assessment, Red Team Assessment, Purple Team Assessment. Unser Red Team ist Ihr richtiger Partner.

Sie wollen mehr?

Weitere Artikel im Archiv

Technologien zur Verbesserung der Privatsphäre

Technologien zur Verbesserung der Privatsphäre

Lucie Hoffmann

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv