
Editorial
April 2026: Anpassungsfähigkeit
Im Jahr 2009 wurden in Schottland elf Biber ausgewildert. Ein Projekt, das zunächst mit Vorsicht, Skepsis und vielen offenen Fragen begleitet wurde. Würden sie sich anpassen? Würde das Ökosystem profitieren oder aus dem Gleichgewicht geraten? Heute, Jahre später, gilt dieses Vorhaben als Erfolgsgeschichte. Die Biber haben nicht nur überlebt, sie haben Landschaften revitalisiert, Wasserläufe stabilisiert und neue Lebensräume geschaffen.
Doch dieser Erfolg war kein Zufall. Er war das Ergebnis einer soliden Grundlage: sorgfältige Planung, wissenschaftliche Begleitung und die Bereitschaft, unterwegs nachzujustieren. So mussten beispielsweise Zugänge für wandernde Lachse berücksichtigt und angepasst werden. Statt das Projekt infrage zu stellen, wurden Herausforderungen als Teil des Prozesses verstanden.
Diese Geschichte ist erstaunlich aktuell, wenn wir auf die Welt der IT und die rasante Entwicklung der Künstlichen Intelligenz blicken. Auch hier stehen wir vor Unsicherheiten. Technologien verändern sich schnell, Anforderungen wachsen, und nicht jede Entscheidung lässt sich von Anfang an perfekt treffen. Der Druck, alles richtig zu machen, ist gross. Ist das der falsche Massstab?
Wie bei den Bibern in Schottland geht es nicht darum, von Beginn an ein starres, fehlerfreies System zu erschaffen. Es geht darum, eine tragfähige Basis zu legen: klare Prinzipien, saubere Architekturen, verantwortungsbewusste Nutzung von Daten und eine Kultur des Lernens. Wenn diese Grundlage stimmt, entsteht etwas Entscheidendes: Anpassungsfähigkeit.
Gerade im Kontext von KI erleben wir, wie schnell sich Rahmenbedingungen verschieben. Was heute als Best Practice gilt, kann morgen schon überholt sein. Wer hier erfolgreich sein will, braucht weniger die perfekte Vorhersage als vielmehr die Fähigkeit zur kontinuierlichen Justierung. Systeme müssen beobachtet, bewertet und weiterentwickelt werden, so wie die schottischen Gewässer, die mit den neuen Bewohnern in Einklang gebracht wurden.
Die Botschaft ist ermutigend: Unsicherheit ist kein Zeichen von Schwäche, sondern ein natürlicher Bestandteil von Entwicklung. Entscheidend ist, wie wir damit umgehen. Mit Neugier statt Angst. Mit Verantwortung statt Aktionismus. Und mit dem Vertrauen, dass ein gut durchdachtes Fundament auch unerwartete Veränderungen tragen kann.
Die elf Biber von damals erinnern uns daran, dass Fortschritt selten geradlinig verläuft. Aber er ist möglich, wen wir bereit sind, zuzuhören, zu lernen und unseren Weg immer wieder anzupassen.
Greifen Sie auf unser Wissen, unsere Erfahrungen und unsere Ressourcen zurück. Wir unterstützen Sie professionell. Wir freuen uns sehr Sie zu unserer Leserschaft zählen zu dürfen, herzlichen Dank von der gesamten scip AG. Viel Spass beim lesen und durchstöbern des aktuellen scip monthly Security Summary.

Red Team Assessment, Ihre Firma aus der Perspektive eines Gegners
Baseline Security Assessment, Attack Simulation Assessment, Red Team Assessment, Purple Team Assessment. Unser Red Team ist Ihr richtiger Partner.
News
Das ist bei uns passiert
SRF Dok
Ein Mensch begegnet seiner digitalen Kopie und damit sich selbst. Mit Unterstützung von ETH-Forschern lässt sich ein Schauspieler in einem Experiment virtuell klonen und wird dabei mit fundamentalen Fragen zu seiner eigenen Identität konfrontiert. Im Dokumentarfilm Mein Avatar und Ich lässt sich der Schweizer Schauspieler Bastian Inglin digital klonen. Gesicht, Stimme, Mimik, aber auch Charakterzüge und biografische Details werden rekonstruiert. Möglich wird dies durch modernste Technologien an der ETH Zürich. Doch bald geht es nicht mehr nur um ein technisches Spiegelbild. Denn die digitale Kopie könnte schöner, souveräner, kontrollierter als das Original sein. Unsere Forscherin Marisa Tschopp hat den Schauspieler begleitet bei seiner digitalen Transformation.
Was dabei herauskam kann man nun auf SRF Play sehen oder bei der Erstausstrahlung am 12.04.2026 auf SRF 1.
Die scip AG unterstützt Unternehmen bei der menschenzentrierten Gestaltung von KI. Von Workshops und Keynotes bis hin zu Security- und Medienstrategien. Gemeinsam gestalten wir eine KI, die dem Menschen dient. Profitieren auch Sie und Ihre Firma von unserem Wissen im Themenbereich der künstlichen Intelligenz.
Herzliche Gratulation an Dr. Marisa Tschopp zur Fachleitung Mensch & KI am Department Angewandte Psychologie der ZHAW
Ab dem 1. April 2026 leitet Dr. Marisa Tschopp den Fachbereiche Mensch & KI im Department Angewandte Psychologie der ZHAW Zürcher Hochschule für Angewandte Wissenschaften.
Die gesamte scip AG ist stolz auf Dich, Marisa!
Insbesondere freut es uns, dass uns Dr. Marisa Tschopp auch in Zukunft als Mitarbeiterin der scip AG erhalten bleibt. Bei Anfragen für Keynotes und Workshops senden Sie diese wie gewohnt an die scip AG, wir sind gerne für Sie da.
Wir unterstützen Firmen mit Erfahrung und Wissen im Themenbereich der künstlichen Intelligenz ganzheitlich.
Podcast Popcorn & Finanzen von PostFinance AG mit Teilnahme von Marc Ruef
In dieser Folge des PostFinance Podcasts Popcorn & Finanzen, spricht Host Stephan Lendi mit unserem Marc Ruef und Felipe Garcia (Customer Security, PostFinance) über den Umgang mit digitalen Daten im Alltag und darüber, wie eng digitale Identität, Sicherheit und finanzielle Risiken zusammenhängen.
Deine Daten, dein Geld: Wie viel Kontrolle hast du wirklich?
Daten teilen gehört heute zum Alltag. Beim Online-Shopping, in Apps, bei Logins oder digitalen Services. Die entscheidende Frage ist längst nicht mehr, ob Daten fliessen, sondern unter welchen Bedingungen: Wer hat die Kontrolle? Was bedeutet Einwilligung wirklich? Und verstehen wir eigentlich, wozu wir Ja sagen? Anhand konkreter Alltagsszenarien, von Budget-Apps über Online-Shopping bis hin zu Phishing-Versuchen, wird deutlich, wie schnell Bequemlichkeit zur Sicherheitslücke werden kann. Gleichzeitig zeigen die Gäste, dass es keine Perfektion braucht, sondern vor allem Bewusstsein und einfache Gewohnheiten: kurz innehalten, hinterfragen, entscheiden.
Verbessern wir die Cybersecurity gemeinsam.
Fachartikel
Aktuelle Erkenntnisse
Einleitung
Im November letzten Jahres veröffentlichte Anthropic einen Bericht über das, was sie als den ersten dokumentierten gross angelegten Cyberangriff beschrieben, der grösstenteils von autonomen KI-Agenten orchestriert und ausgeführt wurde. Der Angriff, der vermutlich von einer chinesischen staatlich geförderten Hackergruppe namens GTG-1002 orchestriert wurde, nutzte ein Setup auf Basis von Anthropics KI-Agent Claude. Das Ziel war Cyberspionage gegen etwa 30 Ziele, von Technologieunternehmen bis hin zu Regierungsbehörden, wobei die KI schätzungsweise 80-90% der taktischen Operationen eigenständig übernahm. Die Angriffe folgten dem üblichen Advanced Persistent Threat (APT) Playbook: Aufklärung, Diebstahl von Anmeldedaten und laterale Bewegung, um Daten zu sammeln und zu exfiltrieren. Die Angreifer verwendeten keine ausgefeilte, massgeschneiderte Schadsoftware oder Zero-Day-Exploits, sondern lediglich quelloffene Tools, die der breiten Öffentlichkeit zugänglich sind.
Ihr Setup war tatsächlich so einfach, dass wir ohne grossen Aufwand eine vereinfachte Replik davon erstellen konnten. Es entsprach nicht genau dem Original, funktionierte jedoch gut genug, um es gegen absichtlich verwundbare Maschinen zu testen und dabei einiges über KI-gestütztes Pentesting zu lernen.
Wie gut ist KI beim Hacking?
Bevor wir auf die Details unseres Setups und dessen Funktionsweise eingehen, müssen wir einen Blick auf die aktuelle Landschaft der KI-gestützten Cyberangriffe werfen, sowohl in der Forschung als auch in der Praxis.
Die GTG-1002-Fallstudie
Wie in der Einleitung erwähnt, legte Anthropic im November 2025 offen, was als erster gross angelegter, hauptsächlich von KI durchgeführter Cyberangriff gilt. Die GTG-1002 Hacker verwendeten ein Setup, bei dem eine Claude-Instanz (mit dem Modell Opus 4.6) als Koordinator fungierte, während mehrere andere KI-Subagenten die Rolle von Arbeitern übernahmen. Die koordinierende KI teilte den Angriff in kleinere Phasen auf, gab ihren Subagenten Anweisungen, aggregierte deren Ergebnisse und präsentierte sie den menschlichen Operatoren, die den Angriff dann ohne direkte taktische Ausführung steuerten.

Die KI in diesem Angriff war nicht vollständig autonom: Menschen mussten die Ziele auswählen, Angriffe verketten, die KI führen und die Fehler korrigieren, die den LLMs gelegentlich unterliefen. Während dieser letzte Punkt vielleicht nicht besonders wichtig erscheint — schliesslich machen auch Menschen ständig Fehler — ist er entscheidend für die künftige Rolle der KI in der Cybersicherheit. Wie Anthropic selbst berichtet, halluzinierte Claude und übertrieb Befunde häufig: Es behauptete, gültige Anmeldedaten gefunden zu haben, die in Wirklichkeit nicht funktionierten, oder stufte Befunde als hochkritisch ein, die sich dann als öffentlich zugängliche Informationen herausstellten. Dies verhinderte die Möglichkeit eines vollständig autonomen Angriffs in diesem Ausmass und zwang menschliche Operatoren, die Operation zu überwachen und die KI auf den vorgesehenen Kurs zurückzubringen. Eine Schlussfolgerung aus diesem Ereignis ist daher: Solange KI-Halluzinationen ein Problem bleiben, werden gross angelegte Cyberangriffe stets ein gewisses Mass an menschlicher Aufsicht erfordern.
CodeWalls vollautonomer Angriff
Der GTG-1002-Angriff zeigte, wozu KI mit menschlicher Unterstützung heute in der Lage ist. Aber wie gut ist sie, wenn sie auf sich allein gestellt ist? In anderen aktuellen Cybersicherheitsnachrichten berichtete das Sicherheits-Startup CodeWall, dass es vollen Lese- und Schreibzugriff auf eine Produktionsdatenbank der Unternehmensberatung McKinsey erlangt habe. Der CEO von CodeWall behauptete, der Angriff sei vollständig von einem KI-Agenten ohne menschliche Eingriffe durchgeführt worden. Der Agent schlug McKinsey offenbar sogar selbst als mögliches Ziel vor, nachdem er erfahren hatte, dass es kürzlich Aktualisierungen an McKinseys Infrastruktur gegeben hatte. CodeWalls Forscher richteten den KI-Agenten einfach auf McKinsey aus, und nur wenige Stunden später, ohne vorherige Anmeldedaten oder besonderen Zugang, gelang es ihnen, die Schwachstelle auf McKinseys Seite zu identifizieren und zu bestätigen.
Obwohl dies zeigt, dass vollautonome Exploits möglich sind, erkennt man bei näherer Betrachtung dieses Vorfalls, dass die Komplexität dieses Angriffs nicht sehr hoch war und der wichtigste Beitrag des KI-Agenten darin bestand, einen nicht authentifizierten, öffentlich zugänglichen API-Endpunkt zu identifizieren. Der Exploit selbst war eine einfache SQL-Injection, wobei der Server sogar SQL-Fehlermeldungen als Antwort auf fehlerhafte Anfragen zurückgab. Im Wesentlichen ermöglichte die KI dem Sicherheits-Startup, in kurzer Zeit eine sehr grosse Angriffsfläche abzudecken und mögliche Schwachstellen zu entdecken. Dies bestätigt ein Muster, das wir bei unseren Tests beobachtet haben: KI-Agenten sind bemerkenswert effektiv darin, die Breite einer Angriffsfläche abzudecken, haben jedoch Schwierigkeiten, wenn die Ausnutzung Tiefe erfordert, also bei mehrstufigen Angriffen, bei denen jede Aktion vom Ergebnis der vorherigen abhängt.
Was sagt die Forschung dazu?
Diese Erkenntnisse wurden auch durch ein Paper einer Gruppe von Sicherheitsforschern am AI Security Institute in Grossbritannien bestätigt. Sie testeten verschiedene Modelle mit zunehmendem Token-Budget gegen zwei simulierte Ziele ohne menschliche Aufsicht.
Zunächst bestätigten sie, was wir in den letzten Jahren alle beobachtet haben: Jede neue Modellgeneration übertraf ihre Vorgänger deutlich. Das leistungsstärkste Modell war eindeutig Anthropics Opus 4.6 (dasselbe, das von GTG-1002 bei den gross angelegten Angriffen verwendet wurde). Im besten Durchlauf löste es 22 von 32 Gesamtschritten in einer der beiden Zielanwendungen, mit einem Durchschnitt von 15,6 Schritten über fünf Durchläufe. Die hohe Varianz bei der Schrittabschlussrate ist kein positives Zeichen für die KI, da sie darauf hindeutet, dass die Ergebnisse selbst unter identischen Bedingungen erheblich variieren können. Obwohl das Paper dies nicht erwähnt, könnten KI-Halluzinationen eine mögliche Erklärung dafür sein, warum einige Durchläufe weniger erfolgreich waren. Ohne menschliche Führung konnte die KI Fehler nicht korrigieren und steckte letztlich fest.

Ein weiterer sehr interessanter Befund war, dass die Leistung des Agenten bis zu den getesteten 100 Millionen Tokens log-linear mit den Token-Kosten korrelierte. Die Studie ergab, dass eine Verzehnfachung der Tokens von 10 auf 100 Millionen einem Anstieg der gelösten Schritte von etwa 59% entspricht. Das bedeutet: Selbst wenn es keine Obergrenze für die Angriffskomplexität gäbe, die ein Modell bewältigen kann, skalieren die Kosten exponentiell. Einige Modelle hatten jedoch eine Obergrenze für die Anzahl der Schritte, die sie abschliessen konnten, unabhängig von der Anzahl der verbrauchten Tokens. GPT-4o beispielsweise kam unabhängig vom Token-Verbrauch nicht über Schritt 3 hinaus. Diese log-lineare Korrelation zwischen Angriffslänge und Token-Kosten bestätigt die Einschätzung, dass diese Modelle Schwierigkeiten haben, mehrere Schritte zu verketten, um lange Exploits durchzuführen.
Unsere Erfahrungen
Bevor wir die Agenten mit unserem Setup getestet haben, waren die Erwartungen nicht besonders hoch. Wir nutzten KI gelegentlich zur Unterstützung bei alltäglichen Aufgaben, doch häufig war sie entweder völlig nutzlos oder erforderte so viel Debugging und Aufwand unsererseits, dass es einfacher gewesen wäre, die Aufgabe ohne KI zu erledigen. Anfangs sah es so aus, als ob unser Instinkt richtig lag: Die KI steckte bei den grundlegendsten Dingen fest, erholte sich nicht von einfachen Fehlern und versuchte überkomplizierte Lösungen für relativ einfache Probleme. Zudem hatte sie erhebliche Schwierigkeiten im Umgang mit interaktiven Sitzungen und Befehlen, die keine Ausgabe lieferten. Obwohl sie die anfängliche Hauptarbeit wie das Identifizieren laufender Dienste, die Suche nach bekannten Schwachstellen und die Bereitstellung einer klaren, strukturierten Übersicht über das Ziel wirklich gut und schnell erledigte, hatte sie offensichtliche Probleme, wenn die Komplexität der Aufgaben zunahm. Durch etwas Unterstützung gelang es uns jedoch, ihre Ergebnisse deutlich zu verbessern.
Ein entscheidender Faktor für die Leistung der KI ist der verwendete System-Prompt. Indem wir ihr einen strengen Satz von Engagement-Regeln und eine Referenz für die Durchführung des Angriffs sowie den Umgang mit Fehlern und interaktiven Shell-Sitzungen zur Verfügung stellten, hörte die KI auf, Zeit (und Tokens) in endlosen Wiederherstellungsschleifen zu verschwenden, Dinge zu tun, die sie nie tun sollte, oder auf Befehle zu warten, die nie eine Ausgabe liefern würden. Das ist nicht so einfach, wie wir zunächst dachten, aber wir stellten fest, dass KI durchaus gut darin ist, ihre eigenen Prompts zu schreiben. Wir konnten ihre Leistung verbessern, indem wir sie baten, den System-Prompt nach jedem Durchlauf zu aktualisieren und so iterativ weiterzuentwickeln. Darüber hinaus fügten wir eine weitere Ebene hinzu: Wir wiesen die KI an, die gemachten Fehler und deren Lösungen in einem Dokument festzuhalten, das sie vor jeder Interaktion lesen musste. Dies verhinderte, dass sie immer wieder dieselben Fehler machte und stecken blieb.
Zu diesem Zeitpunkt war das Lösen leichter bis mittelschwerer Capture-the-Flag (CTF) Challenges recht unkompliziert. Wir wollten jedoch das KI-Koordinator/Arbeiter-Setup aus dem GTG-1002-Angriff ausprobieren. Dabei stellten wir fest, dass die Verwendung von Claude Code für diese Art von Experimenten weitaus effektiver war als die Desktop-Version. Die Code-Version kann längere Sitzungen ausführen und ist besser in die Werkzeuge der angreifenden Maschine integriert. Dieses Setup erleichterte die Verwaltung der Angriffe auf unserer Seite und beschleunigte die Durchführung, da mehrere KIs parallel verschiedene Dinge ausprobieren konnten. Es ermöglichte uns jedoch nicht, komplexere Challenges zu lösen. Am Ende des Tages galt: War eine Challenge für die KI allein zu schwer, war sie auch für mehrere KI-Instanzen zu schwer.

Beim Aufbau dieser Leader/Worker-Infrastruktur entdeckten wir auch einen kleinen Trick zur Verbesserung der Token-Effizienz: Das Opus-4.6-Modell für die koordinierende KI zu verwenden, aber Sonnet 4.6 für die Arbeiter. Aufgrund des nichtdeterministischen Charakters der KI liess sich nicht messen, um wie viel effizienter diese Konfiguration war, aber sie war schneller als der Einsatz eines einzelnen Agenten und kostengünstiger als der Einsatz mehrerer Opus-Instanzen. Aufgrund des Koordinationsaufwands zwischen den Agenten ist diese Konfiguration jedoch immer noch teurer als die Verwendung nur einer KI-Instanz. Da Sonnet über gute Cybersicherheitsfunktionen mit lockeren Token-Ratenbeschränkungen verfügt, ermöglichte uns diese Konfiguration schnellere Angriffe, die weiterhin vom überlegenen Opus-Modell orchestriert wurden, ohne an die strengeren Ratenbeschränkungen zu stossen, die Anthropic dafür vorschreibt. Gelegentlich musste Opus einspringen und die Exploits selbst versuchen, wenn die Aufgaben für Sonnet zu komplex wurden, aber grösstenteils erledigte Sonnet die Arbeit korrekt.
Es war definitiv lehrreich und interessant, all dies zu testen. Es sei jedoch darauf hingewiesen, dass dieser Trick zwar in unserem lokalen Setup bei CTF-Challenges und absichtlich verwundbaren Maschinen funktionierte, dies aber nicht bedeutet, dass es in einer realen Umgebung mit wesentlich komplizierteren Systemen und Nutzern in Echtzeit genauso funktionieren würde. Darüber hinaus fehlte bei unseren Experimenten jegliche Verteidigungsstrategie. Die Systeme wiesen absichtliche Schwachstellen auf, und es wurde keinerlei Einbruchserkennung oder -prävention durchgeführt. KI muss einen Weg finden, dieses Hindernis zu überwinden, wenn sie im offensiven Bereich der Cybersicherheit breiter eingesetzt werden soll.
Fazit — Wird KI die Cybersicherheit übernehmen?
Dies ist die ultimative Frage, die wir in den vergangenen Wochen zu beantworten versuchten. Nach allem, was wir gesehen und gelesen haben, scheint es so, dass die aktuellen Probleme der KI nicht so schnell verschwinden werden, selbst wenn die Modelle besser und die Tokens günstiger werden. Sowohl der GTG-1002-Fall als auch das Forschungspaper deuten darauf hin, dass KI beim Hacking nicht besser ist als ein menschlicher Angreifer, aber schneller sein und grosse Angriffsflächen effizienter abdecken kann. Wir glauben jedoch nicht, dass wir kurz davor stehen, dass sie Menschen in diesem Kontext ersetzt.
In unseren Experimenten war menschliche Führung entscheidend für das Lösen anspruchsvollerer Challenges. Darüber hinaus verhinderten Halluzinationen nicht nur gelegentlich, dass die KI in der Angriffskette vorankam, sondern gefährdeten manchmal sogar die Operation, indem sie versuchten, den Angriff auf andere, nicht autorisierte Ziele auszuweiten. Dies war ein grosses Warnsignal, das uns daran erinnerte, dass das Modell, mit dem wir sprachen, trotz seines Anscheins als intelligentes Wesen nur ein statistisches Modell war, das kein Konzept davon hatte, was passierte oder was es tat. Es erinnerte uns auch daran, dass KI letztlich nur ein (sehr mächtiges) Werkzeug ist, das von jemandem für etwas eingesetzt werden muss. Je erfahrener und kompetenter der Bediener, desto besser die Ergebnisse. Am Ende des Tages wird die Rolle, die KI in der Cybersicherheit spielen kann, von den Menschen definiert, die sie einsetzen, und von ihrer Fähigkeit, sie zu nutzen.
Wir werden zweifellos mehr KI-Einsatz bei Cyberangriffen sehen, aber wir glauben nicht, dass sich die Natur der Bedrohungen wesentlich verändern wird. Hauptsächlich wird KI die Geschwindigkeit und das Ausmass von Angriffen beeinflussen. KI-Agenten werden keine Schwachstellen finden, die ein erfahrener Mensch nicht auch finden könnte, sie werden sie lediglich schneller und über eine grössere Fläche hinweg entdecken. Wenn Ihre Systeme bereits abgesichert sind, wird KI daran nichts ändern. Wenn Sie jedoch Schwachstellen haben, mit denen Sie bisher unbemerkt durchgekommen sind, weil niemand die Zeit hatte, sie zu suchen, schliesst sich dieses Fenster.
Sind Sie bereit?
Unsere Spezialisten kontaktieren Sie gern!
Penetration Testing oder allgemein Security Testing ist die gezielte Suche nach Schwachstellen, um das Sicherheitsniveau einer IT-Umgebung einzuschätzen und entsprechend informierte Entscheidungen treffen zu können. Was so einfach und einleuchtend klingt, ist in der Praxis oft viel komplexer und häufig bei weitem nicht so klar definiert, wie es den Anschein machen kann.
Penetration Tests sind eine etablierte und bekannte Praxis im Gebiet der Informationssicherheit. In vielen Sicherheitsprogrammen sind sie ein fester Bestandteil und verschiedene Branchenstandards und Aufsichtsbehörden schreiben die regelmässige Durchführung von Penetration Tests vor. Dies ist erfreulich, weil damit ein sehr effektives Mittel zur Steigerung des Sicherheitsniveaus allgemeine Verbreitung gefunden hat, gleichzeitig besteht die Gefahr, durch einen Gewöhnungseffekt Penetration Tests nicht mit der nötigen Sorgfalt zu betrachten oder nur als reine Compliance-Aufgabe zu sehen.
Dieser Beitrag geht auf ein paar einfache, aber essenzielle Punkte ein, die massgeblich zum Erfolg und zum Nutzen von Security Tests beitragen. Im Bereich der offensiven Informationssicherheit sind viele Begriffe wie Penetration Testing, Ethical Hacking, Red Teaming usw. anzutreffen. Für diesen Beitrag wird der Begriff Security Testing allgemein verwendet und bezieht sich auf das ganze Spektrum des offensiven Sicherheitstestens.
Wozu Security Testing?
Einfach gesagt: Um das tatsächliche Sicherheitsniveau eines IT-Systems, einer IT-Umgebung oder gar einer ganzen Organisation zu bestimmen. Es geht darum, mit möglichst grosser Realitätsnähe herauszufinden, was bei echten Angriffen geschehen kann, wie weit ein Angreifer kommen könnte und was die daraus erwachsenden Schäden sein können. Es werden also die effektiv vorhandenen Sicherheitsmassnahmen einer Realitätsprüfung unterzogen, wodurch Schwachstellen und potenzielle Lücken ermittelt werden, die von echten Angreifern ausgenutzt werden könnten.
Mit den so gewonnenen Erkenntnissen können Risiken realistisch eingeschätzt werden und Entscheidungen über zu treffende Massnahmen werden unterstützt, womit eine Organisation ihr Sicherheitsniveau optimieren kann. Regelmässig durchgeführtes Security Testing kann einen wesentlichen Beitrag zur Reduktion der Gefahr von Sicherheitsvorfällen und Datenlecks leisten.
Man kann die Frage stellen, wozu es heutzutage angesichts der riesigen Zahl an Sicherheitsprodukten und Services überhaupt noch Security Testing braucht. Die Antwort ist einfach: Die Effektivität von Sicherheitsmassnahmen kann nicht ausreichend beurteilt werden, ohne sie getestet zu haben. Ausserdem ist die IT in besonderem Mass ständigem Wandel unterworfen, dementsprechend müssen Sicherheitsvorkehrungen laufend angepasst und geprüft werden. Die Redewendung “Vertrauen ist gut, Kontrolle ist besser!” gilt ganz besonders für die Informationssicherheit.
Hypothese und Experiment
Die klassische Vorgehensweise der wissenschaftlichen Methode mit den Definitionen von Hypothese und Experiment lassen sich sehr gut auf das Security Testing anwenden. Dies ist wertvoll, weil damit Voraussetzungen und Erfolgsfaktoren besser hervortreten.

Eine Hypothese ist eine unbewiesene Aussage oder Annahme von Tatsachen oder Gesetzmässigkeiten. Eine Hypothese ist meistens aus einer Theorie abgeleitet, im betrachteten Kontext beispielsweise: Sichere Entwicklungsprozesse bedeuten sichere Software, Best Practices funktionieren, Sicherheitsprodukte schützen ausreichend, Compliance bedeutet Sicherheit und so weiter. Entsprechende Hypothesen können sein: Es sind ausreichend Sicherheitsmassnahmen umgesetzt, deshalb ist die Umgebung sicher, das eingekaufte Produkt ist sicher, die Organisation ist sicher, weil sie compliant ist, das System ist so abgeschottet, dass es für Angreifer unerreichbar ist.
Ein Experiment ist eine methodisch angelegte Untersuchung zur empirischen Gewinnung von Informationen. Das ist genau der Anspruch eines Penetration Tests. Der Wert eines Experiments bemisst sich durch die Korrektheit, Verwendbarkeit und Nützlichkeit der gewonnenen Informationen. Mit diesen Informationen werden Fragen beantwortet, das heisst, sie bestätigen oder widerlegen die aufgestellte Hypothese. Damit wird unmittelbar klar, dass alles mit der geeigneten Fragestellung beginnt.
Geeignete Fragen im Zusammenhang mit Security Tests können sein:
- Kann sich ein Angreifer Zugang zu sensitiven Daten oder Systemen verschaffen?
- Existieren bekannte Schwachstellen in den eingesetzten Technologien?
- Wurde das Notwendige getan, um ein angemessenes Sicherheitsniveau zu etablieren?
- Sind die geltenden Sicherheitsvorgaben erfüllt?
- Wurde das Konzept richtig umgesetzt und funktioniert es in der Praxis?
- Kann ein vorhandenes Bedenken widerlegt oder bestätigt werden?
- Funktionieren die sicherheitsrelevanten Prozesse?
- Wie schwierig oder wie einfach ist es für einen Angreifer, erfolgreich zu sein?
- Sind die Detektions- und Reaktionsmechanismen ausreichend leistungsfähig?
Beim Planen von Penetration Tests wird dies gerne zu wenig berücksichtigt. Oft ist nicht ausreichend geklärt, welche Fragen ein Security Test beantworten soll und wozu die Antworten dienen sollen. Der Vorbereitungs- und Planungsphase hat deshalb beim Security Testing einen besonders hohen Stellenwert und darf nicht vernachlässigt werden. Es kann für einen Auftraggeber herausfordernd sein zu wissen, welche Möglichkeiten bestehen, welche Einschränkungen vorhanden sind und welche Punkte beachtet werden müssen. Wird dies zu wenig beachtet oder zu ungenau abgemacht, besteht die Gefahr, dass Geld für einen zu wenig nützlichen Test ausgegeben wird oder die Ressourcen nicht zielführend eingesetzt werden können oder der Test wiederholt werden muss. Ein erfahrener Dienstleister unterstützt und berät in dieser Phase neutral und sachlich und sorgt dafür, dass vor der Beauftragung gemeinsam geklärt ist, welche Fragen der Test beantworten soll und welche Mittel dafür angewendet werden.
Schliesslich ist ein Penetration Test nur ein Mittel zum Zweck, nämlich Erkenntnisse zu gewinnen, mit denen Entscheidungen getroffen werden können. Üblicherweise werden diese Erkenntnisse vom Dienstleister, soweit es für ihn möglich ist, interpretiert, d.h. mit Schweregraden bewertet und es werden geeignete Massnahmen empfohlen, um die mit den Feststellungen verbundenen Risiken zu begrenzen. Anschliessend ist der Auftraggeber gefordert und muss entscheiden, was die gewonnen Erkenntnisse für ihn bedeuten und wie er damit umgeht.
Die Wichtigkeit, sich über die zu beantwortenden Fragen klar zu sein, sei nochmals betont. In diesem Zusammenhang werden nachfolgend ein paar der gängigsten Ansätze im Security Testing einander gegenübergestellt, um aufzuzeigen, welche Fragestellungen damit beantwortet werden können.
Gegenüberstellung dreier häufiger Security Testing Ansätze
Untenstehend erläutern wir nun näher verschiedene Security Testing Ansätze, darunter Penetration Testing und Red Team Testing, wie auch die Hauptunterschiede zwischen Penetration Testing und einem Bug Bounty.
Penetration Testing und Red Team Testing
Penetration Tests werden üblicherweise durchgeführt, um die Sicherheit eines Prüfobjektes mit definiertem Scope aus Sicht eines realen Angreifers zu untersuchen. Es wird geprüft, ob die im Scope befindlichen Netzwerke, Plattformen, Anwendungen, Systeme, usw. für einen Angreifer ausnutzbare Schwachstellen aufweisen. Dabei wird darauf geachtet, im Rahmen des vereinbarten Aufwands eine möglichst vollständige Untersuchung des Prüfgegenstands durchzuführen. Beispielsweise wird für Webapplikationen meist der OWASP Testing Guide verwendet, der alle für die Sicherheit von Webapplikationen relevanten Themen beinhaltet. Damit wird eine umfassende Testabdeckung angestrebt, um Teilaussagen mit eingeschränktem Nutzen zu vermeiden. Penetration Tests dienen der breiten Untersuchung eines gegebenen Scope und sind normalerweise nicht darauf ausgerichtet, unbemerkt vonstattenzugehen oder die Detektionsmöglichkeiten eines SOC zu testen.
Im Rahmen von Red Team Tests wird versucht, ausgehend von einem vereinbarten Startpunkt ein definiertes Ziel zu erreichen, beispielsweise Zugriff auf sensitive Daten oder Systeme zu erlangen. Im Unterschied zu einem Penetration Test wird hier aber der Fokus darauf gelegt, einen Angreifer zu simulieren, der sich sämtlicher sachdienlicher Mittel und Methoden bedient, um das definierte Ziel zu erreichen und dabei möglichst unentdeckt zu bleiben. Es geht also nicht darum, möglichst alle Schwachstellen eines Scope zu identifizieren, sondern Schwachstellen zu finden, die dem Vorwärtskommen hinsichtlich Zielerreichung dienen. Dementsprechend wird bei Red Team Tests das SOC oder das Blue Team in der Regel nicht vorinformiert, womit auch Aussagen über das Detektions- und Reaktionsvermögen des Auftraggebers gegenüber fortgeschrittenen Angriffen getroffen werden können. Red Team Tests sind dann sinnvoll, wenn die getestete Organisation bereits über eine gewisse Maturität in der Informationssicherheit verfügt.
| Aspekt | Penetration Testing | Red Team Testing |
|---|---|---|
| Ziel | Identifizieren und eventuell Ausnutzen von Schwachstellen in einem definierten Zielsystem, Netzwerk oder einer Anwendung. | Simulation realer Angriffe, um das Sicherheitsdispositiv und die Widerstandsfähigkeit einer Organisation zu bewerten. |
| Scope | Fokus auf spezifische Prüfobjekte, die während der Beauftragung im Scope vereinbart werden. Ein Angriffsziel wird umfassend untersucht. | Im Scope sind alle aus Angreifersicht nützlichen Angriffsziele (innerhalb der vereinbarten Spielregeln), um das definierte Ziel zu erreichen. Potenziell viele Angriffsziele werden berührt und auf ihre Verwendbarkeit hinsichtlich Zielerreichung untersucht, aber nicht notwendigerweise umfassend geprüft. |
| Vorgehensweise | Typischerweise anhand eines definierten Prüfkatalogs, beispielsweise einer Checkliste aller relevanten Testpunkte. | Verwendung von Angriffsmethoden echter Angreifer. Kreatives, exploratives Vorgehen ohne im Voraus abschliessend definierte Methoden und Werkzeuge. |
| Zeitraum | Punktuell, ein definierter Scope wird im Rahmen eines Tests zu einem bestimmten Zeitpunkt untersucht. Liefert eine umfassende Momentaufnahme. | Red Team Tests werden oft über einen längeren Zeitraum ausgedehnt, beispielsweise um nicht entdeckt zu werden. Je nach Start- und Zieldefinition beträchtlich höherer Aufwand als ein Penetration Test. |
| Häufigkeit | Meistens aufgrund eines bestimmten Auslösers, beispielsweise ein neu entwickeltes System oder eine Compliance-Anforderung. Kann relativ häufig stattfinden. | Aufgrund des vergleichsweise hohen Aufwands und der Menge an durch den Auftraggeber zu verarbeitenden Erkenntnisse, werden Red Team Tests meistens weniger häufig durchgeführt. |
| Eignung | Umfassende Bestimmung des Sicherheitszustands eines Prüfobjekts. Die Ergebnisse helfen dabei, einen bestimmten Untersuchungsgegenstand sicherer zu machen. Breite Abdeckung eines vergleichsweise kleinen Scope. | Ganzheitlicher Ansatz, um eine reale, fortgeschrittene Bedrohung auf eine Organisation zu simulieren. Die Ergebnisse helfen dabei, das Sicherheitsniveau einer Organisation insgesamt zu erhöhen. Tiefgehende Abdeckung eines vergleichsweise grossen Scope. |
Die in Penetration Tests und Red Team Tests verwendeten Methoden und Werkzeuge sind in vielen Fällen ähnlich oder sogar gleich. Bei Red Team Tests steht die Widerstandsfähigkeit einer Organisation gegenüber realen, fortgeschrittenen Angriffen im Fokus während Penetration Tests sich in der Regel auf einzelne Systeme oder Bereiche beziehen.
Penetration Testing und Bug Bounty
In den letzten Jahren haben Bug Bounty Programme zunehmend an Popularität gewonnen. Richtig aufgesetzt, können dadurch mit definiertem Maximalaufwand und in vergleichsweise kurzer Zeit wichtige Erkenntnisse gewonnen werden. Die wichtigsten Unterschiede zwischen Penetration Tests und Bug Bounties sind einander in der folgenden Tabelle gegenübergestellt.
| Aspekt | Penetration Testing | Bug Bounty |
|---|---|---|
| Scope | Grundsätzlich auf alle Arten von Testobjekten anwendbar. Auch nicht im Internet erreichbare Anwendungen und Dienste und Aspekte wie physische Sicherheit sind gut testbar. | Oft werden direkt oder indirekt im Internet erreichbare Anwendungen getestet. Rahmenbedingungen wie besonders abgeschottete Anwendungen können übliche Bug Bounty Vorgehensweisen erschweren oder verunmöglichen. |
| Interaktion | Während dem Test ist direkter Kontakt zwischen den Testern und dem Auftraggeber üblich. Eine Vorstellung der Resultate oder eine Abschlusspräsentation und Beantworten von Fragen zu Schwachstellen und empfohlenen Massnahmen ist häufig. Auch nach abgeschlossenem Penetration Test sind die Tester in der Regel für Rückfragen verfügbar. | In der Regel wenig bis keine direkte Interaktion zwischen Testern und Auftraggeber möglich, nur über die Bug Bounty Plattform. |
| Testfälle | Vollständige Testabdeckung eines Gebiets, beispielsweise OWASP im Webbereich. | Fokus auf diejenigen Themen und Schwachstellen, die den Bounty Huntern bekannt und geläufig sind und die rasch Bounties versprechen (Low Hanging Fruits). Es kann das Risiko unvollständiger Testabdeckung auftreten. |
| Zeitraum | Punktuell, ein definierter Scope wird im Rahmen eines Tests zu einem bestimmten Zeitpunkt untersucht. Liefert eine umfassende Momentaufnahme. | Je nach Ausprägung des Programms wird kontinuierlich getestet. Das kann die Form einer laufenden Sicherheitsprüfung annehmen. Gefundene Schwachstellen werden automatisch gemeldet, was ein Vorteil sein kann. |
| Reporting | Umfassender, zielgruppengerechter Bericht mit Management Summary, Einstufung der Schweregrade und allen technischen Details sowie konkrete technische Empfehlungen geeigneter Massnahmen. Es werden auch diejenigen durchgeführten Tests dokumentiert, die keine Schwachstellen zeigen. | Reporting von Schwachstellen und Empfehlungen. Keine Dokumentation von Tests, die nicht zu Schwachstellen führten. |
| Finanzielles | Definierte Kosten gemäss Scope. | Abwägen zwischen Attraktivität für die Bounty Hunter und Kosten. Ausgaben meistens abhängig von Anzahl und Art der Schwachstellen, die man nicht im Voraus kennt. Die Höhe der bezahlten Prämien hat direkten Einfluss auf das Interesse der Tester. |
| Eignung | Für einen initialen Test, beispielsweise vor einem Go-Live und bei neuen, noch wenig erprobten oder wenig ausgereiften Testobjekten ist ein individueller, auf die Anwendung abgestimmter Penetration Test zu empfehlen. Damit wird vollständige Testabdeckung erreicht. In einem Penetration Test besteht eine hohe Wahrscheinlichkeit, diejenigen Schwachstellen zu entdecken, die in einem Bug Bounty Programm hohe Kosten verursachen könnten. | Nach erfolgtem umfassendem Initialtest kann die Sicherheit kontinuierlich gefördert werden durch ein Bug Bounty Programm. Dies reduziert die anfängliche Ungewissheit über die Anzahl Schwachstellen und damit die unberechenbaren Kosten. Bug Bounty Programme sind geeignet für die kontinuierliche Überprüfung von Testobjekten, die bereits ein gewisses Sicherheitsniveau und eine relativ gute Maturität besitzen. |
Bug Bounty Programme und Penetration Tests verfolgen beide das Ziel, Schwachstellen zu identifizieren, unterscheiden sich aber in ihren Beauftragungsmodellen, Anreizen und Schwerpunktbereichen. Bug Bounty Programme nutzen das Fachwissen einer Vielzahl von Testern, bieten finanzielle Belohnungen für die Meldung von Schwachstellen und können schnelle, aber vielleicht nicht immer umfassende Ergebnisse liefern. Penetration Tests folgen einem ganzheitlichen Ansatz, bieten einfachere Interaktionsmöglichkeit mit den Testern und werden durch wenige, dedizierte Experten durchgeführt.
Fazit
Ein Security Test ist ein Experiment, das Informationen liefert und damit Fragen beantwortet. Es ist deshalb sehr wichtig, dass für den Auftraggeber und für den Auftragnehmer vor Beginn eines Security Tests Klarheit darüber gewonnen wird, welche Fragen durch den Test beantwortet werden sollen und wozu die Ergebnisse verwendet werden sollen. Dies trifft als allgemeine Feststellung auf die verschiedenen Arten von Security Tests gleichermassen zu. Ein erfahrener Dienstleister unterstützt und berät in dieser Phase neutral und sachbezogen und sorgt dafür, dass geklärt ist, welche Fragen der Test beantworten soll und welche Mittel dafür angewendet werden.
Sind Sie bereit?
Unsere Spezialisten kontaktieren Sie gern!
- Team Mirai and Democracy (schneier.com)
- The Agent Trust gap: What Our Research Reveals About Agentic AI Security (blogs.cisco.com)
- Microsoft’s ‘unhackable’ Xbox One has been hacked by ‘Bliss’ (tomshardware.com)
- Your tax forms sell for $20 on the dark web (malwarebytes.com)
- Meta will move away from human content moderators in favor of more AI (engadget.com)
- OpenAI Cofounder Deletes Controversial Analysis of Which Jobs Are Getting Steam Engined by AI (futurism.com)
- Tech hobbyist makes shoulder-mounted guided missile prototype with $96 in parts and a 3D printer (tomshardware.com)
- The Defense Department reportedly plans to train AI models on classified military data (engadget.com)
- ‘I wish I could push ChatGPT off a cliff’: professors scramble to save critical thinking in an age of AI (theguardian.com)
- An iPhone-hacking toolkit used by Russian spies likely came from U.S military contractor (techcrunch.com)
- Hardening Firefox with Anthropic’s Red Team (blog.mozilla.org)
- AI as tradecraft: How threat actors operationalize AI (microsoft.com)
- Hands-On: Is The Smartlet One Watch Bracelet The Answer To Double-Wristing? (ablogtowatch.com)
- How AI can read our scrambled inner thoughts (bbc.com)
- People are selling your home address online. This privacy tool will help (bbc.com)
- Moltbook was peak AI theater (technologyreview.com)
- Large-Scale Online Deanonymization with LLMs (simonlermen.substack.com)
- Demographic differences in how teens use and view AI (pewresearch.org)
- Vibe Password Generation: Predictable by Design (irregular.com)
- Threat modeling AI applications (microsoft.com)
- Say please? The best way to talk to an AI (bbc.com)
Sind Sie bereit?
Unsere Spezialisten kontaktieren Sie gern!
Über den smSS
Das scip Monthly Security Summary erscheint monatlich und ist kostenlos.
- Anmeldung: smss-subscribe@scip.ch
- Abmeldung: smss-unsubscribe@scip.ch
Informationen zum Datenschutz.
Eine Haftung für die Richtigkeit der Veröffentlichungen kann trotz sorgfältiger Prüfung durch die Redaktion des Herausgebers, den Redaktoren und Autoren nicht übernommen werden. Die geltenden gesetzlichen und postalischen Bestimmungen bei Erwerb, Errichtung und Inbetriebnahme von elektronischen Geräten sowie Sende- und Empfangseinrichtungen sind zu beachten.
Über scip AG
Wir überzeugen durch unsere Leistungen. Die scip AG wurde im Jahr 2002 gegründet. Innovation, Nachhaltigkeit, Transparenz und Freude am Themengebiet sind unsere treibenden Faktoren. Dank der vollständigen Eigenfinanzierung sehen wir uns in der sehr komfortablen Lage, vollumfänglich herstellerunabhängig und neutral agieren zu können und setzen dies auch gewissenhaft um. Durch die Fokussierung auf den Bereich Information Security und die stetige Weiterbildung vermögen unsere Mitarbeiter mit hochspezialisiertem Expertenwissen aufzuwarten.


