Textanalysen mit textrecon

von Marc Ruef

Lesezeit: 6 Minuten

Das textrecon project wurde Anfang 2008 ins Leben gerufen. Bei diesem wird sich darum bemüht, mittels statistische Analysen von Texterzeugnissen unterschiedlichen bzw. gleichen Autoren zuordnen zu können. Dies ist in zweierlei Hinsicht von Nutzen:

Erkennen von Plagiaten (z.B. Semesterarbeiten)
Identifikation von anonymen Mitteilungen (z.B. Erpressung)

Dieses Projekt wird nach wie vor vorangetrieben. Tatsächlich existiert seit Mitte 2008 eine funktionierende Implementierung. Die in PHP geschriebene Testversion führt verschiedene statistische Analysen aus, um einen Fingerabdruck des Textes erzeugen zu können. Dieser Fingerabdruck lässt sich dann mit anderen Texten vergleichen.

Von einer Veröffentlichung der genannten Implementierung wird abgesehen, weil diese noch nicht die gewünschte Einfachheit in Bezug auf die Handhabung bereitzustellen in der Lage ist. Der Nutzer muss sehr viel Verständnis für die interne Funktionsweise der Software und der durch sie applizierten Fingerprint-Mechanismen aufbringen, um einen Nutzen aus den dargelegten Resultaten ziehen zu können.

textrecon arbeitet mit einer Vielzahl unterschiedlicher Tests, die in die folgenden Kategorien aufgeteilt sind:

Basic Data: Hier werden allgemeine Informationen zum Text, zum Beispiel dessen Länge oder die Anzahl Wörter dokumentiert.

Uppercase: Die Frequenz der Grossschreibung berücksichtigt sowohl Substantive als auch Akronyme.

Punctuation: Die Frequenz der unterschiedlichen Interpunktionszeichen hilft besondere Vorlieben – zum Beispiel das eher untypische Semikolon – zu identifizieren.

Symbol Characters: Die Frequenz von Sonderzeichen, die nicht zur Interpunktion gehören, erkennen ebenfalls charakteristische Vorlieben.

Special Characters: Die Frequenz regionaler Sonderzeichen, wie zum Beispiel Umlaute und das Doppel-S, hilft bei geografischen Identifikationen.

Length: Die Analyse der minimalen, maximalen und durchschnittlichen Wort- und Satzlänge gilt als Grundlage der Charakterisierung.

Vocabulary: Als Deep Inspection wird die Analyse des Vokabulars verstanden. Hier wird einerseits die Charakteristik dessen (z.B. die Anzahl Wortwiederholungen) als auch das Auftreten von geschlechtsspezifischen und untypischen Wörtern ausgemacht.

Die Analyse zweier Texte des gleichen Autors, die diesem auch zugeordnet werden können, sieht bezüglich der Grossschreibung beispielsweise folgendermassen aus:

Grossschreibung	Text 1	Text 2	Abweichung
Allgemeine Frequenz	4.41%	4.39%	-0.02%
Erster Buchstabe Frequenz	29.14%	30.07%	+0.93%
Ganze Worte Frequenz	1.81%	0.88%	-0.93%

Anhand der minimalen Abweichungen im statistischen Bild ist zu erkennen, dass es sich voraussichtlich um den gleichen Autor handeln muss. Eine statistisch hohe relative Abweichung kann lediglich bei der Grossschreibung ganzer Worte bemerkt werden. Dies ist darauf zurückzuführen, dass es sich beim ersten Text um ein eher technisches Thema gehandelt hat, bei dem halt ein Mehr an Akronymen zum Tragen kommen. Die Vermutung, dass es sich um den gleichen Autor handelt, verifiziert der Blick auf die Eigenschaften des Vokabulars:

Vokabular	Text 1	Text 2	Abweichung
Anzahl	530	420	-110
Einzigartigkeit	59.98%	61.17%	+1.19%

Die Einzigartigkeit des Vokabulars ist sehr ähnlich. Weiterführende statistische Analysen haben gezeigt, dass der Autor – ein Vielschreiber – die Einzigartigkeit seines Vokabulars im Zeitraum zwischen 2005 und 2009 immer mehr steigern konnte. Es ist also anzunehmen, dass sein Schreibstil kontinuierlich vielfältiger wurde (z.B. hohe Nutzung von Akronymen, tangieren verschiedener Themengebiete).

Wir treiben die Forschung in diesem Bereich voran und hoffen, dass in absehbarer Zeit eine erste Implementierung der Öffentlichkeit vorgestellt werden kann.

Über den Autor

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Fakultäten, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Konkrete Kritik an CVSS4

Marc Ruef

scip Cybersecurity Forecast

Marc Ruef

Voice Authentisierung

Marc Ruef

Textanalysen mit textrecon

Über den Autor

Links

Tags

Sie brauchen Unterstützung bei einem solchen Projekt?

Konkrete Kritik an CVSS4

scip Cybersecurity Forecast

Voice Authentisierung

Bug-Bounty

Sie wollen mehr?

Sie brauchen Unterstützung bei einem solchen Projekt?

Sie wollen mehr?