Textanalysen mit textrecon

by Marc Ruef

time to read: 6 minutes

Das textrecon project wurde Anfang 2008 ins Leben gerufen. Bei diesem wird sich darum bemüht, mittels statistische Analysen von Texterzeugnissen unterschiedlichen bzw. gleichen Autoren zuordnen zu können. Dies ist in zweierlei Hinsicht von Nutzen:

Erkennen von Plagiaten (z.B. Semesterarbeiten)
Identifikation von anonymen Mitteilungen (z.B. Erpressung)

Dieses Projekt wird nach wie vor vorangetrieben. Tatsächlich existiert seit Mitte 2008 eine funktionierende Implementierung. Die in PHP geschriebene Testversion führt verschiedene statistische Analysen aus, um einen Fingerabdruck des Textes erzeugen zu können. Dieser Fingerabdruck lässt sich dann mit anderen Texten vergleichen.

Von einer Veröffentlichung der genannten Implementierung wird abgesehen, weil diese noch nicht die gewünschte Einfachheit in Bezug auf die Handhabung bereitzustellen in der Lage ist. Der Nutzer muss sehr viel Verständnis für die interne Funktionsweise der Software und der durch sie applizierten Fingerprint-Mechanismen aufbringen, um einen Nutzen aus den dargelegten Resultaten ziehen zu können.

textrecon arbeitet mit einer Vielzahl unterschiedlicher Tests, die in die folgenden Kategorien aufgeteilt sind:

Basic Data: Hier werden allgemeine Informationen zum Text, zum Beispiel dessen Länge oder die Anzahl Wörter dokumentiert.

Uppercase: Die Frequenz der Grossschreibung berücksichtigt sowohl Substantive als auch Akronyme.

Punctuation: Die Frequenz der unterschiedlichen Interpunktionszeichen hilft besondere Vorlieben – zum Beispiel das eher untypische Semikolon – zu identifizieren.

Symbol Characters: Die Frequenz von Sonderzeichen, die nicht zur Interpunktion gehören, erkennen ebenfalls charakteristische Vorlieben.

Special Characters: Die Frequenz regionaler Sonderzeichen, wie zum Beispiel Umlaute und das Doppel-S, hilft bei geografischen Identifikationen.

Length: Die Analyse der minimalen, maximalen und durchschnittlichen Wort- und Satzlänge gilt als Grundlage der Charakterisierung.

Vocabulary: Als Deep Inspection wird die Analyse des Vokabulars verstanden. Hier wird einerseits die Charakteristik dessen (z.B. die Anzahl Wortwiederholungen) als auch das Auftreten von geschlechtsspezifischen und untypischen Wörtern ausgemacht.

Die Analyse zweier Texte des gleichen Autors, die diesem auch zugeordnet werden können, sieht bezüglich der Grossschreibung beispielsweise folgendermassen aus:

Grossschreibung	Text 1	Text 2	Abweichung
Allgemeine Frequenz	4.41%	4.39%	-0.02%
Erster Buchstabe Frequenz	29.14%	30.07%	+0.93%
Ganze Worte Frequenz	1.81%	0.88%	-0.93%

Anhand der minimalen Abweichungen im statistischen Bild ist zu erkennen, dass es sich voraussichtlich um den gleichen Autor handeln muss. Eine statistisch hohe relative Abweichung kann lediglich bei der Grossschreibung ganzer Worte bemerkt werden. Dies ist darauf zurückzuführen, dass es sich beim ersten Text um ein eher technisches Thema gehandelt hat, bei dem halt ein Mehr an Akronymen zum Tragen kommen. Die Vermutung, dass es sich um den gleichen Autor handelt, verifiziert der Blick auf die Eigenschaften des Vokabulars:

Vokabular	Text 1	Text 2	Abweichung
Anzahl	530	420	-110
Einzigartigkeit	59.98%	61.17%	+1.19%

Die Einzigartigkeit des Vokabulars ist sehr ähnlich. Weiterführende statistische Analysen haben gezeigt, dass der Autor – ein Vielschreiber – die Einzigartigkeit seines Vokabulars im Zeitraum zwischen 2005 und 2009 immer mehr steigern konnte. Es ist also anzunehmen, dass sein Schreibstil kontinuierlich vielfältiger wurde (z.B. hohe Nutzung von Akronymen, tangieren verschiedener Themengebiete).

Wir treiben die Forschung in diesem Bereich voran und hoffen, dass in absehbarer Zeit eine erste Implementierung der Öffentlichkeit vorgestellt werden kann.

About the Author

Marc Ruef has been working in information security since the late 1990s. He is well-known for his many publications and books. The last one called The Art of Penetration Testing is discussing security testing in detail. He is a lecturer at several faculties, like ETH, HWZ, HSLU and IKF. (ORCID 0000-0002-1328-6357)

You need support in such a project?

Our experts will get in contact with you!

Specific Criticism of CVSS4

Marc Ruef

scip Cybersecurity Forecast

Marc Ruef

Voice Authentication

Marc Ruef

Bug Bounty

Marc Ruef

You want more?

Further articles available here

You need support in such a project?

Our experts will get in contact with you!

You want more?

Further articles available here

Textanalysen mit textrecon

About the Author

Links

Tags

You need support in such a project?

Specific Criticism of CVSS4

scip Cybersecurity Forecast

Voice Authentication

Bug Bounty

You want more?

You need support in such a project?

You want more?