Textanalysen mit textrecon

Textanalysen mit textrecon

Marc Ruef
by Marc Ruef
time to read: 6 minutes

Das textrecon project wurde Anfang 2008 ins Leben gerufen. Bei diesem wird sich darum bemüht, mittels statistische Analysen von Texterzeugnissen unterschiedlichen bzw. gleichen Autoren zuordnen zu können. Dies ist in zweierlei Hinsicht von Nutzen:

Dieses Projekt wird nach wie vor vorangetrieben. Tatsächlich existiert seit Mitte 2008 eine funktionierende Implementierung. Die in PHP geschriebene Testversion führt verschiedene statistische Analysen aus, um einen Fingerabdruck des Textes erzeugen zu können. Dieser Fingerabdruck lässt sich dann mit anderen Texten vergleichen.

Von einer Veröffentlichung der genannten Implementierung wird abgesehen, weil diese noch nicht die gewünschte Einfachheit in Bezug auf die Handhabung bereitzustellen in der Lage ist. Der Nutzer muss sehr viel Verständnis für die interne Funktionsweise der Software und der durch sie applizierten Fingerprint-Mechanismen aufbringen, um einen Nutzen aus den dargelegten Resultaten ziehen zu können.

textrecon arbeitet mit einer Vielzahl unterschiedlicher Tests, die in die folgenden Kategorien aufgeteilt sind:

Die Analyse zweier Texte des gleichen Autors, die diesem auch zugeordnet werden können, sieht bezüglich der Grossschreibung beispielsweise folgendermassen aus:

Grossschreibung Text 1 Text 2 Abweichung
Allgemeine Frequenz 4.41% 4.39% -0.02%
Erster Buchstabe Frequenz 29.14% 30.07% +0.93%
Ganze Worte Frequenz 1.81% 0.88% -0.93%

Anhand der minimalen Abweichungen im statistischen Bild ist zu erkennen, dass es sich voraussichtlich um den gleichen Autor handeln muss. Eine statistisch hohe relative Abweichung kann lediglich bei der Grossschreibung ganzer Worte bemerkt werden. Dies ist darauf zurückzuführen, dass es sich beim ersten Text um ein eher technisches Thema gehandelt hat, bei dem halt ein Mehr an Akronymen zum Tragen kommen. Die Vermutung, dass es sich um den gleichen Autor handelt, verifiziert der Blick auf die Eigenschaften des Vokabulars:

Vokabular Text 1 Text 2 Abweichung
Anzahl 530 420 -110
Einzigartigkeit 59.98% 61.17% +1.19%

Die Einzigartigkeit des Vokabulars ist sehr ähnlich. Weiterführende statistische Analysen haben gezeigt, dass der Autor – ein Vielschreiber – die Einzigartigkeit seines Vokabulars im Zeitraum zwischen 2005 und 2009 immer mehr steigern konnte. Es ist also anzunehmen, dass sein Schreibstil kontinuierlich vielfältiger wurde (z.B. hohe Nutzung von Akronymen, tangieren verschiedener Themengebiete).

Wir treiben die Forschung in diesem Bereich voran und hoffen, dass in absehbarer Zeit eine erste Implementierung der Öffentlichkeit vorgestellt werden kann.

About the Author

Marc Ruef

Marc Ruef has been working in information security since the late 1990s. He is well-known for his many publications and books. The last one called The Art of Penetration Testing is discussing security testing in detail. He is a lecturer at several faculties, like ETH, HWZ, HSLU and IKF. (ORCID 0000-0002-1328-6357)

Links

You need support in such a project?

Our experts will get in contact with you!

×
Specific Criticism of CVSS4

Specific Criticism of CVSS4

Marc Ruef

scip Cybersecurity Forecast

scip Cybersecurity Forecast

Marc Ruef

Voice Authentication

Voice Authentication

Marc Ruef

Bug Bounty

Bug Bounty

Marc Ruef

You want more?

Further articles available here

You need support in such a project?

Our experts will get in contact with you!

You want more?

Further articles available here