Textanalysen mit textrecon

Textanalysen mit textrecon

Marc Ruef
von Marc Ruef
Lesezeit: 6 Minuten

Das textrecon project wurde Anfang 2008 ins Leben gerufen. Bei diesem wird sich darum bemüht, mittels statistische Analysen von Texterzeugnissen unterschiedlichen bzw. gleichen Autoren zuordnen zu können. Dies ist in zweierlei Hinsicht von Nutzen:

Dieses Projekt wird nach wie vor vorangetrieben. Tatsächlich existiert seit Mitte 2008 eine funktionierende Implementierung. Die in PHP geschriebene Testversion führt verschiedene statistische Analysen aus, um einen Fingerabdruck des Textes erzeugen zu können. Dieser Fingerabdruck lässt sich dann mit anderen Texten vergleichen.

Von einer Veröffentlichung der genannten Implementierung wird abgesehen, weil diese noch nicht die gewünschte Einfachheit in Bezug auf die Handhabung bereitzustellen in der Lage ist. Der Nutzer muss sehr viel Verständnis für die interne Funktionsweise der Software und der durch sie applizierten Fingerprint-Mechanismen aufbringen, um einen Nutzen aus den dargelegten Resultaten ziehen zu können.

textrecon arbeitet mit einer Vielzahl unterschiedlicher Tests, die in die folgenden Kategorien aufgeteilt sind:

Die Analyse zweier Texte des gleichen Autors, die diesem auch zugeordnet werden können, sieht bezüglich der Grossschreibung beispielsweise folgendermassen aus:

Grossschreibung Text 1 Text 2 Abweichung
Allgemeine Frequenz 4.41% 4.39% -0.02%
Erster Buchstabe Frequenz 29.14% 30.07% +0.93%
Ganze Worte Frequenz 1.81% 0.88% -0.93%

Anhand der minimalen Abweichungen im statistischen Bild ist zu erkennen, dass es sich voraussichtlich um den gleichen Autor handeln muss. Eine statistisch hohe relative Abweichung kann lediglich bei der Grossschreibung ganzer Worte bemerkt werden. Dies ist darauf zurückzuführen, dass es sich beim ersten Text um ein eher technisches Thema gehandelt hat, bei dem halt ein Mehr an Akronymen zum Tragen kommen. Die Vermutung, dass es sich um den gleichen Autor handelt, verifiziert der Blick auf die Eigenschaften des Vokabulars:

Vokabular Text 1 Text 2 Abweichung
Anzahl 530 420 -110
Einzigartigkeit 59.98% 61.17% +1.19%

Die Einzigartigkeit des Vokabulars ist sehr ähnlich. Weiterführende statistische Analysen haben gezeigt, dass der Autor – ein Vielschreiber – die Einzigartigkeit seines Vokabulars im Zeitraum zwischen 2005 und 2009 immer mehr steigern konnte. Es ist also anzunehmen, dass sein Schreibstil kontinuierlich vielfältiger wurde (z.B. hohe Nutzung von Akronymen, tangieren verschiedener Themengebiete).

Wir treiben die Forschung in diesem Bereich voran und hoffen, dass in absehbarer Zeit eine erste Implementierung der Öffentlichkeit vorgestellt werden kann.

Über den Autor

Marc Ruef

Marc Ruef ist seit Ende der 1990er Jahre im Cybersecurity-Bereich aktiv. Er hat vor allem im deutschsprachigen Raum aufgrund der Vielzahl durch ihn veröffentlichten Fachpublikationen und Bücher – dazu gehört besonders Die Kunst des Penetration Testing – Bekanntheit erlangt. Er ist Dozent an verschiedenen Hochschulen, darunter ETH, HWZ, HSLU und IKF. (ORCID 0000-0002-1328-6357)

Links

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

×
Cyber Threat Intelligence

Cyber Threat Intelligence

Marc Ruef

3D Printing

3D Printing

Marc Ruef

Contact Tracing App DP3T

Contact Tracing App DP3T

Marc Ruef

Sie wollen mehr?

Weitere Artikel im Archiv

Sie brauchen Unterstützung bei einem solchen Projekt?

Unsere Spezialisten kontaktieren Sie gern!

Sie wollen mehr?

Weitere Artikel im Archiv