Konkrete Kritik an CVSS4
Marc Ruef
Das textrecon project wurde Anfang 2008 ins Leben gerufen. Bei diesem wird sich darum bemüht, mittels statistische Analysen von Texterzeugnissen unterschiedlichen bzw. gleichen Autoren zuordnen zu können. Dies ist in zweierlei Hinsicht von Nutzen:
Dieses Projekt wird nach wie vor vorangetrieben. Tatsächlich existiert seit Mitte 2008 eine funktionierende Implementierung. Die in PHP geschriebene Testversion führt verschiedene statistische Analysen aus, um einen Fingerabdruck des Textes erzeugen zu können. Dieser Fingerabdruck lässt sich dann mit anderen Texten vergleichen.
Von einer Veröffentlichung der genannten Implementierung wird abgesehen, weil diese noch nicht die gewünschte Einfachheit in Bezug auf die Handhabung bereitzustellen in der Lage ist. Der Nutzer muss sehr viel Verständnis für die interne Funktionsweise der Software und der durch sie applizierten Fingerprint-Mechanismen aufbringen, um einen Nutzen aus den dargelegten Resultaten ziehen zu können.
textrecon arbeitet mit einer Vielzahl unterschiedlicher Tests, die in die folgenden Kategorien aufgeteilt sind:
Die Analyse zweier Texte des gleichen Autors, die diesem auch zugeordnet werden können, sieht bezüglich der Grossschreibung beispielsweise folgendermassen aus:
Grossschreibung | Text 1 | Text 2 | Abweichung |
---|---|---|---|
Allgemeine Frequenz | 4.41% | 4.39% | -0.02% |
Erster Buchstabe Frequenz | 29.14% | 30.07% | +0.93% |
Ganze Worte Frequenz | 1.81% | 0.88% | -0.93% |
Anhand der minimalen Abweichungen im statistischen Bild ist zu erkennen, dass es sich voraussichtlich um den gleichen Autor handeln muss. Eine statistisch hohe relative Abweichung kann lediglich bei der Grossschreibung ganzer Worte bemerkt werden. Dies ist darauf zurückzuführen, dass es sich beim ersten Text um ein eher technisches Thema gehandelt hat, bei dem halt ein Mehr an Akronymen zum Tragen kommen. Die Vermutung, dass es sich um den gleichen Autor handelt, verifiziert der Blick auf die Eigenschaften des Vokabulars:
Vokabular | Text 1 | Text 2 | Abweichung |
---|---|---|---|
Anzahl | 530 | 420 | -110 |
Einzigartigkeit | 59.98% | 61.17% | +1.19% |
Die Einzigartigkeit des Vokabulars ist sehr ähnlich. Weiterführende statistische Analysen haben gezeigt, dass der Autor – ein Vielschreiber – die Einzigartigkeit seines Vokabulars im Zeitraum zwischen 2005 und 2009 immer mehr steigern konnte. Es ist also anzunehmen, dass sein Schreibstil kontinuierlich vielfältiger wurde (z.B. hohe Nutzung von Akronymen, tangieren verschiedener Themengebiete).
Wir treiben die Forschung in diesem Bereich voran und hoffen, dass in absehbarer Zeit eine erste Implementierung der Öffentlichkeit vorgestellt werden kann.
Unsere Spezialisten kontaktieren Sie gern!
Marc Ruef
Marc Ruef
Marc Ruef
Marc Ruef
Unsere Spezialisten kontaktieren Sie gern!