Googlebot - Erweiterte Zugriffsrechte

Googlebot

Erweiterte Zugriffsrechte

Marc Ruef
by Marc Ruef
time to read: 5 minutes

Viele Webseiten-Betreiber wollen gewisse Inhalte den registrierten Benutzern vorenthalten. So manches Forum setzt eine Anmeldung voraus, um gar die bestehenden Posts lesen zu können. Damit diese Daten dennoch in Suchmaschinen wie Google indiziert werden können, wird dem jeweiligen Crawler der Zugriff gewährt. Dies erfolgt in der Regel durch das Auslesen des User-Agent, der bei Google zur Zeit wie folgt lautet:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Durch eigene Skripte oder Browser-Plugins lässt sich der User-Agent anpassen und so mit relativ wenig Aufwand erweiterten Zugriff erlangen. Entwickler und Administratoren haben dies erkannt und versuchen nun mit der Hilfe des Hostnamen des vermeintlichen Bots dessen Legitimität zu erkennen. Typischerweise lautet ein solcher wie folgt:

crawl-66-249-66-1.googlebot.com

Das Problem hierbei ist vielerorts, dass keine strenge Prüfung stattfindet. So wird in mancher PHP-Software lediglich mit der Funktion strstr() das Vorkommen der Zeichenkette googlebot.com geprüft. Ob diese nun zu Beginn des Hostnamens oder als effektive Domain vorkommt, ist irrelevant:

if(strstr($hostname, '.googlebot.com'))

Es besteht nun also die Möglichkeit, dass sich jemand bei einem Reverse-Lookup um einen Hostnamen bemüht, der irgendwo die gewünschte Zeichenkette enthält. Dies könnte zum Beispiel folgender Hostname sein:

attacker.googlebot.com.scip.ch

Google empfiehlt in diesem Zusammenhang eine umfanreiche Prüfung des Reverse-Lookups durchzuführen. Eine simple Analyse der Existenz der Zeichenkette googlebot.com ist nicht sicher.

Browserrecon erkennt falschen Googlebot

Eine erweiterte Möglichkeit besteht im Application Fingerprinting des Clients, wie es zum Beispiel mit unserer Lösung browserrecon möglich ist. Anhand des charakteristischen Verhaltens lässt sich erkennen, dass der mitgeschichte User-Agent falsch ist und anstelle des Googlebots ein simpler Firefox-Browser eingesetzt wird.

About the Author

Marc Ruef

Marc Ruef has been working in information security since the late 1990s. He is well-known for his many publications and books. The last one called The Art of Penetration Testing is discussing security testing in detail. He is a lecturer at several universities, like ETH, HWZ, HSLU and IKF. (ORCID 0000-0002-1328-6357)

Links

You need support in such a project?

Our experts will get in contact with you!

×
Data Markets

Data Markets

Marc Ruef

Password Leak Analysis

Password Leak Analysis

Marc Ruef

MITRE ATT&CK

MITRE ATT&CK

Marc Ruef

You want more?

Further articles available here

You need support in such a project?

Our experts will get in contact with you!

You want more?

Further articles available here