Spider können normalerweise mit der Textdatei Robots.txt im Hauptverzeichnis einer Website davon abgehalten werden, bestimmte Ordner oder Dateien zu spidern und zu indexieren. An diese Anweisungen halten sich zumindest seriöse Suchmaschinen-Spider. In einem passwortgeschützten Verzeichnis sollten unbedingt Webseiten untergebracht werden, die absolut nicht gespidert werden dürfen. Über den Agent-Name bzw. die IP können Webmaster Spider erkennen, die sich nicht an die robots.txt halten wollen und über die htaccess-Datei vom Zugriff auf die Website abhalten. Auch Google scheint sich nicht immer an die robots.txt zu halten, wird in einem Forum berichtet. Siehe dazu den Beitrag im Forum von Abakus Internet Marketing.
