Het is mogelijk om zoekmachines van je website te weren, om bijvoorbeeld dataverkeer te besparen. Opgemerkt moet worden dat onderstaande methode voor de meeste zoekmachines werkt, maar helaas niet voor alle.
robots.txt
De meeste zoekmachines kijken voor ze een website gaan indexeren of er een bestand genaamd robots.txt aanwezig is in de map public_html. Vervolgens kijken ze in dit bestand of de website geïndexeerd mag worden.
In het bestand neem je op voor welke bot een bepaalde regel of set regels geldt en welke regels gelden. Het eenvoudigst kun je dit bestand aanmaken met behulp van DirectAdmin.
Alle zoekmachines blokkeren
Om alle zoekmachines te blokkeren, plaats je het volgende in je robots.txt, die je dus in je public_html plaatst:
User-agent: * Disallow: /
Inhoudelijk staat hier: „voor alle zoekmachines, blokkeer het pad /”. Dat houdt in dat alle paden die beginnen met een / geblokkeerd worden. En ieder pad op je site begint hiermee, dus je blokkeert nu alle zoekmachines.
Als je alleen wilt dat de map /voorbeeld/ wordt geblokkeerd, gebruik je het volgende:
User-agent: * Disallow: /voorbeeld/
Let erop dat het blokkeren van een submap ook vanuit je public_html moet gebeuren.
Bepaalde zoekmachines blokkeren
Als je alleen een bepaalde zoekmachine, bijvoorbeeld Google (met user-agent 'Googlebot') wilt blokkeren:
User-agent: Googlebot Disallow: /
Slechts bepaalde zoekmachine toestaan
Als je AdSense op je website hebt staan, dan wil je waarschijnlijk wel dat je advertenties relevante informatie weergeven. Als je echter alle zoekmachines blokkeert met *, dan zal dit niet meer mogelijk zijn. Je kunt dit als volgt oplossen:
User-agent: * Disallow: / (...) User-agent: Mediapartners-Google Allow: /
De laatste twee regels vertellen ons dat de zoekmachine van Google AdSense ('Mediapartners-Google') wel toegang heeft tot je hele website, terwijl de rest ('*') dat niet heeft. Op dezelfde manier kun je bijvoorbeeld ook alleen Google op je website toestaan.