Ik bepaal wat mag , het belang van een robots.txt
december 23, 2008 No reactieNeem de titel niet te letterlijk want als puntje bij paaltje komt ben je de l..
Eigenlijk iets waar ik nooit iets zou over schrijven , was het niet dat ik gisteren een les aan het maken was voor de ecommerce cursus waar dat onderwerp even aan bod kwam en eigenlijk iets waar menige webmasters nooit (of te weinig) gebruik van maken zo bleek.
Robots.txt file
De robots.txt is een file die ervoor zorgt dat je kan gaan bepalen wat zoekrobots (crawlers) wel of niet mogen bezoeken op/in je site en daarom een handig middel om bepaalde delen van je site te gaan uitsluiten. Als je trouwens vermoed dat Google (of andere) bepaalde delen van je site niet bezoekt, kijk dan eerst even in je robots.txt of het probleem daar niet ligt.
Deze file is natuurlijk niet de ‘holy grail’ en er durven nogal eens wat misverstanden opduiken. Laten we de belangrijkste even opsommen :
- De robots.txt is een publieke file wat wil zeggen dat iedereen die op je site komt die kan opvragen en dus kan zien welke pagina’s / folders / bestanden je gaat uitsluiten. Stel je hebt een betalende community site waar mensen betalen voor je informatie maar hebt er verder geen beveiliging op zitten, dan kunnen ze via de robots.txt die inhoud toch opsporen. Het klinkt ver gezocht maar je moet maar eens zien hoeveel toegang tot betalende e-books je daarmee kan vinden.
- De robots.txt is slechts een richtlijn wat je geeft maar als een bot geprogrammeerd is om die te negeren, dan kan je daar verder weinig aan doen. Ik denk niet dat je een autodief zal tegenhouden door er een bordje aan te hangen met ‘gelieve deze wagen niet te stelen’…
- De pagina’s / folders / bestanden die je uitsluit kunnen toch nog worden geïndexeerd (en gerankt) door Google (of andere) als er wordt naar gelinkt door bijvoorbeeld een collega van je.
Hoe maak je die ?
De makkelijkste manier om die op te maken is je kladblok openen, er zijn ook online tools die je kunnen helpen bij de opmaak. De meest gekende is diegene die je in je google webmaster tools account kan vinden. Maar zelf gebruik ik die dingen nooit, kladblok gaat een stuk sneller.
Bij de User-agent kan je specifieke bots gaan opsommen (hier vind je eventueel een lijst, of check je logfiles even). Een sterretje is een wildcard en geld dan ‘in principe’ voor alle bots. Naast disallow kan je natuurlijk ook Allow gebruiken. Dit hier zijn volgens mij de meest voorkomende / courrante
Je volledige site uitsluiten - als je bijvoorbeeld een site aan het verplaatsen bent of je maakt een nieuwe, wilt die online testen maar nog niet laten crawlen
User-agent: *
Disallow: /
Een pagina uitsluiten:
User-agent: *
Disallow: /pagina.html
Een folder uitsluiten:
User-agent: *
Disallow: /directory/
Alle images voor Google:
User-agent: Googlebot-Image
Disallow: /
Bepaalde images voor Google:
User-agent: Googlebot-Image
Disallow: /images/mijnlelijkefoto.jpg
Image folders voor Google:
User-agent: Googlebot-Image
Disallow: /images/
Specifieke bestanden:
User-agent: *
Disallow: /*.gif$
Disallow: /*.jpeg$
Disallow: /*.pdf$
Wel opletten als je wildcards én specifieke bots gaat uitsluiten. Bij dit voorbeeld hier gaat de Googlebot enkel gaan kijken naar wat specifiek voor hem is bedoeld en zal in ons voorbeeld hier dus wel /directory/ , /images/fotos.jpg en de pdf files gaan crawlen !
User-agent: *
Disallow: /directory/
Disallow: /images/fotos.jpg
Disallow: /*.gif$
Disallow: /*.jpeg$
Disallow: /*.pdf$
User-agent: Googlebot
Disallow: /*.gif$
Disallow: /*.jpeg$
Volgens mij was dit zowat het eerste basic artikel wat ik ooit schreef maar niet te min, altijd goed om te weten.
Prettige feesten trouwens en niks doen wat ik niet zou doen
Reageren?