3 min read

Image-search optimalisatie met robots.txt

image search

image searchEen zoekmachine toelaten op je website is natuurlijk handig als je gevonden wil worden. En gelukkig hoef je hier niks voor te doen. Toch is het in veel gevallen handig om dit te beperken.
In dit stuk focus ik op het indexeren van images door zoekmachines.

robots.txt of metatag

Er zijn twee manieren om de crawlers van zoekmachines te begeleiden op je website. Via een robots.txt bestand in de root of via een metatag in de header.
In de robots.txt geef je aan welke directories de crawler mag bezoeken, zo ziet dat in bij mijn WordPress installaties als volgt uit:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
Disallow: /wp-content/

Met een metatag kun je dit nog iets scherper krijgen. Voor de metatag ingebruik met WordPress verwijs ik je naar de meta-robots plugin van Yoast.

<meta name=”robots” content=”noindex,nofollow” />

Waarom plaatjes laten indexeren?

Simpel gezegd, ook dat levert mogelijke bezoekers op, al zei het minder.
Eigenlijk een verkeerde vraag, de vraag moet zijn welke plaatjes je wil laten indexeren.
Ik zou er voor kiezen om alleen relevantie afbeeldingen te indexeren, dus niet de afbeeldingen die onderdeel zijn van de opmaak van je website, maar plaatjes die bij de artikelen horen.
Persoonlijk zou ik er ook voor kiezen om foto-albums van scholen/verenigingen niet te laten indexeren.

Als je weet welke afbeeldingen je wilt laten indexeren, kun je bepalen om welke directories het gaat. In geval van WordPress wil je dus niet de /wp-content/themes/ indexeren, wel de /wp-content/uploads.

google bing yahooGoogle, BING en anderen

Het indexeren van images door zoekmachines kun je alleen beïnvloeden door het robot.txt bestand. Het officiele robots.txt protocol ondersteunde alleen Disallow:, waarmee je de crawler toegang ontzegd.

Yahoo, BING en Google hebben in 2008 afspraken gemaakt over hoe zij het REP protocol ondersteunen. Onderdeel daarvan in de simpele toevoeging Allow:, waarmee je de spiders specifiek vertelt dat ze die directory mogen indexeren.

Perfecte robots.txt voor WordPress en images

Nu is het tijd om een mooie robots.txt te maken voor je WordPress installatie. In het bovenstaande voorbeeld heb ik voor alle crawlers doormiddel van User-agent: * aangegeven wat ze mogen indexeren. Hierin worden ook alle image directories in /wp-content/ verboden.

Nu gaan we specifiek aan BING en Google vertellen dat zij wél de afbeeldingen map mogen indexeren. De image-crawlers van BING en Google heten respectievelijk: MSNBot-Media en Googlebot-Image.

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: MSNBot-Media
Allow: /wp-content/uploads/

Hiermee zullen de afbeeldingen die bij alle artikelen horen geïndexeerd worden, maar de afbeeldingen van je layout in de map themes niet. Andere crawlers zullen geen van je images indexeren, persoonlijk vind ik dat wel fijn.
Als je dit in het geheel zet:

Sitemap: /sitemap.xml.gz

#image
User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: MSNBot-Media
Allow: /wp-content/uploads/

#global
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /feed/
Disallow: /trackback/
Disallow: /cgi-bin/
Disallow: /wp-content/

Het indexeren van afbeeldingen is een trager proces dan het indexeren van pagina’s, je zult dus wel geduld moeten hebben. Nog een kleine extra SEO-tip: Geef afbeeldingen namen als bos-bloemen.jpg, geen 14583592.jpg en vul altijd de titel en alt-teksten in.

Opmerkingen, reacties of kan het beter? Laat een reactie achter!