Wat is een Robots.txt bestand? En hoe maak je het? (beginnershandleiding)

 Wat is een Robots.txt bestand? En hoe maak je het? (beginnershandleiding)

Patrick Harvey

Wist u dat u volledige controle hebt over wie uw site crawlt en indexeert, tot en met de afzonderlijke pagina's?

Dit gebeurt via een bestand genaamd Robots.txt.

Robots.txt is een eenvoudig tekstbestand dat zich in de hoofddirectory van uw site bevindt. Het vertelt "robots" (zoals zoekmachinespiders) welke pagina's op uw site moeten worden gecrawld, en welke pagina's moeten worden genegeerd.

Hoewel niet essentieel, geeft het bestand Robots.txt u veel controle over hoe Google en andere zoekmachines uw site zien.

Bij goed gebruik kan dit het crawlen verbeteren en zelfs de SEO beïnvloeden.

Maar hoe maak je precies een effectief Robots.txt-bestand? En hoe gebruik je het, als het eenmaal gemaakt is? En welke fouten moet je vermijden als je het gebruikt?

In dit bericht deel ik alles wat u moet weten over het bestand Robots.txt en hoe u het kunt gebruiken op uw blog.

Laten we erin duiken:

Wat is een Robots.txt bestand?

In de begindagen van het internet creëerden programmeurs en ingenieurs 'robots' of 'spiders' om pagina's op het web te crawlen en te indexeren. Deze robots staan ook bekend als 'gebruikersagenten'.

Soms kwamen deze robots terecht op pagina's waarvan de eigenaars niet wilden dat ze geïndexeerd werden, bijvoorbeeld een site in aanbouw of een privéwebsite.

Om dit probleem op te lossen stelde Martijn Koster, een Nederlandse ingenieur die 's werelds eerste zoekmachine (Aliweb) creëerde, een reeks normen voor waaraan elke robot zou moeten voldoen. Deze normen werden voor het eerst voorgesteld in februari 1994.

Zie ook: Pinterest Hashtags: de definitieve gids

Op 30 juni 1994 bereikten een aantal auteurs van robots en vroege webpioniers een consensus over de normen.

Deze normen werden aangenomen als het "Robots Exclusion Protocol" (REP).

Het bestand Robots.txt is een implementatie van dit protocol.

De Robots.txt definieert een reeks regels die elke legitieme crawler of spider moet volgen. Als de Robots.txt robots opdraagt een webpagina niet te indexeren, moet elke legitieme robot - van Googlebot tot MSNbot - de instructies opvolgen.

Let op: Een lijst van legitieme crawlers vindt u hier.

Houd er rekening mee dat sommige malafide robots - malware, spyware, e-mail harvesters, enz. - deze protocollen mogelijk niet volgen. Daarom ziet u mogelijk botverkeer op pagina's die u via Robots.txt hebt geblokkeerd.

Er zijn ook robots die geen REP-normen volgen die voor niets dubieus worden gebruikt.

U kunt de robots.txt van elke website bekijken door naar deze url te gaan:

//[website_domein]/robots.txt

Hier is bijvoorbeeld het Robots.txt-bestand van Facebook:

En hier is Google's Robots.txt bestand:

Gebruik van Robots.txt

Robots.txt is geen essentieel document voor een website. Uw site kan prima ranken en groeien zonder dit bestand.

Het gebruik van de Robots.txt biedt echter wel enkele voordelen:

  • Ontmoedig bots van het crawlen van privémappen - Hoewel niet perfect, zal het verbieden van bots om privémappen te crawlen ze veel moeilijker indexeren - tenminste door legitieme bots (zoals spiders van zoekmachines).
  • Controle van het gebruik van middelen - Elke keer dat een bot uw site crawlt, verbruikt hij uw bandbreedte en serverresources - resources die beter aan echte bezoekers kunnen worden besteed. Voor sites met veel inhoud kan dit de kosten opdrijven en de echte bezoekers een slechte ervaring bezorgen. U kunt Robots.txt gebruiken om de toegang tot scripts, onbelangrijke afbeeldingen, enz. te blokkeren om resources te sparen.
  • Geef prioriteit aan belangrijke pagina's - U wilt dat zoekmachinespiders de belangrijke pagina's op uw site crawlen (zoals inhoudspagina's), en geen middelen verspillen aan het doorspitten van nutteloze pagina's (zoals resultaten van zoekopdrachten). Door dergelijke nutteloze pagina's te blokkeren, kunt u voorrang geven aan de pagina's waarop de bots zich concentreren.

Hoe uw Robots.txt bestand te vinden

Zoals de naam al zegt, is Robots.txt een eenvoudig tekstbestand.

Dit bestand is opgeslagen in de hoofddirectory van uw website. Om het te vinden opent u gewoon uw FTP-programma en navigeert u naar de directory van uw website onder public_html.

Dit is een klein tekstbestand - het mijne is iets meer dan 100 bytes.

Om het te openen gebruikt u een willekeurige tekstverwerker, zoals Notepad. U ziet misschien iets als dit:

Er is een kans dat u geen Robots.txt bestand ziet in de hoofdmap van uw site. In dat geval moet u zelf een Robots.txt bestand aanmaken.

Hier is hoe:

Hoe maak je een Robot.txt bestand

Aangezien Robots.txt een eenvoudig tekstbestand is, is het aanmaken ervan ZEER eenvoudig - open gewoon een tekstverwerker en sla een leeg bestand op als robots.txt.

Om dit bestand naar uw server te uploaden, gebruikt u uw favoriete FTP-tool (ik raad WinSCP aan) om in te loggen op uw webserver. Open dan de public_html map en open de hoofdmap van uw site.

Afhankelijk van hoe uw webhost is geconfigureerd, kan de hoofddirectory van uw site direct in de public_html map staan, of in een map daarbinnen.

Zodra u de hoofdmap van uw site hebt geopend, sleept u het Robots.txt-bestand erheen.

U kunt het bestand Robots.txt ook rechtstreeks vanuit uw FTP-editor aanmaken.

Om dit te doen opent u de hoofdmap van uw site en klikt u met de rechtermuisknop -> Nieuw bestand maken.

Typ in het dialoogvenster "robots.txt" (zonder aanhalingstekens) en druk op OK.

U zou een nieuw robots.txt bestand moeten zien:

Zorg er ten slotte voor dat u de juiste bestandsrechten hebt ingesteld voor het bestand Robots.txt. U wilt dat de eigenaar - uzelf - het bestand kan lezen en schrijven, maar niet aan anderen of het publiek.

Uw Robots.txt bestand zou "0644" moeten tonen als de toestemmingscode.

Als dat niet het geval is, klik dan met de rechtermuisknop op uw Robots.txt-bestand en selecteer "Bestandsrechten...".

Daar heb je het - een volledig functioneel Robots.txt bestand!

Maar wat kun je eigenlijk doen met dit bestand?

Vervolgens laat ik u enkele algemene instructies zien die u kunt gebruiken om de toegang tot uw site te controleren.

Hoe Robots.txt gebruiken

Vergeet niet dat Robots.txt in wezen bepaalt hoe robots met uw site omgaan.

Wilt u zoekmachines de toegang tot uw hele site ontzeggen? Wijzig gewoon de rechten in Robots.txt.

Wilt u dat Bing uw contactpagina niet indexeert? Dat kan ook.

Op zichzelf zal het Robots.txt bestand uw SEO niet verbeteren, maar u kunt het gebruiken om het gedrag van crawlers op uw site te controleren.

Om het bestand toe te voegen of te wijzigen, opent u het gewoon in uw FTP-editor en voegt u de tekst direct toe. Zodra u het bestand opslaat, worden de wijzigingen onmiddellijk weergegeven.

Hier zijn enkele commando's die u kunt gebruiken in uw Robots.txt bestand:

1. Blokkeer alle bots van uw site

Wilt u alle robots verhinderen uw site te crawlen?

Voeg deze code toe aan uw Robots.txt bestand:

 User-agent:  * 

Disallow: /

Zo zou het er in het eigenlijke bestand uitzien:

Eenvoudig gezegd vertelt dit commando elke user agent (*) om geen bestanden of mappen op uw site te openen.

Hier is de volledige uitleg van wat hier precies gebeurt:

  • User-agent:* - Het sterretje (*) is een "wild-card" teken dat van toepassing is op elke object (zoals bestandsnaam of in dit geval, bot). Als u op uw computer zoekt naar "*.txt", verschijnt elk bestand met de extensie .txt. Hier betekent het sterretje dat uw opdracht van toepassing is op elke user-agent.
  • Disallow: / -. "Disallow" is een robots.txt-commando dat een bot verbiedt een map te crawlen. De enkele forward slash (/) betekent dat u dit commando toepast op de hoofddirectory.

Let op: Dit is ideaal als u een privé-website beheert, zoals een lidmaatschapssite. Maar wees ervan bewust dat dit alle legitieme bots, zoals Google, ervan weerhoudt uw site te crawlen. Gebruik dit met voorzichtigheid.

2. Blokkeer alle bots voor toegang tot een specifieke map

Wat als u wilt voorkomen dat bots een specifieke map crawlen en indexeren?

Bijvoorbeeld de map /images?

Gebruik dit commando:

 User-agent: * 

Niet toegestaan: /[map_naam]/

Als u bots de toegang tot de map /images wilt ontzeggen, ziet het commando er als volgt uit:

Dit commando is nuttig als je een map met bronnen hebt die je niet wilt overspoelen met verzoeken van robotcrawlers. Dit kan een map zijn met onbelangrijke scripts, verouderde afbeeldingen, enz.

Let op: De map /images is slechts een voorbeeld. Ik zeg niet dat je bots moet beletten die map te crawlen. Het hangt af van wat je probeert te bereiken.

Zoekmachines keuren meestal webmasters af die hun bots blokkeren voor het crawlen van niet-afbeeldingsmappen, dus wees voorzichtig wanneer u dit commando gebruikt. Ik heb hieronder enkele alternatieven voor Robots.txt opgesomd om zoekmachines te verhinderen specifieke pagina's te indexeren.

3. Blokkeer specifieke bots van uw site

Wat als u een specifieke robot - zoals Googlebot - de toegang tot uw site wilt ontzeggen?

Hier is het commando ervoor:

 User-agent: [robotnaam] 

Disallow: /

Als u bijvoorbeeld Googlebot van uw site wilt blokkeren, is dit wat u zou gebruiken:

Elke legitieme bot of user-agent heeft een specifieke naam. De spider van Google heet bijvoorbeeld gewoon "Googlebot". Microsoft gebruikt zowel "msnbot" als "bingbot". De bot van Yahoo heet "Yahoo! Slurp".

Voor de exacte namen van verschillende gebruikersagenten (zoals Googlebot, bingbot, enz.) kunt u deze pagina gebruiken.

Let op: Het bovenstaande commando zou een specifieke bot van uw hele site blokkeren. Googlebot wordt louter als voorbeeld gebruikt. In de meeste gevallen zou u Google nooit willen beletten uw website te crawlen. Een specifiek gebruik voor het blokkeren van specifieke bots is om de bots die u voordeel opleveren naar uw site te laten komen, terwijl u de bots die geen voordeel opleveren voor uw site stopt.

4. Een specifiek bestand blokkeren voor crawlen

Met het Robots Exclusion Protocol kunt u nauwkeurig bepalen tot welke bestanden en mappen u de toegang voor robots wilt blokkeren.

Hier is het commando dat u kunt gebruiken om te voorkomen dat een bestand door een robot wordt gecrawld:

 User-agent: * 

Disallow: /[folder_name]/[file_name.extension]

Als u dus een bestand met de naam "img_0001.png" uit de map "images" wilt blokkeren, gebruikt u dit commando:

5. De toegang tot een map blokkeren, maar toestaan dat een bestand wordt geïndexeerd

Het "Disallow" commando blokkeert bots de toegang tot een map of een bestand.

Het commando "Toestaan" doet het tegenovergestelde.

De opdracht "Toestaan" heeft voorrang op de opdracht "Afwijzen" als de eerste op een afzonderlijk bestand is gericht.

Dit betekent dat u de toegang tot een map kunt blokkeren, maar gebruikers-agenten toch toegang kunt verlenen tot een afzonderlijk bestand in de map.

Dit is het formaat dat je moet gebruiken:

 User-agent: * 

Niet toegestaan: /[map_naam]/

Toestaan: /[map_naam]/[bestand_naam.extensie]/

Als u bijvoorbeeld Google wilt beletten om de map "images" te doorzoeken, maar het toch toegang wilt geven tot het bestand "img_0001.png" dat daarin is opgeslagen, gebruikt u het volgende formaat:

Voor het bovenstaande voorbeeld zou het er als volgt uitzien:

Hierdoor worden alle pagina's in de map /search/ niet meer geïndexeerd.

Wat als u wilt voorkomen dat alle pagina's met een bepaalde extensie (zoals ".php" of ".png") worden geïndexeerd?

Gebruik dit:

 User-agent: * 

Niet toegestaan: /*.extension$

Het ($) teken betekent hier het einde van de URL, d.w.z. de extensie is de laatste string in de URL.

Als je alle pagina's met de extensie ".js" (voor Javascript) wilt blokkeren, is dit wat je zou gebruiken:

Dit commando is bijzonder effectief als u bots wilt beletten scripts te crawlen.

6. Voorkom dat bots uw site te vaak crawlen

In de bovenstaande voorbeelden heb je misschien dit commando gezien:

 User-agent: * 

Kruipvertraging: 20

Dit commando laat alle bots minimaal 20 seconden wachten tussen crawlverzoeken.

Het commando Crawl-Delay wordt vaak gebruikt op grote sites met vaak bijgewerkte inhoud (zoals Twitter). Dit commando vertelt bots om een minimale hoeveelheid tijd te wachten tussen volgende verzoeken.

Dit zorgt ervoor dat de server niet wordt overstelpt met te veel verzoeken tegelijkertijd van verschillende bots.

Zie ook: Hoe geld te verdienen op Twitch in 2023: 10 bewezen methoden

Dit is bijvoorbeeld het Robots.txt-bestand van Twitter dat bots opdraagt minimaal 1 seconde te wachten tussen verzoeken:

U kunt zelfs de crawlvertraging voor individuele bots regelen. Dit zorgt ervoor dat niet te veel bots tegelijkertijd uw site crawlen.

U zou bijvoorbeeld een reeks commando's als deze kunnen hebben:

Let op: U hoeft dit commando niet echt te gebruiken, tenzij u een enorme site beheert met duizenden nieuwe pagina's per minuut (zoals Twitter).

Veel voorkomende fouten om te vermijden bij het gebruik van Robots.txt

Het bestand Robots.txt is een krachtig hulpmiddel om het gedrag van bots op uw site te controleren.

Het kan echter ook leiden tot een SEO ramp als het niet goed wordt gebruikt. Het helpt niet dat er een aantal misvattingen over Robots.txt online rondzwerven.

Hier zijn enkele fouten die u moet vermijden bij het gebruik van Robots.txt:

Fout #1 - Robots.txt gebruiken om te voorkomen dat inhoud wordt geïndexeerd

Als u een map in het Robots.txt-bestand "niet toestaat", zullen legitieme bots die map niet crawlen.

Maar dit betekent nog steeds twee dingen:

  • Bots zullen de inhoud van de map waarnaar gelinkt wordt vanuit externe bronnen crawlen. Zeg, als een andere site linkt naar een bestand in je geblokkeerde map, zullen bots het volgen en indexeren.
  • Rogue bots - spammers, spyware, malware, enz. - zullen gewoonlijk de instructies van Robots.txt negeren en uw inhoud toch indexeren.

Dit maakt Robots.txt een slecht hulpmiddel om te voorkomen dat inhoud wordt geïndexeerd.

Dit is wat u in plaats daarvan moet gebruiken: gebruik de 'meta noindex' tag.

Voeg de volgende tag toe aan pagina's die je niet wilt laten indexeren:

Dit is de aanbevolen, SEO-vriendelijke methode om te voorkomen dat een pagina geïndexeerd wordt (hoewel het spammers nog steeds niet blokkeert).

Let op: Als je een WordPress plugin gebruikt zoals Yoast SEO, of All in One SEO; kun je dit doen zonder enige code te bewerken. Bijvoorbeeld, in de Yoast SEO plugin kun je de noindex tag per bericht/pagina als volgt toevoegen:

Open gewoon een bericht/pagina en klik op het tandwiel in het Yoast SEO vak. Klik dan op de dropdown naast 'Meta robots index'.

Bovendien zal Google vanaf 1 september stoppen met het ondersteunen van het gebruik van "noindex" in robots.txt bestanden. Dit artikel van SearchEngineLand heeft meer informatie.

Fout #2 - Robots.txt gebruiken om privé-inhoud te beschermen

Als je privé-inhoud hebt - bijvoorbeeld PDF's voor een e-mailcursus - zal het blokkeren van de directory via een Robots.txt-bestand helpen, maar het is niet genoeg.

Dit is waarom:

Uw inhoud kan nog steeds geïndexeerd worden als hij gelinkt is vanuit externe bronnen. Bovendien zullen malafide bots hem nog steeds crawlen.

Een betere methode is om alle privé-inhoud achter een login te houden. Dit zal ervoor zorgen dat niemand - legitieme of malafide bots - toegang krijgt tot uw inhoud.

Het nadeel is dat het betekent dat uw bezoekers door een extra hoepel moeten springen, maar uw inhoud zal veiliger zijn.

Fout #3 - Robots.txt gebruiken om te voorkomen dat dubbele inhoud geïndexeerd wordt

Dubbele inhoud is een grote no-no als het gaat om SEO.

Robots.txt gebruiken om te voorkomen dat deze inhoud geïndexeerd wordt, is echter niet de oplossing. Nogmaals, er is geen garantie dat zoekmachinespiders deze inhoud niet zullen vinden via externe bronnen.

Hier zijn 3 andere manieren om dubbele inhoud aan te pakken:

  • Dubbele inhoud verwijderen - Hierdoor verdwijnt de inhoud volledig. Dit betekent echter dat u zoekmachines naar 404-pagina's leidt - niet ideaal. Daarom, schrapping wordt niet aanbevolen .
  • Gebruik 301 redirect - Een 301 redirect vertelt zoekmachines (en bezoekers) dat een pagina is verplaatst naar een nieuwe locatie. Voeg eenvoudig een 301 redirect toe aan dubbele inhoud om bezoekers naar uw oorspronkelijke inhoud te leiden.
  • Rel="canonical" tag toevoegen - Deze tag is een 'meta' versie van de 301 redirect. De "rel=canonical" tag vertelt Google wat de originele URL is voor een specifieke pagina. Bijvoorbeeld deze code:

    //voorbeeld.nl/originele-pagina.html "rel="canonical" />

    Vertelt Google dat de pagina - original-page.html - de "originele" versie is van de dubbele pagina. Als je WordPress gebruikt, is deze tag eenvoudig toe te voegen met Yoast SEO of All in One SEO.

Als u wilt dat bezoekers toegang hebben tot de dubbele inhoud, gebruik dan de rel="canonical" tag. Als u niet wilt dat bezoekers of bots toegang krijgen tot de inhoud - gebruik dan een 301 redirect.

Wees voorzichtig met het implementeren van beide, want ze zullen uw SEO beïnvloeden.

Over naar jou.

Het bestand Robots.txt is een nuttige bondgenoot bij het vormgeven van de manier waarop zoekmachinespiders en andere bots met uw site omgaan. Wanneer het goed wordt gebruikt, kan het een positief effect hebben op uw rangschikking en uw site gemakkelijker te crawlen maken.

Gebruik deze gids om te begrijpen hoe Robots.txt werkt, hoe het wordt geïnstalleerd en enkele veel voorkomende manieren waarop u het kunt gebruiken. En vermijd de fouten die we hierboven hebben besproken.

Verwante lectuur:

  • De beste Rank Tracking Tools voor Bloggers, vergeleken
  • De definitieve gids om Google sitelinks te krijgen
  • 5 krachtige tools voor trefwoordonderzoek vergeleken

Patrick Harvey

Patrick Harvey is een doorgewinterde schrijver en digitale marketeer met meer dan 10 jaar ervaring in de branche. Hij heeft een enorme kennis van verschillende onderwerpen, zoals bloggen, sociale media, e-commerce en WordPress. Zijn passie voor schrijven en het helpen van mensen om online succesvol te zijn, heeft hem ertoe aangezet om inzichtelijke en boeiende posts te maken die waarde toevoegen aan zijn publiek. Als ervaren WordPress-gebruiker is Patrick bekend met de ins en outs van het bouwen van succesvolle websites, en hij gebruikt deze kennis om zowel bedrijven als particulieren te helpen hun online aanwezigheid te vestigen. Met een scherp oog voor detail en een niet aflatende toewijding aan uitmuntendheid, is Patrick toegewijd om zijn lezers te voorzien van de nieuwste trends en advies in de digitale marketingindustrie. Als hij niet aan het bloggen is, is Patrick te vinden op het verkennen van nieuwe plaatsen, het lezen van boeken of het spelen van basketbal.