Så fungerar Robots.txt – liten textfil med stora effekter

Det är inget måste att en Robots.txt-fil eftersom du ofta har tillgång till andra lösningar (som meta robots-taggar på sidnivå), men det är viktigt att känna till hur filen fungerar och vad du kan göra med den.

Vad är Robots.txt?

Robots.txt är en textfil som placeras i rotkatalogen på din webbplats. Den fungerar som en vägledning för sökmotorernas crawlers, som Googlebot, och informerar dem om vilka sidor de får eller inte får besöka. Filen följer en standard som utvecklades under 1994, känd som Robots Exclusion Protocol.

När en sökmotor eller annan crawler besöker en webbplats, kikar den normalt sett först på robots.txt-filen. Om den sedan stöter på en sida som den inte får besöka, kommer den att ignorera den.

Därför är Robots.txt viktig

Att ha en korrekt konfigurerad robots.txt-fil kan vara avgörande om du vill styra vilka delar av din webbplats som ska indexeras av Google och därmed kunna bli synliga på resultatsidorna. Det vanligaste användningsområdet är att exkludera specifika sidor eller grupper av sidor, exempelvis:

Kampanjsidor som riktar sig till en specifik målgrupp via mejl, SMS eller direkttrafik och därför inte ska gå att hitta genom en Googlesökning.
Sidor som är snarlika andra sidor och inte tillför något värde i sökmotorn. Det gör att exempelvis Google kan spendera din crawl budet (mängden resurser som tilldelas din sajt) mer effektivt.
Specifika innehållstyper som pdf-dokument som du av olika anledningar inte vill ska vara synliga i sökresultaten.

Hur man skapar en Robots.txt-fil

Det är enkelt att skapa en robots.txt-fil. Du kan använda en vanlig textredigerare som Notepad för att skriva filen och spara den som "robots.txt". Här är ett exempel på hur en grundläggande robots.txt-fil kan se ut:

User-agent: *
Disallow: /privat/
Sitemap: https://www.dinwebbplats.se/sitemap.xml

Dessutom anges platsen för XML-sitemapen.

Skapa en robots.txt-fil

Att skapa en robots.txt-fil är en simpel process.

Öppna en textredigerare: Använd en enkel textredigerare som Notepad eller TextEdit för att skapa din fil.
Skriv direktiv: Använd följande struktur för att definiera vilka robotar som ska följas och vilka sidor som ska blockeras. Exempel:
```
User-agent: *
Disallow: /privat/
```
I exemplet tillåts alla crawlers att besöka hela webbplatsen, förutom katalogen "/privat/".
Spara filen: Namnge filen "robots.txt" med små bokstäver och spara den i roten av din webbplats.
Ladda upp filen: Se till att filen är tillgänglig på https://www.dinwebbplats.se/robots.txt.

Direktiven i robots.txt

Robots.txt-filen använder ganska enkla direktiv för att styra robotarnas beteende:

User-agent

Specificerar vilken robot regeln gäller. Exempel:

User-agent: Googlebot

Lista med vanliga user-agents

User-agent	Tillhör	Funktion
Googlebot	Google	Indexerar webbsidor
Googlebot-Image	Google	Indexerar bilder
Bingbot	Microsoft Bing	Indexerar webbsidor
Slurp	Yahoo	Indexerar webbsidor
DuckDuckBot	DuckDuckGo	Indexerar webbsidor
Baiduspider	Baidu	Indexerar webbsidor
YandexBot	Yandex	Indexerar webbsidor
AhrefsBot	Ahrefs	SEO-crawlning
SemrushBot	Semrush	SEO-crawlning
MJ12bot	Majestic	Länkanalys

Disallow

Blockerar specifika sidor från att crawlas. Exempel:

Disallow: /hemligt/

Allow

Tillåter specifika sidor även om en övergripande blockering finns. Exempel:

Disallow: /hemligt/
Allow: /hemligt/tillåten-sida.html

Sitemap

Detta direktiv anger platsen för webbplatsens XML-sitemap, vilket hjälper robotar att hitta och indexera sidor mer effektivt. Exempel:

Sitemap: https://www.dinwebbplats.se/sitemap.xml

Crawl-delay

Stöds inte av Google, men kan användas för att styra hur ofta vissa robotar får besöka en webbplats. Exempel:

Crawl-delay: 10

Direktivet kan användas för att exempelvis spara bandbredd från sökmotorer du ändå inte får någon trafik från.

Wildcards

Robots.txt stödjer också (inofficiellt) användning av wildcards, vilket kan vara användbart för att blockera flera sidor eller filer. Till exempel:

User-agent: *
Disallow: /*.pdf$

Detta blockerar alla PDF-filer från att indexeras.

Testa och validera robots.txt

Det är alltid bra att kontrollera att du inte oavsiktligt blockerar viktiga sidor. Många verktyg på nätet kan validera din robots.txt-fil, men du kan också testa den med Google Search Console.

Vanliga misstag

Här är några av de mest förekommande misstagen:

Blockera CSS och JavaScript: Att blockera dessa filer kan hindra sökmotorer från att korrekt rendera webbplatsen, vilket kan påverka SEO negativt.
Överdriven blockering: Att gå för hårt fram med blockeringar kan leda till att viktiga sidor inte indexeras.
Felaktig syntax: Ett litet syntaxfel kan få stora konsekvenser, så det är viktigt att kontrollera och validera filen.
Felaktig placering av filen: Robots.txt-filen måste alltid placeras i rotkatalogen av din webbplats. Om den ligger i en undermapp kommer crawlers att ignorera den. Kontrollera att din fil är tillgänglig på https://www.dinwebbplats.se/robots.txt.

Meta robots och X-Robots-Tag – skillnader

Utöver robots.txt finns det också meta-taggar som kan användas för att styra hur sidor indexeras:

Meta Robots Tag

Denna tagg placeras i HTML-koden på en specifik sida för att styra indexering. Exempel:

<meta name="robots" content="noindex, nofollow">

Detta innebär att sidan inte ska indexeras och att länkar på sidan inte ska tilldelas något värde.

X-Robots-Tag

Denna tagg används i HTTP-headern och fungerar ungefär som meta robots-taggen. Skillnaden är att den kan appliceras på alla typer av resurser, inklusive bilder och PDF-filer. Exempel:

X-Robots-Tag: noindex