Det är inget måste att en Robots.txt-fil eftersom du ofta har tillgång till andra lösningar (som meta robots-taggar på sidnivå), men det är viktigt att känna till hur filen fungerar och vad du kan göra med den.
Vad är Robots.txt?
Robots.txt är en textfil som placeras i rotkatalogen på din webbplats. Den fungerar som en vägledning för sökmotorernas crawlers, som Googlebot, och informerar dem om vilka sidor de får eller inte får besöka. Filen följer en standard som utvecklades under 1994, känd som Robots Exclusion Protocol.
När en sökmotor eller annan crawler besöker en webbplats, kikar den normalt sett först på robots.txt-filen. Om den sedan stöter på en sida som den inte får besöka, kommer den att ignorera den.
Därför är Robots.txt viktig
Att ha en korrekt konfigurerad robots.txt-fil kan vara avgörande om du vill styra vilka delar av din webbplats som ska indexeras av Google och därmed kunna bli synliga på resultatsidorna. Det vanligaste användningsområdet är att exkludera specifika sidor eller grupper av sidor, exempelvis:
- Kampanjsidor som riktar sig till en specifik målgrupp via mejl, SMS eller direkttrafik och därför inte ska gå att hitta genom en Googlesökning.
- Sidor som är snarlika andra sidor och inte tillför något värde i sökmotorn. Det gör att exempelvis Google kan spendera din crawl budet (mängden resurser som tilldelas din sajt) mer effektivt.
- Specifika innehållstyper som pdf-dokument som du av olika anledningar inte vill ska vara synliga i sökresultaten.
Hur man skapar en Robots.txt-fil
Det är enkelt att skapa en robots.txt-fil. Du kan använda en vanlig textredigerare som Notepad för att skriva filen och spara den som ”robots.txt”. Här är ett exempel på hur en grundläggande robots.txt-fil kan se ut:
User-agent: *
Disallow: /privat/
Sitemap: https://www.dinwebbplats.se/sitemap.xml
Dessutom anges platsen för XML-sitemapen.
Skapa en robots.txt-fil
Att skapa en robots.txt-fil är en simpel process.
- Öppna en textredigerare: Använd en enkel textredigerare som Notepad eller TextEdit för att skapa din fil.
- Skriv direktiv: Använd följande struktur för att definiera vilka robotar som ska följas och vilka sidor som ska blockeras. Exempel:
User-agent: * Disallow: /privat/
I exemplet tillåts alla crawlers att besöka hela webbplatsen, förutom katalogen ”/privat/”.
- Spara filen: Namnge filen ”robots.txt” med små bokstäver och spara den i roten av din webbplats.
- Ladda upp filen: Se till att filen är tillgänglig på https://www.dinwebbplats.se/robots.txt.
Direktiven i robots.txt
Robots.txt-filen använder ganska enkla direktiv för att styra robotarnas beteende:
User-agent
Specificerar vilken robot regeln gäller. Exempel:
User-agent: Googlebot
Lista med vanliga user-agents
Sökmotor | Typ | User-agent |
---|---|---|
Baidu | Generell | baiduspider |
Baidu | Bilder | baiduspider-image |
Baidu | Mobil | baiduspider-mobile |
Baidu | Nyheter | baiduspider-news |
Baidu | Video | baiduspider-video |
Bing | Generell | bingbot |
Bing | Generell | msnbot |
Bing | Bilder, video | msnbot-media |
Bing | Annonser | adidxbot |
Generell | Googlebot |
|
Bilder | Googlebot-Image |
|
Mobil | Googlebot-Mobile |
|
Nyheter | Googlebot-News |
|
Video | Googlebot-Video |
|
E-handel | Storebot-Google |
|
AdSense | Mediapartners-Google |
|
Google Ads | AdsBot-Google |
|
Yahoo! | Generell | slurp |
Yandex | Generell | yandex |
Disallow
Blockerar specifika sidor från att crawlas. Exempel:
Disallow: /hemligt/
Allow
Tillåter specifika sidor även om en övergripande blockering finns. Exempel:
Disallow: /hemligt/
Allow: /hemligt/tillåten-sida.html
Sitemap
Detta direktiv anger platsen för webbplatsens XML-sitemap, vilket hjälper robotar att hitta och indexera sidor mer effektivt. Exempel:
Sitemap: https://www.dinwebbplats.se/sitemap.xml
Crawl-delay
Stöds inte av Google, men kan användas för att styra hur ofta vissa robotar får besöka en webbplats. Exempel:
Crawl-delay: 10
Direktivet kan användas för att exempelvis spara bandbredd från sökmotorer du ändå inte får någon trafik från.
Wildcards
Robots.txt stödjer också (inofficiellt) användning av wildcards, vilket kan vara användbart för att blockera flera sidor eller filer. Till exempel:
User-agent: *
Disallow: /*.pdf$
Detta blockerar alla PDF-filer från att indexeras.
Testa och validera robots.txt
Det är alltid bra att kontrollera att du inte oavsiktligt blockerar viktiga sidor. Många verktyg på nätet kan validera din robots.txt-fil, men du kan också testa den med Google Search Console.
Vanliga misstag
Här är några av de mest förekommande misstagen:
- Blockera CSS och JavaScript: Att blockera dessa filer kan hindra sökmotorer från att korrekt rendera webbplatsen, vilket kan påverka SEO negativt.
- Överdriven blockering: Att gå för hårt fram med blockeringar kan leda till att viktiga sidor inte indexeras.
- Felaktig syntax: Ett litet syntaxfel kan få stora konsekvenser, så det är viktigt att kontrollera och validera filen.
- Felaktig placering av filen: Robots.txt-filen måste alltid placeras i rotkatalogen av din webbplats. Om den ligger i en undermapp kommer crawlers att ignorera den. Kontrollera att din fil är tillgänglig på
https://www.dinwebbplats.se/robots.txt
.
Meta robots och X-Robots-Tag – skillnader
Utöver robots.txt finns det också meta-taggar som kan användas för att styra hur sidor indexeras:
Meta Robots Tag
Denna tagg placeras i HTML-koden på en specifik sida för att styra indexering. Exempel:
<meta name="robots" content="noindex, nofollow">
Detta innebär att sidan inte ska indexeras och att länkar på sidan inte ska tilldelas något värde.
X-Robots-Tag
Denna tagg används i HTTP-headern och fungerar ungefär som meta robots-taggen. Skillnaden är att den kan appliceras på alla typer av resurser, inklusive bilder och PDF-filer. Exempel:
X-Robots-Tag: noindex