Canonical, 301 och noindex för att undvika duplicerat innehåll

De senaste dagarna har jag i flera olika projekt stött på frågeställningar om hur man ska undvika internt duplicerat innehåll. Frågan om varför Hallsberg.se inte syns i sökningar efter Hallsberg var ett exempel. Ett annat exempel är två sajter som säljer biljetter till fotboll i london, båda på engelska, men till olika marknader, i olika valutor och med små olikheter i språket (football/soccer). Det går inte att arbeta med sökmotoroptimering utan att sätta sig in i de olika metoderna för hur man ska undvika duplicerat innehåll idag.

Det finns flera olika sätt att lösa problem som uppstår i och med att man ibland behöver använda samma texter på olika sajter. Jag tänkte här gå igenom de tre vanligaste och försöka exemplifiera när och varför de olika metoderna ska användas.

Canonical-taggen

Canonical-taggen är ett otroligt kraftfullt verktyg. Kanske det mest kraftfulla vi har för att styra sökmotortrafik. Om den används fel kan det få katastrofala konsekvenser för sajtens sökmotornärvaro så det är viktigt att kolla och dubbelkolla när man använder den.

Canonical-taggen för den här sidan ser ut så här:

<link rel=”canonical” href=”http://www.lindqvist.com/canonical-301-noindex/” />

[UPPDATERING] OBS! Tidigare visades taggen med grafiska, så kallade Curly Quotes istället för raka citationstecken (” istället för ”) vilket kan ställa till det för den som klistrar in dem med i vissa typer av textbehandlare. Det ger nämligen vansinniga fel i koden och leder till att Google inte kan följa med länkarna. Om du klipper och klistrar härifrån, var noga med att det blir raka citattecken istället för grafiska. [/UPPDATERING]

Genom att tala om vilken som är den kanoniska sidan ser vi till att  Google kommer att förknippa alla andra varianter som sidan skulle kunna visas under med denna URL. Om jag till exempel skulle råka peka hit domänen muttaburraurus.se och någon skulle länka till muttaburraurus.se/canonical-301-noindex/ så skulle Google ändå förstå att sidan ändå bara skulle visas under www.lindqvist.com.

Canonical är ofta extra lämpligt som verktyg för webbutiker och Google själva har exemplifierat med en webbutik som säljer Malacos fiskar (Swedish Fish på engelska). Jag kommer därför för evigt att koppla ihop canonical-taggen med bilden av Malaco-fiskar.

Om jag hade ett publiceringssystem där någon kunde ändra i URLen och ändå låta sidan visas med samma innehåll (som Expressen.se har) så skulle det inte göra någonting om någon ondsint kollega började länka till fel sorters URLar.

Jag behöver heller inte oroa mig för konsiga referenser via mitt RSS-flöde, Feedburner och Twitter eller Facebook, där Feedburner lägger till olika parametrar i min URL, eftersom Google instrueras om hur den egentliga URLen ska se ut. Canonical-taggen kan alltså användas inom en domän likaväl som mellan domäner.

Fördelen är att man inte bråkar med hur Google indexerar sidorna, vilket alltid kan kännas lite nervöst. Man slipper begränsa spindling och man slipper oroa sig för att göra fel i länkning.

Nackdelen med Canonical är att Google verkar ha svårt att överföra länkkraft. Det blir därför bara en passiv åtgärd och inte en aktiv. Om folk länkar till fel sida så kan jag undvika duplicerat innehåll, men jag har ingen möjlighet att tillgodogöra mig länkarna.

301 redirect

301 redirect, att på serversidan styra vidare besökaren med en automatisk redirect, har länge varit det bästa sättet att flytta med länkkraft när man byter domän på en sajt eller byter ut adresser internt inom sajten. Det är fortfarande det bästa sättet att ta hand om gamla länkar när man byter publicerinssystem, men det är tveksamt om det i längden kommer att vara lika bra när man byter domän på sajten. 301 redirect är däför närmast att likna med en permanent adressändring.

Sedan ett år tillbaka har det stått klart att 301 inte överför den fulla kraften mellan domäner, och det är ganska uppenbart att det i sin tur beror på att det blev väldigt populärt bland vissa SEO-företag att köpa upp sajter med bra länkar och peka dessa mot kunders sajter med hjälp av 301. En smart metod som är väldigt svår för en utomstående att upptäcka.

Internt inom sajten är det dock fortfarande en metod som fungerar bra. Det bevisade jag för en tid sedan när jag bytte ut länkstrukturen på den här sajten så att katalogen där alla blogginlägg om sökmotoroptimering visas bytte adress från /b/om/sokmotoroptimering till /sokmotoroptimering/ – den gamla URLen pekas vidare med en 301 redirect vilket gör att jag faktiskt fortfarande här och var har kvar gamla länkar även internt på sajten.

En fullkomlig guide i hur du skapar denna typ av redirect i olika system hittar du här.

Jag använder 301 redirect när jag flyttar en sida eller många sidor, när jag byter domän på en hel sajt  eller när jag stänger en kampanjsajt och vill leda besökarna vidare till huvudsajten istället.

Fördelen med 301 recirect är att du tillgodogör dig det mesta av länkkraften till de gamla sidorna. Det är ett ganska enkelt sätt att snabbt kunna flytta en sida internt på sajten utan att behöva jaga rätt på alla gamla länkar. Det som har många domäner som pekar mot samma server kan också med 301 redirect se till att peka dessa mot en enda sajt.

Nackdelen med 301 är att det används i ökad utsträckning av spammare och därför med tiden kommer att nedvärderas av Google.

noindex i meta robots

<meta name=”robots” content=”noindex” />

Den här taggen förhindrar Google och andra sökmotorer från att indexera sidorna. Sidor som har den här taggen kommer alltså över huvud taget inte att indexeras av Google. Att tagga upp sidor med noindex är ganska så oåterkalleligt och är ingenting jag rekommenderar om man inte är helt säker på att man aldrig någonsin vill att  Google ska få indexera sidorna. I mitt fall använder jag det faktiskt på vissa typer av arkivsidor på den här bloggen (författararkivet och datumarkivet) eftersom dessa alltid kommer att vara direkta kopior av andra sidor på sajten, då jag är den enda författaren.

Det finns två varianter till noindex. Det är att lägga till follow, eller nofollow, vilket instruerar Google om huruvida de får följa länkarna på sidan eller inte. I princip finns alltså fyra varianter av robots-taggen:

  1. noindex, nofollow – Google får varken spara sidan eller följa länkarna på den. Detta är jämförbart med att förbjuda Google att indexera genom att lägga till en regel i robots.txt.
  2. noindex, follow – Google får inte spara sidan men får följa länkarna (till andra blogginlägg t.ex.)
  3. index, nofollow – Google får indexera och spara sidan, men inte följa länkarna ifrån den. (Jag har aldrig sett denna användas på ett seriöst sätt, och det strider mot allt jag vet om sökmotorer att använda den.)
  4. index, follow – normalläget, samma sak som att inte alls använda meta robots, då Google får indexera och följa länkarna på sidan.

Jag använder väldigt sällan nofollow eftersom jag tycker att det är att utmana ödet att styra över hur Google indexerar våra sajter. Undantaget är sidor som har liten eller ingen betydelse för länkvärdet, och som ingår i flöden där Google ändå inte har någonting att göra, eller som innehåller information som Google mycket hellre får indexera på annat håll på sajten.