Igår kväll fick jag en fråga angående Hallsberg.se och varför de inte syns på förstasidan i Google när man söker efter Hallsberg.
Jag provgooglade, och det stämde ju. Hallsberg.se syns knappt alls när man bara söker efter ordet hallsberg i Google.
I jakten på vad som hade hänt var min första åtgärd att se om Google över huvud taget indexerade sajten. Till detta använder jag sökkommandot site:www.hallsberg.se och det visar sig att det gör Google, men så som listningen var uppställd såg man att den var långtifrån den viktigaste sidan på sajten.
Istället fanns http://www.hallsberg.se/index.html på femte plats i sökresultatet.
Internt duplicerat innehåll
I och med att sajten svarar och visar innehåll även på http://www.hallsberg.se/ så kan vi alltså konstatera att sajten lider av internt duplicerat innehåll. Alltså att flera sidor på sajten visar exakt samma innehåll. Det är en av de där sakerna som gör Google förvirrade. Det visade sig dessutom att ett klick på loggan på sajten gick till en tredje URL, http://www.hallsberg.se/2.135f0a1090af83ad1800041521.html
Det finns alltså tre sätt att nå förstasidan, där nästan alla länkar utifrån, från andra sajter gick till www.hallsberg.se och där alla interna länkar gick till den långa med alltför många siffror i. Sidan /index.html verkar vara en rest från tidigare publicerinssystem och har nog inga aktiva länkar från sajten idag.
Lösning i två steg
Steg 1 för att lösa detta är förstås att man låter sajten länka om. Istället för att länka internt och smått automagiskt till den krångliga URLen så bör man göra en extern länk (mer manuell) till rotsidan www.hallsberg.se som ju är den mest länkade sidan. Det gäller dock att göra denna ändring överallt på sajten (glöm inte sitemap-sidan Björn).
Steg 2 är att förklara för Google att de där andra sidorna som man kan nå förstasidan med är misstag i arbetet, som visserligen syns på sajten men inte är någonting som Google behöver lägga på minnet och nu när de har gjort det lika väl kan glömma bort. Lösningen är Canonical-taggen.
På de sidor (index.html och 2.135f0a1090af83ad1800041521.html) som Google inte behöver lägga på minnet lägger man in en tagg som förklarar för Google vilken URL som ska förknippas med innehållet på sidan:
<link rel=”canonical” href=”http://www.hallsberg.se/” />
Det gäller dock att hålla tungan rätt i mun, för om man gör fel kan det få riktigt katastrofala konsekvenser, som när Google glömde bort alla sidor inom Spotlife-nätverket utom bloggarnas förstasidor.
Hallsberg.se använder Sitevision för sin webbpublicering och därför bad jag experterna där om hjälp med hur de ska göra för att lägga in canonical-taggen. I svaret från Karl Eklöf påpekar han att det är något av ett fulhack just nu och att detta kommer att lösas automagiskt i Sitevision 3:
Lägg till ett nytt tillägg i head på siten av typen ”Avancerad”, välj typ ”Velocity” och klistra in följande skript:
#set ($pUtil = $sitevisionUtils.propertyUtil)
#set ($ntUtil = $sitevisionUtils.nodeTypeUtil)
#set ($current = $sitevisionUtils.portletContextUtil.currentPage)#if ($ntUtil.isSitePage($current))
<link rel=”canonical” href=”http://www.hallsberg.se” />
#else
<link rel=”canonical” href=”$pUtil.getString($current, ‘URL’)” />
#endklicka ok -> spara -> publicera …. osv
En canonical länk kommer nu att lägga till på alla sidor, innehållande den ”korrekta” adressen oavsett vilken adress används för att nå sidan.
Pingback: Canonical, 301 och noindex för att undvika duplicerat innehåll()