Har Google tappat bort sitt eget innehåll?

Som många andra har jag ett par sökningar som jag gör flera gånger om dagen. En av dessa är sökningen efter sökmotoroptimering, där jag förväntar mig att hitta min kategorisida. Sedan en tid tillbaka har den abonnerat på andraplatsen i det organiska sökresultatet, med Wikipedia före sig och Googles egen guide strax därefter. Den senaste veckan har Google stökat extra mycket med resultaten, men här sajten är fortfarande kvar på andraplats. Däremot har Googles egen närvaro i det sökresultatet utsatts för stora förändringar.

Den som klickar på sökträffen får fortfarande samma PDF som brukade ligga där, men den hämtas numera från den avsomnade WordPress.com-bloggen Braigt, som drivs/drevs av Eva Appelgren.

Den korta historien om vad som har hänt är att Google verkar ha tappat bort adressen till sitt eget material, men hittat en exakt kopia på den nästan lika starka wordpress.com-domänen. Det är till och med så att Google verkar tro att versionen som ligger på Eva Appelgrens blogg är originalet, eftersom det är den adressen som Google visar när man vill se Googles cache av av sin egen fil.

Orsaken är att Google har bytt ut sin URL-struktur, flyttat lite filer och sedan misslyckats med logiken i hur URLer ska skrivas om.

Urlen till Guiden brukade vara:

http://www.google.se/sv/se/intl/sv/webmasters/docs/search-engine-optimization-starter-guide-sv.pdf  och det är den URL som Google själva länkar till från sina egna hjälpsidor.  mediaservrar och hittas numera på URLen https://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.se/sv/se/intl/sv/webmasters/docs/search-engine-optimization-starter-guide-sv.pdf

Den URL som listas i sökresultatet är plötsligt en helt annan, nämligen: http://braigt.files.wordpress.com/2010/10/search-engine-optimization-starter-guide-sv.pdf

URLen antyder att Googles PDF laddades upp till Braigt i oktober 2010, vilket även bekräftas av Eva Appelgren, som är lika förvånad som någon annan över att Google plötsligt listar hennes blogg som källa till sin egen guide.

Jag tror att orsaken till att Google inte lyckas hitta sin egen guide på sina egna servrar är ett enkelt redirection-misstag. Möjligen i en kombination av att Google verkar nedvärdera innehåll som ligger på googleusercontent.com-servrarna.

Detta har hänt

Den ursprungliga URLen till guiden finns länkad från åtskilliga sajter på webben, men den som följer den länken hamnar på en av Googles retfulla 404-sidor eftersom materialet är flyttat.

www.google.se/sv/se/intl/sv/webmasters/docs/search-engine-optimization-starter-guide-sv.pdf 301-redirectas till

static.googleusercontent.com/external_content/untrusted_dlcp/www.google.se/sv/se/sv/se/intl/sv/webmasters/docs/search-engine-optimization-starter-guide-sv.pdf men borde redirectas till

static.googleusercontent.com/external_content/untrusted_dlcp/www.google.se/sv/se/intl/sv/webmasters/docs/search-engine-optimization-starter-guide-sv.pdf

Skillnaden ligger alltså i att den felaktiga redirecten innehåller en extra /sv/se/.

Men, jag tror att det även finns ytterligare problem för Google med att hitta rätt adress till sin guiden. Jag är nämligeh övertygad om att Google automatiskt nedvärderar sådant innehåll som ligger på Googles mediaservrar, som varje dag fylls av duplicerat innehåll, i form av bilder och filer som laddas upp via Blogspot och Google+.  Främst från Google+ faktiskt, och jag är rätt övertygad om att Google har varit tvugna att nedvärdera den typen av innehåll för att inte öka sin egen närvaro i sökresultaten på bekostnad av andra sajter, där originalfilerna oftast ligger.

Den här gången gick det dock fel.

Men oavsett orsaken, så är det oroande, eftersom det visar att Google kan gå väldigt vilse när det kommer till duplikat. Men också en smula uppmuntrande, för det visar att inte ens Google själva är immuna mot det strul som ofta uppstår när man flyttar filer och löser det med smarta redirects.