Nikke Index

En kärleksförklaring till Internet sedan 1997 // Nikke Lindqvist

  • Sökmotoroptimering
  • SEO
  • Kontakt

Powered by Genesis

You are here: Home / Sökmotoroptimering / LDA – när Google försöker tolka sajtens innehåll

LDA – när Google försöker tolka sajtens innehåll

2013-02-04 by Nikke Lindqvist 14 Comments

Det har länge spekulerats i huruvida Google använder sig av LDA (Latent Dirichlet Allocation) som en del av algoritmen, och jag har ofta nämnt dett< som tröst till copywriters, som ju alltid avskyr blotta tanken på att skriva SEO-anpassad text.

Det handlar om att Google kan börja tolka vad en sida handlar om, och visa sidan i sökresultatet, utan att den sökta texten finns på den. Eller försöka tolka, genom att gruppera ord som hör ihop och söka semantiska samband som faktiskt inte uttrycks i texten.

Björn Sennbrink bjöd på ett bra exempel härom veckan när han hade googlat efter [public transport örebro] och upptäckte att Lek & Buslandets Örebro-filial fanns med i sökresultatet.

Sökresultatet för [public transport örebro]

Sökresultatet för [public transport örebro]

En ytterst märklig placering skulle man kunna tänka, om man inte tar hänsyn till LDA, och tittar på sökträffen från oru.se strax under, där Google, i brist på sökresultat som innehåller den fasta frasen ”public transport” väljer en sida som innehåller ordet bus. Och det är precis vad Google har gjort när de har valt sökresultatet från lekobus.se också. Sajten är väldigt väl placerad för bus, som i Googles ögon är en undergrupp i det semantiska fältet public transport.

Det går faktiskt att få fram samma, eller liknande resultat även från andra kommuner som har dåligt med information på engelska om lokaltrafiken. Det märks, om inte i sökresultaten, så åtminstone i de relaterade sökfraserna, längst ner på sidan:

Relaterade sökfraser för [public transport västerås]

Relaterade sökfraser för [public transport västerås]

I Stockholm finns betydligt många fler engelska sökträffar för sökträffen, men Googla har ändå utvidgat frasen till att rymma stockholm metro, och, som en spark på Storstockholms Lokaltrafik, sökfrasen stockholm expensive.

Relaterade sökfraser för [public transport stockholm]

Relaterade sökfraser för [public transport stockholm]

De här exempelsökningarna visar att det är ytterst buggiga resultat, när Google inte riktigt förstår skillnaden mellan svenska och engelska semantiska fält, men jag anser att det visar att Google väger in dessa semantiska fält i sin värdering av sökresultatet. Och att det är helt klart att de gör det när det kommer till sökresultat med väldigt lite innehåll. Man kan visserligen fråga sig varför Stockholm och 2010 skulle vara utbytbara.

Nu till det knepiga.

Använder Google LDA även för sökfraser som har hög konkurrens?

Jag misstänker att Google även gör detta när sökområdet har betydligt hårdare konkurrens, men där sökfrasen inte bär med sig information om vilket språk den som söker använder. Ett mig närliggande exempel är sökfrasen SEO, som ju är ett engelskt ord som används internationellt, och där det finns massor av konkurrens, men där Google, sedan slutet av oktorber 2012 har börjat visa resultat från andra marknader än den svenska, även när man söker från Google.se och har svenska som förvalt språk.

En möjlig orsak till detta skulle kunna vara att de amerikanska SEO-sajterna innehåller så många fler av de ord som också ingår i det semantiska fältet på SEO. Dessa saknas på många svenska SEO-sajter (inklulive den här, som ofta ansträngt sig för att översätta det engelska SEO-relaterade fikonspråket till svenska).

Inom SEO-området är det svårt att skilja äpplen från päron eftersom de flesta sajter som tävlar om Googles uppmärksamhet har så satsat så otroligt mycket på länkar, eller har så otroligt många länkar på helt naturlig väg, och det är alltid svårt att separera äpplena från päronen i sådana jämförelser.

Men, i ett försök att hitta fler exempel på sökresultat där Google så att säga ”avslöjar sig” bad jag idag, på Twitter, om exempel på engelsk-svenska homonymer, alltså ord som har samma stavning på engelska och svenska, men helt olika betydels. Som ordet bus i Örebro-exemplet ovan alltså. Jag fick ihop en stadig lista på 82 homonymer som jag nu behöver hitta olika betydelsefält för. Det är inte helt lätt eftersom de allra flesta av dem är väldigt vanliga ord, på både svenska och engelska.

Hela listan finns publicerad här (CC-licens på den), använd den gärna. Och tack till alla som bidrog!

Det enda fallet där jag tycker mig ana en liknade effekt som i örebro-fallet är en sökning efter [bra storek] där jag tycker att sajten storlekar.se har en misstänkt bra placering för sin BH-guide, kanske genom en utmärkt användning av den engelska homonymen bra.

Sökning efter [bra storlek] ger en BH-sida en misstänkt bra placering.

Sökning efter [bra storlek] ger en BH-sida en misstänkt bra placering.

Vad tor ni? Kan jag vara något på spåren här? Jag kommer förstås gräva vidare, men skulle uppskatta alla typer av reflektioner, oavsett om ni har exempel som stödjer de här tankarna, eller om ni tycker att jag helt har förlorat greppet om vad jag håller på med.

Man kan ju tro att det snarare är Google som har förlorat greppet, när man försöker sig på den visserligen helt knäppa, men ändå relativt legitima sökningen [mittens ull] som ger ett vansinnigt resultat som jag inte ens orkar hitta några anledningar till.

Sökning efter [mittens ull] som ger ett mycket svårbegripligt resultat på Google.se

Sökning efter [mittens ull] som ger ett mycket svårbegripligt resultat på Google.se


Tack till alla som hjälpte till med homonymer!

Jättetack till: Emil Isberg, Johan Eklöf, Wille Wilhelmsson, Oscar Altkvist, Annika, Henrik S, Sverker Hemring, Christian Andersson, Jussi Karlgren (som verkligen gick loss på detta), Bobo Wieland, Annika Hamrud, Benny Löfgren, Åse Lundblad, Ann Guldbrandsen, Stefan Mahlstein (som tipsade om den här listan), Jakob Neander, Mathias Stjernström, Micael Widell, Grosshandlaren, Fredrik Ekland, Sandra Zackrisson, Sissela Uisk, Fredric Lundgren, Jonas Hultberg och Stina Hållsten!
Bättre Twitter-följare än er kan man bara inte tänka sig!

Och på Google Plus var det också bra fart. Där fick jag hjälp av Dawid Norrvi, Victor Kaugesaar, Daniel Wångsten, Björn Lindahl, Karin Holmqvist, Ola Sundvall, Jakob Wester, Olle Johansson, Patrik Hamberg, Béatrice Karjalainen, Stefan Pettersson, Håkan Wickström,   (Och jag hoppas verkligen att jag inte har glömt någon nu.)

Share this:

  • Click to share on Twitter (Opens in new window)
  • Click to share on Facebook (Opens in new window)
  • Click to share on Google+ (Opens in new window)

Filed Under: Sökmotoroptimering Tagged With: #Blogg100, LDA, SEO-copy, skriva, Språk

Passa på att läsa

Flikar och ”fäll ut”-innehåll – nästan lika dåligt som dold text

Flikar och ”fäll ut”-innehåll – nästan lika dåligt som dold text

I slutet av januari gjordes en av de större uppdateringarna av Googles riktlinjer för webbplatsägare, och det enligt mig intressantaste stycket kan få stor påverkan på hur webbplatser hanterar javascript-objekt som fäller ut mer text eller visar menyer först efter att man scrollar nedåt på sidan. Så har du en sajt som visar större delen av ett textobjekt först efter att användaren klickar på [fäll ut] eller [visa], så bör du nog läsa den här artikeln.

Fler inlägg från denna kategori

  • Jonas Dahl

    Jag tycker mig se en liten skillnad mellan de två exemplen. I det första tolkar Google frågan och gör en sökning efter närliggande termer som tex ”Bus”, som inte ens finns med i själva frågan. I bra storlek-fallet finns ju faktiskt ”bra” med i både sökfrågan och titeln på sidan, men kanske hjälper LDA till även här. Tror absolut att du är nåt på spåren!

    • Nikke Lindqvist

      Visst finns det en skillnad. Det är jag medveten om, för egentligen bör jag ju hitta den överliggande termen till engelskans ”bra” och kombinera den med storlekar.
      Det är rackarns svårt att hitta de här sambanden, men jag kommer att fortsätta att bearbeta homonym-listan för att försöka hitta några fler exempel, som är bättre.

  • Magnus Bråth

    Riktigt bra post Nikke, jag var fundersam om 100 poster skulle sänka kvaliteten på de bloggar som deltog. Verkar tvärt om med dig, det här är snarare ett steg uppåt. Snyggt fynd.

    • Nikke Lindqvist

      Tackar! Jo, utmaningen tvingar mig att släppa fram tankar som tidigare, på sin höjd, har lett till improviserade föreläsningar på Carnaby-kontoret.

  • André

    Mitt Romney kallas spefullt ”Mittens” och ”ull” antas vara felskrivning av ”full”. ”Mittens ull” tolkas av Google som memet om Mitt Romneys uttalande att hans stab hade samlat ihop ”hela pärmar fulla med kvinnor” knowyourmeme.com/memes/events/binders-full-of-women 🙂

    • Nikke Lindqvist

      Jo, jag vet. Det där sista var mest en skämtsam bild, för att visa att det inte är helt lätt att försöka förstå omständigheterna här.

  • Jakob Mjöbring

    Intressant. Är konsekvensen av detta att vi borde skriva på engelska för Google? För LDA:n försöker väl inte tolka på svenska, eller?

    • Nikke Lindqvist

      Det är den trista konsekvensen just nu när sökfrasen inte bär med sig information om att det är svensk sökning. Det vi får hoppas på att de börjar bli bra på svenska så småningom också.

  • Christofer Brugge

    Med tanke på den mängd patent Google sitter på kring semantiska metoder så tror jag vi kommer se en mycket kraftig utveckling inom detta område framöver. Ett lästips är den här artikeln från Seomoz som tar upp en intressant vinkel på det semantiska söket: http://www.seomoz.org/blog/semantic-web-and-link-building-without-links-the-future-for-seo

  • Robert Nyberg

    Sjukt intressant och tack för det.

  • Stefan Pettersson

    Vad tror vi om ord som kan finnas i ett av språken (svenska) men också är ett egennamn (som används i texter på båda språken)? Som ”alger” eller ”adel”? Kan vi gissa att det blir som Mitt ”Mittens” Romney att den vanligaste användningen vinner?

  • Rafael Pereira Araujo

    Bra post och håller med. Säkert att Google redan använder LDA på något sätt, men det blir intressant att se hur det ska utvecklas framöver och hur kommer det beteer sig med nya sökfraser som samhället själv kommer att införa med alla semantiska förändringar som sker på ett visst språk över tiden och hur skulle Google hantera det.

  • Anders Karlsson

    Det här är löjligt intressant tycker jag och tror definitivt att du är något på spåren, tror också det är något the big G utvecklar hela tiden och att vi kommer få se mycket mer av detta framgent.

  • Pingback: Vi är oerhört tacksamma över #blogg100  som gör att så många bra blogginlägg…()

Söker du konsulthjälp med sökmotoroptimering? Vill du ha ett team som hjälper dig att förbättra sajtens synlighet i Google? Kontakta i så fall Carnaby du finner ett team av experter på synlighet.
Carnaby Solutions

RSS Svarta rubriker (om AIK)

  • Svarta Rubriker sätts på paus
  • Nabbe slår tillbaka mot kritiken
  • Nu är bottenstriden avgjord
  • Fördomen om svenskarna krossades
  • Scouten om hur AIK fick seriens bästa vänsterback

Svartar Rubriker (om AIK)

Nä, Nikke Index händer det inte jättemycket med, men sonen har ett väldigt spännande nyhetsprojekt om AIK igång. Kolla in det: Svarta Rubriker heter det.

Senaste inläggen

  • Minimalisera!
  • 20 år med Google
  • Segelbåten
  • Alla dessa prylar som man inte behöver
  • Remove duplicate lines from a list of lines – on a Mac
  • Grattis på födelsedagen Google!
  • Översättningen som får Google att rekommendera WordPress och Wix
  • Flikar och ”fäll ut”-innehåll – nästan lika dåligt som dold text
  • Varför puffar man på Facebook?
  • Konditori? Vilket hån!

Om det inte har framgått ännu…

”sverigedemokraterna"
Jag röstade inte på Sverigedemokraterna och tänker inte göra det i framtiden heller.


Creeper
MediaCreeper

Jurrasic Park