LDA – när Google försöker tolka sajtens innehåll

Det har länge spekulerats i huruvida Google använder sig av LDA (Latent Dirichlet Allocation) som en del av algoritmen, och jag har ofta nämnt dett< som tröst till copywriters, som ju alltid avskyr blotta tanken på att skriva SEO-anpassad text.

Det handlar om att Google kan börja tolka vad en sida handlar om, och visa sidan i sökresultatet, utan att den sökta texten finns på den. Eller försöka tolka, genom att gruppera ord som hör ihop och söka semantiska samband som faktiskt inte uttrycks i texten.

Björn Sennbrink bjöd på ett bra exempel härom veckan när han hade googlat efter [public transport örebro] och upptäckte att Lek & Buslandets Örebro-filial fanns med i sökresultatet.

Sökresultatet för [public transport örebro]

En ytterst märklig placering skulle man kunna tänka, om man inte tar hänsyn till LDA, och tittar på sökträffen från oru.se strax under, där Google, i brist på sökresultat som innehåller den fasta frasen ”public transport” väljer en sida som innehåller ordet bus. Och det är precis vad Google har gjort när de har valt sökresultatet från lekobus.se också. Sajten är väldigt väl placerad för bus, som i Googles ögon är en undergrupp i det semantiska fältet public transport.

Det går faktiskt att få fram samma, eller liknande resultat även från andra kommuner som har dåligt med information på engelska om lokaltrafiken. Det märks, om inte i sökresultaten, så åtminstone i de relaterade sökfraserna, längst ner på sidan:

Relaterade sökfraser för [public transport västerås]

I Stockholm finns betydligt många fler engelska sökträffar för sökträffen, men Googla har ändå utvidgat frasen till att rymma stockholm metro, och, som en spark på Storstockholms Lokaltrafik, sökfrasen stockholm expensive.

Relaterade sökfraser för [public transport stockholm]

De här exempelsökningarna visar att det är ytterst buggiga resultat, när Google inte riktigt förstår skillnaden mellan svenska och engelska semantiska fält, men jag anser att det visar att Google väger in dessa semantiska fält i sin värdering av sökresultatet. Och att det är helt klart att de gör det när det kommer till sökresultat med väldigt lite innehåll. Man kan visserligen fråga sig varför Stockholm och 2010 skulle vara utbytbara.

Nu till det knepiga.

Använder Google LDA även för sökfraser som har hög konkurrens?

Jag misstänker att Google även gör detta när sökområdet har betydligt hårdare konkurrens, men där sökfrasen inte bär med sig information om vilket språk den som söker använder. Ett mig närliggande exempel är sökfrasen SEO, som ju är ett engelskt ord som används internationellt, och där det finns massor av konkurrens, men där Google, sedan slutet av oktorber 2012 har börjat visa resultat från andra marknader än den svenska, även när man söker från Google.se och har svenska som förvalt språk.

En möjlig orsak till detta skulle kunna vara att de amerikanska SEO-sajterna innehåller så många fler av de ord som också ingår i det semantiska fältet på SEO. Dessa saknas på många svenska SEO-sajter (inklulive den här, som ofta ansträngt sig för att översätta det engelska SEO-relaterade fikonspråket till svenska).

Inom SEO-området är det svårt att skilja äpplen från päron eftersom de flesta sajter som tävlar om Googles uppmärksamhet har så satsat så otroligt mycket på länkar, eller har så otroligt många länkar på helt naturlig väg, och det är alltid svårt att separera äpplena från päronen i sådana jämförelser.

Men, i ett försök att hitta fler exempel på sökresultat där Google så att säga ”avslöjar sig” bad jag idag, på Twitter, om exempel på engelsk-svenska homonymer, alltså ord som har samma stavning på engelska och svenska, men helt olika betydels. Som ordet bus i Örebro-exemplet ovan alltså. Jag fick ihop en stadig lista på 82 homonymer som jag nu behöver hitta olika betydelsefält för. Det är inte helt lätt eftersom de allra flesta av dem är väldigt vanliga ord, på både svenska och engelska.

Hela listan finns publicerad här (CC-licens på den), använd den gärna. Och tack till alla som bidrog!

Det enda fallet där jag tycker mig ana en liknade effekt som i örebro-fallet är en sökning efter [bra storek] där jag tycker att sajten storlekar.se har en misstänkt bra placering för sin BH-guide, kanske genom en utmärkt användning av den engelska homonymen bra.

Sökning efter [bra storlek] ger en BH-sida en misstänkt bra placering.

Vad tor ni? Kan jag vara något på spåren här? Jag kommer förstås gräva vidare, men skulle uppskatta alla typer av reflektioner, oavsett om ni har exempel som stödjer de här tankarna, eller om ni tycker att jag helt har förlorat greppet om vad jag håller på med.

Man kan ju tro att det snarare är Google som har förlorat greppet, när man försöker sig på den visserligen helt knäppa, men ändå relativt legitima sökningen [mittens ull] som ger ett vansinnigt resultat som jag inte ens orkar hitta några anledningar till.

Sökning efter [mittens ull] som ger ett mycket svårbegripligt resultat på Google.se



Tack till alla som hjälpte till med homonymer!

Jättetack till: Emil Isberg, Johan EklöfWille Wilhelmsson, Oscar Altkvist, Annika, Henrik S, Sverker Hemring, Christian Andersson, Jussi Karlgren (som verkligen gick loss på detta), Bobo Wieland, Annika Hamrud, Benny Löfgren, Åse Lundblad, Ann Guldbrandsen, Stefan Mahlstein (som tipsade om den här listan), Jakob Neander, Mathias Stjernström, Micael Widell, Grosshandlaren, Fredrik Ekland, Sandra Zackrisson, Sissela Uisk, Fredric Lundgren, Jonas Hultberg och Stina Hållsten!

Bättre Twitter-följare än er kan man bara inte tänka sig!

Och på Google Plus var det också bra fart. Där fick jag hjälp av Dawid Norrvi, Victor Kaugesaar, Daniel WångstenBjörn Lindahl, Karin HolmqvistOla SundvallJakob WesterOlle JohanssonPatrik HambergBéatrice KarjalainenStefan PetterssonHåkan Wickström,   (Och jag hoppas verkligen att jag inte har glömt någon nu.)