088 - 120 34 00

Google’s taalkunde

Voor Google en zoekmachines in het algemeen, is het belangrijk om te herkennen waar een tekst over gaat. Op deze manier kan de zoeker namelijk de beste zoekresultaten krijgen. De techniek op gebied van tekstherkenning wordt steeds beter. Met de vooruitgang in tekstherkenning worden goede teksten ook steeds belangrijker. Zo is kwaliteit van teksten in de recent gelanceerde “ Panda” update van Google  een belangrijke factor. In dit artikel gaan we wat dieper in op enkele methoden die gebruikt zouden kunnen worden bij het inzichtelijk maken van een tekst door zoekmachines.

 

Bepalen van de taal

Een belangrijke stap in het verwerken van een stuk tekst is het herkennen van de taal waarin een tekst geschreven is. Als je als zoekmachine de taal van een stuk tekst herkent, kan je je bezoeker zoekresultaten voorschotelen met teksten geschreven in de eigen taal van de bezoeker. Zo kan je op google.nl altijd kiezen voor “Pagina’s geschreven in het Nederlands”.

Wat maakt een taal uniek?

De eerste stap is om te bepalen wat een taal uniek maakt. Zo kent het Engels veel woorden die in het Nederlands niet voorkomen en vice versa. Er zijn echter ook overeenkomsten tussen beide talen. Zo schreef de New York Post vorig jaar “Fourth Shrek is pure drek”. Een zin die voor een groot deel ook in het Nederlands zou kunnen voorkomen. Nu is de kans klein dat een tekst in twee verschillende talen precies hetzelfde zou zijn, maar het geeft aan dat woorden niet per se uniek zijn voor een taal.

Om het systeem te verfijnen kan er gekeken worden naar de letters en lettercombinaties die voorkomen in een taal. Zo komen “ij” en “van” vaak voor in het Nederlands, maar zie je in het Engels veel “th”  en “he”. Deze kennis kan je gebruiken voor het maken van N-grammen.

Content is belangrijk

Om te bepalen welke eigenschappen precies uniek zijn voor een taal, moet je veel teksten in de specifieke taal verzamelen. Dit wordt ook wel een corpus genoemd. Belangrijk bij het opbouwen van een dergelijke corpus is de grote diversiteit aan teksten. Als je corpus namelijk enkel nieuwsberichten of Wikipedia artikelen bevat krijg je geen goed beeld van een taal.

Aan de hand van verschillende corpora kan je vervolgens per taal een unieke fingerprint maken (pdf) met de eigenschappen per taal. Vervolgens kan de fingerprint van een stuk tekst vergeleken worden met de fingerprints van de verschillende talen. De fingerprint met het minste verschil, zal waarschijnlijk de taal zijn waar de tekst in is geschreven.

Het probleem van deze methode is dat het moeilijk is om onderscheid te maken tussen talen die nauw verwant aan elkaar zijn, zoals het Nederlands en het Afrikaans. Daarnaast wordt de methode nauwkeuriger naarmate je de taal van een grotere tekst wilt berekenen. Dit is dan ook gelijk één van de redenen waarom genoeg content op al je pagina’s belangrijk is. Google wil namelijk voorkomen dat een zoekopdracht op Google.nl Afrikaanse resultaten bevat. Naast de taal van een pagina wordt ook de TLD van een domein gebruikt om de doelregio te bepalen. Bij generieke TLD’s zoals .com kan in Google Webmastertools worden aangegeven wat de Geographic Target van een domein is.

Bepalen van het onderwerp

In het begin van het zoekmachine tijdperk werd het thema van een webpagina veelal bepaald aan de hand van de meta keywords. Hier was echter makkelijk misbruik van te maken door maar zoveel mogelijk meta keywords op te geven. Deze methode was dan gelukkig ook geen lang leven beschoren.

Een andere methode was simpelweg kijken naar de keyword dichtheid van een pagina. Als een woord 3% of misschien zelfs 5% van de tekst omvat, dan zal de pagina wel over dat onderwerp gaan. Op deze manier loop je echter tegen een probleem aan als je pagina over Ajax gaat. Gaat je pagina dan namelijk over de voetbalclub, brandblussers of toch over het wasmiddel?

Om te bepalen welke woorden relevant zijn, ga je kijken welke woorden vaak samen voorkomen in een tekst. Hiervoor kan de eerder genoemde corpus gebruikt worden. Aan de hand van de corpus kan je onder andere zien:

  1. Hoe vaak komt een woord voor in een taal?
  2. Welke woorden komen vaak samen voor in een tekst?
  3. Welke woorden komen vaak met elkaar voor in een tekst?
  4. Welke woorden komen vaak naast elkaar voor in een tekst?

De eerste vraag kan gebruikt worden om de trefwoorden van een tekst te bepalen. Als een bepaald woord veel vaker in je tekst voorkomt dan de verwachting zou zijn gebaseerd op de corpus, betreft het waarschijnlijk een trefwoord. Met deze techniek kan je bijvoorbeeld ook de grootte van het web schatten.

Verwante woorden

Door te kijken welke woorden vaak in een tekst met elkaar voorkomen, kan je verwante woorden vinden. Hierbij dient wel rekening te worden gehouden met de kans waarop dit toevallig kan gebeuren. Door te kijken met welke werkwoorden en bijvoeglijk naamwoorden een woord vaak voorkomt, kan je meer zeggen over de betekenis van een woord.

Zo kan bijvoorbeeld bepaald worden dat “blackjack”, “poker” en “hartenjagen” overeenkomsten vertonen. Het betreffen namelijk alle drie kaartspellen. Omdat alleen de eerste twee spellen in (online)casino’s worden gespeeld, zullen deze hoogstwaarschijnlijk als meer verwant worden gezien. Deze komen namelijk regelmatig naar voren met de term casino en andere relevante woorden.

Door tot slot ook te kijken naar woorden die vaak naast elkaar voorkomen in een tekst kan je collocaties van losse woorden onderscheidden. Collocaties zijn woorden die gezamenlijk een bepaalde betekenis hebben. Zoals vice versa en Tweede Kamer. Op deze manier kun je ook prima namen herkennen zoals Albert Heijn en Marco Borsato.

Welke woorden vindt Google verwant?

Deze achtergrond informatie is leuk, maar hoe kan je dit nou gebruiken? Voor het bepalen van de taal van een tekst en voor het bepalen van het onderwerp heeft Google dus veel tekst met veel relevante termen nodig. Op zich niets nieuws, maar we kunnen wel iets beter bepalen hoe Google je tekst ziet. Daarnaast is het verstandig om ook relevante termen te gebruiken tijdens linkbuilding. De anchorteksten worden namelijk ook gebruikt om de relevantie van een pagina te bepalen.

Maar hoe richt je nou met deze achtergrond informatie een tekst in? Op dit moment kiezen SEO’s vaak een focuswoord met enkele synoniemen voor een bepaalde pagina. Het is dan de bedoeling dat de pagina met deze term hoog in de zoekresultaten komt. Er kan echter beter een focusgebied worden toegekend aan een pagina. Natuurlijk blijf je het focuskeyword houden, maar door je slechts te richten op dat woord, worden relevante termen vaak vergeten.

Door een grondig zoekwoorden onderzoek kan je vaak een betere tekst schrijven, maar ook Google helpen om het onderwerp van je pagina beter te bepalen. Daarnaast is het vaak erg goed voor je longtail verkeer om veel relevante termen te gebruiken. Op die manier heeft één van de top pagina’s op de Onetomarket site de afgelopen maand verkeer gehad op 295 relevante termen.

Als we een tekst gaan schrijven, bepaal je vaak de focuskeywords van je tekst. Google biedt een groot aantal tools aan waarmee je deels kan achterhalen wat Google relevant vindt.

Zo is er het “Wonder Wheel”. Deze tool kan je terugvinden in de linker balk bij de zoekresultaten. In onderstaande voorbeeld zien we bijvoorbeeld dat Google een connectie ziet tussen marketingplan en affiliate netwerk.

Ook met behulp van Google Sets kan je snel aan relevante termen komen. Hoewel deze tool nog in beta is, kan het je op weg helpen met het zoeken naar (voor Google) relevante termen. Daarnaast is er de voor velen bekende AdWords tool voor het vinden van zoekwoorden. Ook Google Insights kan prima gebruikt worden voor het vinden van nieuwe relevante termen. Onder de kop “Zoektermen” staan vaak bruikbare termen.

Een tool die ook veel inzicht geeft in de manier waarop Google zou kunnen omgaan met het bepalen van relevante termen is Wortschats van de universiteit van Leipzig. Tot slot is Synoniemen.net ook een goede bron voor het vinden van synoniemen en dus relevante termen.

Bepalen van de “Reader level”

Er zijn diverse algoritmes die een score toekennen aan de leesbaarheid van je tekst. Een bekend voorbeeld hiervan is de Flesh-Kincaid test. Deze test bepaald op basis van het aantal woorden per zin en het aantal lettergrepen per woord hoe leesbaar je tekst is. De score geeft een indicatie van het opleidingsniveau die de lezer zou moeten hebben om de tekst te begrijpen.

Per taal zit er verschil in het gebruik van lettergrepen per woord. Voor het Nederlands hebben onder andere Douma en Brouwer een poging gedaan om de formule van Flesch aan te passen.

Op de Engelse versie van Google kan je inmiddels onder geavanceerd zoeken ook filteren op reading level. Met de steeds verder gaande personalisering van de zoekresultaten zou het een logische stap zijn als Google hier op een gegeven moment automatisch rekening mee gaat houden.

Advies

Houd tijdens het schrijven van content rekening met de problematiek waar zoekmachines mee te maken krijgen tijdens het analyseren van tekst. Zorg voor genoeg content en genoeg relevante termen, zodat Google en Bing de taal en het onderwerp van de tekst kunnen bepalen. Houd daarnaast rekening met het kennisniveau van je bezoeker. De ontwikkelingen op het gebied van tekstanalyse gaan snel.  Het schrijven van goede content wordt dan ook steeds belangrijker.

Stel vrijblijvend een vraag aan één van onze Consultants

onze partners