Het is erg interessant om te weten in welke volgorde de Googlebot je website crawlt. Als je de volgorde weet, kan je het gebruiken om Google te manipuleren zodat het als eerst je belangrijke pagina’s crawlt. Met name op websites met veel content wil je dat Google als eerst de belangrijke secties van je website eerst crawlt.
Om te testen hoe Google hier mee omgaat, hebben we een domein genomen zonder geschiedenis. Dit wil zeggen, nog niet eerder geregistreerd en geen inkomende links. Vervolgens hebben we een pagina op deze website gemaakt met 250 linkjes op de pagina. De URL’s en link teksten lopen op van 1 t/m 250, in dezelfde volgorde als dat ze in de broncode staan. Deze linkjes verwijzen vervolgens weer naar pagina’s met 250 linkjes er op (enz.). We hebben de URL aangemeld bij Google via “addurl” en wachtten af.
Tijdens het eerste bezoek van Google heeft het alleen de root pagina bezocht (http://example.com). Na enkele uren bezocht het de site opnieuw en bezocht het alle 250 pagina’s die waren gevonden op de root pagina. Op het eerste gezicht leek het erop dat Google alle links op de pagina verdeelde in drie blokken:
- Blok1: link 1 t/m 9
- Blok2: link 10 t/m99
- Blok3: link 100 t/m 250
Als Googlebot een pagina bezoekt is de kans drie keer groter dan het meer links volgt van blok 1 dan van blok 3. De kans dat Googlebot links van blok 1 bezoekt is zelfs 6 keer groter dan links van blok 3. In blok 3 zijn er twee links die een iets grotere kans hebben om bezocht te worden in vergelijking met de rest van het blok. Dit zijn respectievelijk /100/ en /200/.
Met enkel de resultaten van deze test, is het te vroeg om te kunnen concluderen dat Google altijd de pagina’s opverdeeld in deze blokken. Het is mogelijk dat Google de verdeling van de blokken baseert op de lengte van de linktekst, op de lengte van de gehele tekst, op de positie van de andere links, etc. Om al deze mogelijkheden uit te sluiten hebben we enkele extra testen uitgevoerd.
Deze test welke ons uitsluitsel gaf was een test waarbij de lengte van de URL’s in willekeurige volgorde op een pagina stonden. Deze links refereerde op hun beurt weer naar pagina’s met ook links van diverse lengtes in willekeurige volgorde (enz.). Googlebot lijkt links te crawlen in volgorde van de lengte van de URL. Dit is goed om te weten als je wat geavanceerdere sitesculpting wilt bedrijven.
Takeaways
Met deze inzichten, wordt het belangrijker om goed na te denken over de lengtes van je URLs. Google crawlt korte URL’s eerder dan langere URL’s. Het helpt niet om alle URL’s even lang en kort te maken. Als ze allemaal dezelfde lengte hebben, worden ze random gecrawld. Het is dus verstandig om de juiste pagina’s een korte URL te geven. Maak echter altijd een overweging tussen indexatie en crawlen. Een korte URL kan handig zijn om snel gecrawld te worden, maar de URL is ook van invloed bij indexatie en rankings.
Het is dus verstandig om er rekening mee te houden bij het ontwerpen van je sitestructuur. Waarschijnlijk is het nog belangrijker om mee te nemen bij linkbuilding. We hebben het nog niet getest, maar het is waarschijnlijk dat Google op dezelfde manier omgaat met het crawlen van externe links als interne links. Dit zou betekenen als je met een link naar je website tussen honderden andere links staat, je je kansen vergroot om gecrawld te worden door een korte URL te kiezen.
Hoi Rolf,
leuk dat je dit soort onderzoek doet! Ik mis nog wel wat variabelen die misschien invloed hebben gehad: hoe zag de html er uit, zaten daar divs in bijvoorbeeld?
Heb je geprobeerd om een div in het midden van de pagina op te nemen en die als ID “content” te geven? Stonden er headings op die pagina? Zo ja, was er een vergelijkbaar effect voor die headings als voor het begin van de pagina?
Daarna zou ik wel geïnteresseerd zijn in de implicaties hiervan. Als je jouw uitkomsten als waarheid neemt, dan zou het omdraaien van je HTML (navigatie onderin, content bovenin) alleen al om die reden exteem zinvol kunnen zijn. Wat zou je nog meer voor conclusies kunnen trekken?
Een hoop opmerkingen, maar begrijp me niet verkeerd, ik ben alleen maar voor gedegen onderzoek in de SEO markt. Dat gebeurt veel te weinig, en wordt nog minder gedeeld, dus ik ben blij dat je het doet, ga zo door!
Hoi Joost,
Ik kan me voorstellen dat je de context van het onderzoek op sommige punten een beetje mist. Deze publicatie is dan ook onderdeel van een groter geheel, waarvan de rest van de resultaten binnenkort nog zal worden gepubliceerd. Daar wordt ook de vraag van je headings beantwoord.
Om antwoord te geven op je overige vragen: Nee we hebben de links niet geplaatst in divs. De body van de HTML bestaat puur en alleen uit links tijdens deze test, juist om alleen de crawler te testen. Wel hebben we aanwijzingen dat de crawler dom is en hoogstwaarschijnlijk hier geen onderscheid in zal maken. (puur naar het crawlproces gekeken.)
Als we deze uitkomsten als waarheid nemen, zou je dus juist geen voordeel, maar ook geen nadeel hebben bij het omdraaien van je content en navigatie (wederom puur naar het crawlproces gekeken).
Om verdere conclusies te kunnen trekken is er nog verder onderzoek nodig. Op dit moment zijn we hier dan ook volop mee bezig.
De overige resultaten van deze test zullen binnenkort online komen, dan zal ik ook je vraag over het gebruiken van headings beantwoorden.
Leuk onderzoek. Links die belangrijk zijn voor je indexering zou je op basis hiervan hoog in de code willen hebben. En een menu dat links bevat naar items die weinig voor je indexatie betekenen (contact, privacy statement, enz) kan zo omlaag.
Toch is de crawlsnelheid niet voor alle sites even belangrijk, blogs en nieuwssites worden al snel genoeg gecrawled zonder een goede structuur. En oudere berichten hoeven niet zo vaak meer. Maar een vacaturebank of marktplaats/speurders achtige heeft hier zeker baat bij. Zo kunnen de grote aantallen nieuwe advertenties sneller gecrawled worden et een efficiente structuur.
Eigenlijk niets nieuws, maar toch goed om te weten en weer eens bevestigd te hebben. Ben benieuwd naar het vervolg.
Volgens mij ben ik in het artikel niet geheel duidelijk geweest. Uit de resultaten van dit onderzoek blijkt vooralsnog dat Google voor het crawlen dus geen onderscheidt maakt in de positie van URLs in de broncode, maar puur sorteert op lengte van URL. Deze lijn wordt doorgetrokken op dieper gelegen pagina’s. De kans dat een pagina wordt gecrawld lijkt groter te worden naarmate de pagina in de sitestructuur onder een kortere URL valt.
Voorbeeld:
http://example.com/x/lange-url/
http://example.com/lange-url/x/
Als we er vanuit gaan dat de Googlebot example.com voor het eerst bezoekt en binnenkomt op de root van de website, zal http://example.com/x/ eerder worden bezocht dan http://example.com/lange-url/. Verder zal http://example.com/x/lange-url/ eerder worden gecrawld dan http://example.com/lange-url/x/ . De positie van de links lijkt voor het crawlen geen invloed te hebben. De crawler komt nogal dom over, de kracht van Google zit daadwerkelijk in het achteraf ordenen van de geïndexeerde pagina’s.
Kijk je naar het “Reasonable Surfer Patent” wat onlangs weer even hot was, zal je wellicht gelijk hebben en kan je dus gaan kijken naar de positionering van je links. In dit onderzoek lag de focus op de crawler en niet op rankings / linkwaarde. Wil je dit onderzoek inzetten voor je contact pagina of je privacy statement, dan zou je de URLs van die pagina’s dus langer moeten maken dan die van je belangrijke pagina’s.
Verder heb je gelijk dat de crawlsnelheid niet belangrijk is voor alle sites. Maar voor de voorbeelden die je noemt kan het wel erg belangrijk zijn. Daarnaast kunnen (grote) nieuwe websites hier veel belang bij hebben. Ook grote webshops met een wisselend assortiment kunnen er baat bij hebben.
Hoi mensen, ik stond eerste op pagina 2 met een zoekwoord “aannemer amsterdam” nu kan ik mijn site niet vinden.
http://www.allroundbouwservice.nl
wat zou de reden hiervan zijn?
MVG murat
HALLO,
INFO DIE DOOR EEN WEBMASTER VERWIJDERT
IS EN ALSOOK UIT HET CACHEGEHEUGEN VAN
GOOGLE
HOEVEEL TIJD IS TUSSEN DE DEFINITIEVE
VERWIJDERING UIT DE ZOEKMACHINE (CRAWLEN) EN HET BOVENSTAANDE,,
BEDANKT