088 - 120 34 00

Who needs Google? Wetenschap en commerciële zoekmachines

Het is altijd goed om je aan de waan van de dag te onttrekken en van een afstandje te bekijken waar je nu eigenlijk mee bezig bent. Het begin van een nieuw jaar is daar een perfecte gelegenheid voor. Afgelopen december was ik aanwezig bij een studiemiddag van de Vereniging voor Geschiedenis en Informatica op de Rijksuniversiteit Leiden. Het was een interessante middag met genoeg stof tot nadenken over de wereld buiten Google en SEO.

De presentaties

De volgende presentaties werden gegeven:

  1. Jacqueline Limpens (AMC): Zoeken in de veelheid van medische informatie. Deze presentatie heb ik helaas gemist;
  2. Peter Verbist (KU Leuven): hidden web: bracht in kaart hoeveel online informatie te vinden is via zoekmachines en hoeveel er nog verborgen is in het ‘hidden web’. Hij denkt dat Google & co. (bijvoorbeeld via het Scholar project) dit hidden web wel volledig zullen veroveren en dat Google ook voor wetenschappers de zoekstandaard wordt;
  3. Eric Sieverts (UU / HvA): Het Omega zoeksysteem van de UB Utrecht [.ppt]. De Universiteitsbibliotheek Utrecht heeft een prachtige alternatieve zoekmachine ontwikkeld die full-text resultaten teruggeeft van enkel wetenschappelijke tijdschriften. Het gebruik van dit systeem neemt toe, zowel in aantal als frequentie. Het vervult duidelijk een behoefte van studenten en beginnende wetenschappers.
    Eric Sieverts ging vooral in op de beleidsmatige keuzes die bij de ontwikkeling van deze machine gemaakt zijn. Social-media achtige mogelijkheden zoals tagging staan nog op de actielijst;
  4. Hans Paijmans (KUB / RACM ): Open Boek: het zoeken naar chronologische referenties in Nederlandse teksten. Deze van origine kunsthistoricus die zijn scriptie schreef over stripboeken ontwikkelt met behulp van kunstmatige intelligentie technieken een zoekmachine die in teksten zoekt naar chronologische referenties. Het systeem begrijpt in ongeveer 80-90% van de gevallen wanneer een getal in een tekst bedoeld is als integer of als een chronologisch teken, zoals een jaartal. Hij ging vooral in op de werking van deze alternatieve zoekmachine;
  5. Arjan van Hessen (UT) en Peter van der Maas (NIOD): Radio Oranje. In dit samenwerkingsproject van de Faculteit Informatica van de Universiteit Twente en het Rijks Instituut voor Oorlogs Documentatie is een zoekmachine ontwikkeld die door middel van spraakherkenning zoekt in geluidsfragmenten. Als bronmateriaal zijn alle uitzendingen van Radio Oranje genomen. Als je bijvoorbeeld zoekt op de term ‘Joden’, dan krijg je in totaal drie resultaten terug, waarbij je ter plekke die specifieke fragmenten kunt beluisteren.

Hidden web

Het is een feit dat heel veel digitale informatie (de schattingen lopen uiteen van 90% tot 60%) nog niet beschikbaar is via zoekmachines als Google. Dit noemt men het hidden web.

Denk bijvoorbeeld aan content die beveiligd is met een wachtwoord (subscription-based) of die om technische redenen voor zoekmachines onbereikbaar zijn (zoals querying van databases met HTML-formulieren).

Dankzij projecten als Google Scholar wordt dit hidden web steeds verder veroverd. De technieken om voorheen verborgen content alsnog te ontsluiten vorderen ook. Volgens Peter Verbist, mediëvist aan de Katholieke Universiteit Leuven, is het slechts een kwestie van tijd voordat (bijna) alle content op het web geïndexeerd is door de commerciële zoekmachines. Het is dus zaak voor studenten om hiermee om te leren gaan en wellicht ook voor wetenschappers om hun artikelen goed vindbaar te maken.

Los van de vraag of die voorspelling steekhoudend is, maakt het duidelijk dat zoekmachines vroeger of later de de facto zoekstandaard gaan worden, ook voor het hidden web en ook voor specifieke zoekers als academische historici.

Buigen of barsten: SEO versus alternatieve zoekmachines

Maar als wetenschapper anno 2008 mag je er geen genoegen mee nemen dat Google nog niet overal antwoord op kan geven. Sterker nog, de kwaliteit van de resultaten van zowel de gewone Google als Google Scholar is simpelweg niet goed: niet compleet, niet recent en niet relevant genoeg.

Simpel gezegd zijn de commerciële zoekmachines gebaseerd op populariteit, wat niet hetzelfde hoeft te zijn als academische kwaliteit. De ironie is trouwens wel dat het PageRank algoritme afgeleid is van het gebruik van citaten in de academische wereld, maar dat terzijde.

Daar komt bij dat wetenschappers, en dat geldt zeker voor historici, getraind zijn in heuristiek (‘vindkunde’) en dat zij de weg weten te vinden in tijdschriftcatalogi, bibliografieën, archiefinventarissen, et cetera. Ze hebben niet persé zoekmachines nodig: hun informatie is door een eeuwenoud systeem van catalogi al goed te vinden.

Hier is dus sprake van een overwegend goed getrainde en zeer kritische doelgroep. Historici hebben dus de keuze: buigen of barsten? Meedoen of een eigen weg bewandelen? Meedoen betekent je bibliotheek openstellen voor projecten als Google Scholar en SEO toepassen om te concurreren in de SERP’s. Je eigen weg bewandelen betekent veelal gebruik maken van alternatieve, eigen zoekmachines en de informatie op de ‘ouderwetse’ manier (wel) vinden.

Ivoren toren?

De tegenstelling tussen commerciële zoekmachines en ‘objectieve’ wetenschap is duidelijk en blijft overeind, ondanks alle verbeteringen die er in het verschiet liggen. Academisch onderzoek is geen populariteitskwestie, althans, dat hoort het niet te zijn. Deze gedachte is heel nobel, en vormt samen met de terechte kritiek op de kwaliteit van de commerciële zoekresultaten een sterk koppel.

Maar toch vraag ik me af: schuilt er niet een zekere arrogantie, een bepaalde ivoren toren mentaliteit in die afzijdige houding? Is het eigenlijk niet JUIST een taak van wetenschappers om de confrontatie met ‘niet-professionele’ websites aan te gaan en zoekers te leiden naar gedegen onderzoek in plaats van de gebruikelijke rotzooi? Als je als wetenschapper die vraag met ‘ja’ beantwoordt, dan mag je eens contact opnemen met Onetomarket 😉

Jouw vraag voor een speeddate van 15 minuten met het team

    onze partners