Het is altijd goed om je aan de waan van de dag te onttrekken en van een afstandje te bekijken waar je nu eigenlijk mee bezig bent. Het begin van een nieuw jaar is daar een perfecte gelegenheid voor. Afgelopen december was ik aanwezig bij een studiemiddag van de Vereniging voor Geschiedenis en Informatica op de Rijksuniversiteit Leiden. Het was een interessante middag met genoeg stof tot nadenken over de wereld buiten Google en SEO.
De presentaties
De volgende presentaties werden gegeven:
- Jacqueline Limpens (AMC): Zoeken in de veelheid van medische informatie. Deze presentatie heb ik helaas gemist;
- Peter Verbist (KU Leuven): hidden web: bracht in kaart hoeveel online informatie te vinden is via zoekmachines en hoeveel er nog verborgen is in het ‘hidden web’. Hij denkt dat Google & co. (bijvoorbeeld via het Scholar project) dit hidden web wel volledig zullen veroveren en dat Google ook voor wetenschappers de zoekstandaard wordt;
- Eric Sieverts (UU / HvA): Het Omega zoeksysteem van de UB Utrecht [.ppt]. De Universiteitsbibliotheek Utrecht heeft een prachtige alternatieve zoekmachine ontwikkeld die full-text resultaten teruggeeft van enkel wetenschappelijke tijdschriften. Het gebruik van dit systeem neemt toe, zowel in aantal als frequentie. Het vervult duidelijk een behoefte van studenten en beginnende wetenschappers.
Eric Sieverts ging vooral in op de beleidsmatige keuzes die bij de ontwikkeling van deze machine gemaakt zijn. Social-media achtige mogelijkheden zoals tagging staan nog op de actielijst; - Hans Paijmans (KUB / RACM ): Open Boek: het zoeken naar chronologische referenties in Nederlandse teksten. Deze van origine kunsthistoricus die zijn scriptie schreef over stripboeken ontwikkelt met behulp van kunstmatige intelligentie technieken een zoekmachine die in teksten zoekt naar chronologische referenties. Het systeem begrijpt in ongeveer 80-90% van de gevallen wanneer een getal in een tekst bedoeld is als integer of als een chronologisch teken, zoals een jaartal. Hij ging vooral in op de werking van deze alternatieve zoekmachine;
- Arjan van Hessen (UT) en Peter van der Maas (NIOD): Radio Oranje. In dit samenwerkingsproject van de Faculteit Informatica van de Universiteit Twente en het Rijks Instituut voor Oorlogs Documentatie is een zoekmachine ontwikkeld die door middel van spraakherkenning zoekt in geluidsfragmenten. Als bronmateriaal zijn alle uitzendingen van Radio Oranje genomen. Als je bijvoorbeeld zoekt op de term ‘Joden’, dan krijg je in totaal drie resultaten terug, waarbij je ter plekke die specifieke fragmenten kunt beluisteren.
Hidden web
Het is een feit dat heel veel digitale informatie (de schattingen lopen uiteen van 90% tot 60%) nog niet beschikbaar is via zoekmachines als Google. Dit noemt men het hidden web.
Denk bijvoorbeeld aan content die beveiligd is met een wachtwoord (subscription-based) of die om technische redenen voor zoekmachines onbereikbaar zijn (zoals querying van databases met HTML-formulieren).
Dankzij projecten als Google Scholar wordt dit hidden web steeds verder veroverd. De technieken om voorheen verborgen content alsnog te ontsluiten vorderen ook. Volgens Peter Verbist, mediëvist aan de Katholieke Universiteit Leuven, is het slechts een kwestie van tijd voordat (bijna) alle content op het web geïndexeerd is door de commerciële zoekmachines. Het is dus zaak voor studenten om hiermee om te leren gaan en wellicht ook voor wetenschappers om hun artikelen goed vindbaar te maken.
Los van de vraag of die voorspelling steekhoudend is, maakt het duidelijk dat zoekmachines vroeger of later de de facto zoekstandaard gaan worden, ook voor het hidden web en ook voor specifieke zoekers als academische historici.
Buigen of barsten: SEO versus alternatieve zoekmachines
Maar als wetenschapper anno 2008 mag je er geen genoegen mee nemen dat Google nog niet overal antwoord op kan geven. Sterker nog, de kwaliteit van de resultaten van zowel de gewone Google als Google Scholar is simpelweg niet goed: niet compleet, niet recent en niet relevant genoeg.
Simpel gezegd zijn de commerciële zoekmachines gebaseerd op populariteit, wat niet hetzelfde hoeft te zijn als academische kwaliteit. De ironie is trouwens wel dat het PageRank algoritme afgeleid is van het gebruik van citaten in de academische wereld, maar dat terzijde.
Daar komt bij dat wetenschappers, en dat geldt zeker voor historici, getraind zijn in heuristiek (‘vindkunde’) en dat zij de weg weten te vinden in tijdschriftcatalogi, bibliografieën, archiefinventarissen, et cetera. Ze hebben niet persé zoekmachines nodig: hun informatie is door een eeuwenoud systeem van catalogi al goed te vinden.
Hier is dus sprake van een overwegend goed getrainde en zeer kritische doelgroep. Historici hebben dus de keuze: buigen of barsten? Meedoen of een eigen weg bewandelen? Meedoen betekent je bibliotheek openstellen voor projecten als Google Scholar en SEO toepassen om te concurreren in de SERP’s. Je eigen weg bewandelen betekent veelal gebruik maken van alternatieve, eigen zoekmachines en de informatie op de ‘ouderwetse’ manier (wel) vinden.
Ivoren toren?
De tegenstelling tussen commerciële zoekmachines en ‘objectieve’ wetenschap is duidelijk en blijft overeind, ondanks alle verbeteringen die er in het verschiet liggen. Academisch onderzoek is geen populariteitskwestie, althans, dat hoort het niet te zijn. Deze gedachte is heel nobel, en vormt samen met de terechte kritiek op de kwaliteit van de commerciële zoekresultaten een sterk koppel.
Maar toch vraag ik me af: schuilt er niet een zekere arrogantie, een bepaalde ivoren toren mentaliteit in die afzijdige houding? Is het eigenlijk niet JUIST een taak van wetenschappers om de confrontatie met ‘niet-professionele’ websites aan te gaan en zoekers te leiden naar gedegen onderzoek in plaats van de gebruikelijke rotzooi? Als je als wetenschapper die vraag met ‘ja’ beantwoordt, dan mag je eens contact opnemen met Onetomarket 😉
Leuk stukje, Ramon, en goed om eens over na te denken.
Erg interessant artikel, met name ook over het Hidden Web en de Ivory Tower.
Zien we tegelijkertijd ook niet dat het juist de wetenschappers en onderzoekers zijn die de kickoff maken met onderzoek naar verbeterde search methoden? Google is ook zo begonnen.
Researchers (zelfs van voor de google-generatie) zien ook dat keyword search engines eigenlijk vanaf het begin af aan al falen. Deze lui zitten niet stil, maar de vruchten die hun werk afwerpt zal waarschijnlijk pas over 10 jaar gemeengoed zijn wanneer het aan de gewone man is gebracht.
Enkele van deze ontwikkelingen zijn nu al een hot item en staan ook wel bekend als het ‘semantic web’, of liever nog volgens TBL ; ‘the web of data’ of ‘giant global graph’.
Het was, naar ik meen, al in het jaar 2000 dat Sir Tim Berners Lee hierover sprak. Nu 8 jaar later zien we pas de eerste paar ontwikkelingen, welke nog niet erg nuttig te noemen zijn voor de gewone man. Langzamerhand komt hier verandering in en ik kijk daarom uit naar de dag dat er een einde komt aan keyword search.
Wanneer het zover is denk ik dat we met zijn allen nog versteld zullen staan over de (commerciele) mogelijkheden die dit uiteindelijk gaat bieden.
Tot slot een artikel die raadzaam is om te lezen; http://novaspivack.typepad.com/nova_spivacks_weblog/2007/11/making-sense-of.html
Semantic web vormt het einde van keyword search? Dat is een boude stelling, hoe zie je dat voor je?
Hey Ramon, mighty interesting!!
@ramon
Het einde van keyword search zoals die in zijn huidige vorm bestaat. In de toekomst kunnen we steeds meer vragen stellen waarin de relatie (of zelfs true meaning) bekend is.
voorbeeld:
ipv ‘rode auto’ zoek je dan eigenlijk op auto, met de kleur rood waarbij de `searchengine` dan ‘weet’ dat het een auto betreft, met de kleur rood. (auto rood ). Search zal dus meer gaan lijken op een query zoals je die nu uitvoert op een relationele database. Met het semantic web is het internet die database.
Okay, duidelijk 🙂 Overigens bedoelde ik met ‘wetenschappers’ niet mensen als Tim Berners_lee die zelf werkt aan het web, maar eerder wetenschappelijke ‘gebruikers’, zoals de meeste historici.
Een beetje ‘spelen’ met bijvoorbeeld het gratis programmaatje windirstat leverde mij een tripje over het internet op wat leidde naar onder andere de volgende pagina’s, waar grote hoeveelheden informatie snel toegankelijk mee kunnen worden gemaakt door databases anders te bevragen dan tot nog toe veelal gebruikelijk is. Misschien een hint voor de zoekenden onder de lezers.
http://www.cs.umd.edu/hcil/spotfire/
http://www.spotfire.com/
Bert!
Het beste voorbeeld dat ik tot nu toe kan van het positieve effect van grafische presentatie voor grote hoeveelheden data vind je op TED, het praatje van Hans Rosling: http://www.ted.com/index.php/talks/view/id/92 . aanrader!