In deze paragraaf leer je hoe zoekmachines werken aan de hand van de zoekmachine Google. Bekijk eerst het onderstaande filmpje van Het Klokhuis over hoe Google werkt.
Kort samengevat bestaat Google dus uit de volgende onderdelen:
Spider: haalt webpagina's op van het internet en extraheert de tekst.
Indexer: bekijkt de teksten van de verschillende pagina's en geeft elk woord een score.
Database: slaat alle lijsten met woorden op.
Zoekmachine: kijkt welke websites uit de database de woorden bevatten die het beste bij een zoekterm passen.
Webserver: zorgt ervoor dat de communicatie van Google met een gebruiker. Hij presenteert de resultaten die de zoekmachine vindt aan de gebruiker.
De zoekmachine in actie:
In deze animatie zie je alle onderdelen van Google in actie. De animatie bestaat uit vier knoppen.
Een zoekmachine geeft niet zomaar alle resultaten terug in een willekeurige volgorde. Om de gebruiker goed van dienst te zijn, gebruiken alle algemene zoekmachines bepaalde technieken om de beste pagina's bovenaan de zoekresultaten te laten verschijnen. Verschillende factoren kunnen daarbij worden meegewogen zoals bijvoorbeeld:
metatags; dit zijn een soort sleutelwoorden die in de html van een pagina kunnen worden geplaatst. De maker van een pagina kan deze metatags zelf toevoegen. Tegenwoordig worden deze tags bijna niet meer gebruikt voor het meewegen omdat mensen door deze tags makkelijk hun positie op de ranglijst kunnen verbeteren en zelfs misleidende tags kunnen toevoegen.
datum laatste wijziging; als een pagina al vier jaar niet mer gewijzigd is, kan het zijn dat informatie verouderd is. Dat kan een reden zijn om een pagina een lagere positie te geven in de zoekresultaten.
bezoekersaantallen; als een pagina weinig wordt bezocht, kan het zijn dat deze weinig relevante of interessante informatie bevat. Ook dat kan een reden zijn van een lagere ranking.
de inhoud van andere pagina's op een website; stel dat het woord 'vis' slechts eenmaal op een pagina voorkomt en op de andere pagina's van je website niet voorkomt, dan kan het zijn dat deze pagina niet over vissen gaat en dus minder interessant is voor iemand die informatie zoekt over vissen.
de inhoud van de websites die naar jou linken; als in deze andere websites wel vaak het woord 'vis' voorkomt, dan is onze pagina over vis misschien toch wel relevanter dan op basis van het aantal woorden 'vis' verwacht kan worden.
de populariteit van sites die naar jou linken; als veelbezochte websites naar jouw pagina doorlinken, dan kan dat iets zeggen over de kwaliteit van jouw pagina. Dat kan een reden zijn om die pagina een hogere positie te geven in de zoekresultaten.
het aantal pagina's dat naar een pagina linkt en waar zelf ook veel naar gelinkt wordt. Dit is een van de belangrijkste parameters waarop de zoekresultaten van Google worden geordend, en heet pageranking. In onderstaand figuur kun je zien hoe het basaal werkt:
Stel dat het bovenstaande figuur het hele internet zou zijn, dan is de kans dat een willekeurige bezoeker pagina B bezoekt 38,4%. Dat komt omdat veel pagina's naar deze pagina linken. De kans dat iemand uitkomt op een van de paarse websites is 1,6% omdat niemand naar deze pagina's linkt. Je zou verwachten dat websites A en C een even groot percentage zouden moeten krijgen, omdat er telkens maar een website is die naar ze linkt. Echter; er wordt veel gelinkt naar website B waardoor deze een zekere autoriteit krijgt. Als deze naar een andere website linkt (C) weegt dat zwaarder dan de link van D naar A. Bovendien heeft C maar een link: die naar B. Daarmee wordt gesuggereerd dat er kennelijk een sterke relatie bestaat tussen A en C.
De formule voor de Google pagerank ziet er zo uit:
PR(A) = (1 - d) + d * {(PR(T1) / C(T1) + ... + PR(Tn) / C(Tn))}
d is de dampingfactor: de waarschijnlijkheid dat een gebruiker een pagina verlaat voor een andere pagina (standaard d=0.85)
T1,T2,...Tn: citaties; dit zijn de pagina's die naar pagina A verwijzen
C(x): dit zijn het aantal uitgaande links van pagina x
PR(x) is de pagerank van pagina x
Vrij vertaald staat in deze formule: hoe meer pagina's met een hoge pagerank en weinig links naar je linken, hoe hoger je pagerank wordt. Op de universiteit leer je precies wat die formule betekent en hoe het allemaal precies werkt.
Google's methode om de meest relevante websites bovenaan te plaatsen, werkt goed en is waarschijnlijk een grote reden van de populariteit van deze zoekmachine. Er zit ook een nadeel aan. Als jij op je website geen enkele link hebt, en niemand linkt naar jou, dan ben je onvindbaar. Daarnaast zou je kunnen stellen dat Google met deze methode een ijsberg creeert waarvan alleen het topje dat op de eerste pagina's verschijnt, druk bezocht wordt. Lager gerankte pagina's met even relevante informatie krijgen minder attentie en dus minder links, terwijl er relatief steeds meer gelinkt zal worden naar pagina's die hoog eindigen en veel aandacht krijgen.
Lees eerst opdracht 4-4 door, bekijk de documentaire "Google: achter het scherm" van VPRO's Tegenlicht (50 minuten!) en maak dan opdracht 4-4.
"Google: achter het scherm":
De zoekmachine in actie
1: Websites zoeken
De spider zoekt het Internet af naar alle websites die hij kan vinden
2: De gevonden websites indexeren
De spider extraheert alle woorden die hij op een website heeft gevonden en stuurt de teksten naar de indexer.
De indexer telt hoe vaak een woord op een site voorkomt en slaat deze informatie op in de database.
3: De zoekpagina van Google opvragen
De gebruiker vraagt de webpagina van Google om een zoekterm in te voeren
4: Een zoekterm invoeren
De gevraagde zoektermen worden door de webserver doorgegeven aan de search engine
De search engine bekijkt en de zoektermen en bepaalt op een geheime manier welke sites hij uit de database moet halen en naar de gebruiker moet sturen.