Hoe sociaal is internet?

Home

Welkom bij de module "Hoe sociaal is internet?"

Internet is niet meer weg te denken uit ons leven. Als de internetverbinding uitvalt, is er een stuk minder te doen op je computer. Hoe vaak zoek je wel niet even iets op via Google of op Wikipedia? Hoeveel maakt het in contact komen met vrienden via Hyves, MSN of e-mail deel uit van je computergebruik? Voor veel mensen zijn communicatie en het opzoeken van informatie de belangrijkste functies van de computer, en voor allebei heb je internet nodig.
Maar hoe vind je de informatie die je zoekt op het internet? Hoe betrouwbaar en volledig is de informatie die je vindt? Wat is informatie eigenlijk? Daarover gaat deze module.
Het doel van deze module is meer te leren over de technologie achter internet en de sociale impact van het internet. Ook doe je vaardigheden op met het zoeken op internet.

Studiewijzer

Welkom bij de module "Hoe sociaal is internet?"

Deze module is opgebouwd uit een lessenserie van 6 afzonderlijke delen. Afhankelijk van waar in de les de nadruk wordt gelegd kan overwogen worden af te wijken van onderstaande volgorde. Een alternatief staat genoemd na de standaard opbouw.

De standaard opbouw kenmerkt zich door een bottom-up benadering van de onderdelen binnen de module. Eerst de details; waarin technische aspecten de revue passeren. Vervolgens worden de sociale aspecten en gevolgen van deze technische verworvenheden belicht. In de module zijn dan ook drie onderdelen te onderschijden: Deel A - Hoofdstuk 1 en 2, waar e-mail in het voetlicht staat. Deel B - Hoofdstuk 3 en 4, waar gestart wordt met hoe het internet werkt, wat het web is en het zoeken er in. Deel C - Hoofdstuk 5 en 6, waar wordt voortgebouwd op de kennis uit H3 en H4 en de nieuwe web aspecten worden behandeeld.

De module is gebaseerd op een studielast van 40 uur.

Een standaard indeling voor de module:

Een alternatieve opbouw is een top-down benadering. Dat wil zeggen dat eerst de bovenliggende onderwerpen worden doorgenomen: eerst Hoofdstuk 3 en daarna Hoofdstukken 5 en 6. Om vervolgens de Hoofdstukken 1, 2 en 4 worden doorgenomen.

Ga nu naar het lesmateriaal.

Succes!

Inhoudsopgave

Inhoudsopgave

1 - Introductie internet
1a - Distributie: DNS
1b - http
1c - E-mail
 

2 - E-mail
2a - Velden e-mail headers
2b - Spam, Scams, Spoofing, Phishing


3 - Sociale aspecten internet
3a - Privacy en anonimiteit
3b - Censuur en filteren van informatie
3c - Toegankelijkheid van internet
3d - Internet en milieu


4 - Informatie zoeken
4a - Zoeksystemen
4b - Uitgelicht: Google
4c - Zoeken op internet: tips en tricks
4d - Het verborgen internet


5 - Web 2.0
5a - Fora
5b - Blogs + twitter
5c - Betrouwbaarheid en volledigheid van informatie
5d - Tagging


6 - Semantic Web
6a - Wat is Semantic Web?
6b - Een voorbeeld van Semantic Web data
6c - Uitleg van het voorbeeld
6d - Ambiguïteit opgelost?
6e - Linked Open Data
6f - Iedereen weet wat je bedoelt

1. Introductie internet

1 Introductie internet

Download voor je begint met het hoofdstuk nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 1

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

 

 

Het internet is in principe niets meer dan een netwerk van computers. Wat begonnen is als een aantal kleine netwerkjes is uitgegroeid tot het wereldwijde fenomeen internet. In dit hoofdstuk kijken we naar de geschiedenis van internet en hoe jouw computer contact kan leggen en informatie kan uitwisselen op het internet.

Bekijk het filmpje dat de geschiedenis van het internet uitlegt.

http://www.youtube.com/watch?v=9hIQjrMHTv4

Moet je je voorstellen: de computers van het ARPANET waren eigenlijk de eerste computers die altijd aan stonden en altijd aan het telefoneren waren, 24 uur per dag. Daarvoor moet je naar alle computers over het internet bellen en die moesten dan toevallig aan staan en de telefoon opnemen.

 Maak nu opdracht 1-1.

1a Distributie: DNS

Domain Name Service (DNS) is een belangrijk fenomeen voor het Internet. DNS servers vertalen een naam, zoals "hyves.nl", naar een IP-adres. Elke computer op een netwerk heeft een IP-adres, dat gebruikt wordt als identificatie.
Bijvoorbeeld, als jij op je computer naar Hyves wil gaan, dan type je in een programma als Firefox in: http://hyves.nl (http:// hoef je niet in te typen, want dat doet Firefox voor je). Op dat moment zorgen DNS servers ervoor dat het adres "hyves.nl" vertaald wordt naar een IP-adres. De computer van Hyves identificeert deze en stuurt je de webpagina toe. Dat IP-adres wordt dus gebruikt om contact te leggen tussen jouw computer en die van Hyves.

Bekijk het filmpje.

 

 Maak nu opdracht 1-2.

1b http

Het protocol: http

HTTP
Als je computer met de hulp van DNS servers weet welke computer jou de webpagina van Hyves kan sturen, dan zullen jouw computer en die van Hyves data met elkaar uitwisselen volgens het "HyperText Transfer Protocol" (HTTP). Dit protocol schrijft voor hoe computers webpagina's kunnen aanvragen en toesturen. De computer die een aanvraag doet heet een "client" en de computer die de webpagina op aanvraag toestuurt heet de "server".
Bijvoorbeeld: je gaat naar http://hyves.nl (zie dat het protocol in het adres staat). Jouw computer is de client en stuurt dan een "GET" bericht naar de server van Hyves, want zo staat het in 't HTTP protocol voorgeschreven. Vervolgens stuurt de server jou de webpagina die je aangevraagd hebt, in dit geval de homepage van Hyves. Die pagina wordt weergegeven door het programma waarin je aan het internetten bent, zoals Firefox.
Het HTTP protocol was erg belangrijk voor de groei van het internet, omdat webpagina's de eerste echt makkelijk te gebruiken internet "applicatie" waren. Iedereen wil nou eenmaal een makkelijke applicatie en niet een moeilijk te gebruiken applicatie. Moet je je voorstellen: websites zonder links! Dat er ergens staat waar je verder moet zoeken en dat je dan vervolgens dat adres weer in moet tikken en misschien helemaal geen toegang krijgt tot die andere computer, omdat hij uit staat of omdat je er geen gebruikersnaam op hebt, enz. Voordat er webpagina's met links waren moest je altijd zelf precies weten welk adres (b.v. hyves.nl of het bijbehorende IP nummer, 94.100.119.1) je in moest voeren om iets te downloaden. Door het web kun je gewoon zonder na te denken op een link drukken en kom je automatisch op de juiste server terecht. Vroeger, voor HTTP, waren er andere internet applicaties, zoals FTP. Stel dat Hyves toen al bestond, dan moest je om de pagina van Hyves op te vragen het volgende doen (in vet gedrukt staat wat je zelf in moest tikken, ja: alles moest je toen tikken):

 

$ ftp
ftp> open hyves.nl

connected to hyves.nl
220 hyves.nl FTP server ready.
Name (anonymous): anonymous
331 Password required for anonymous (or enter e-mail address).
Password: ***********
230 User anonymous logged in
Remote system type is UNIX.
Using ASCII mode to transfer files.
ftp> get index.html
200 PORT command successful.
150 ASCII data connection for index.html (94.100.119.1,3134) (14153 bytes).
226 ASCII Transfer complete.
local: index.html remote: index.html
14153 bytes received in 47.1 seconds (299 bytes/s)
ftp> bye
$ lynx index.html

           Hyves.nl - Always in touch with your friends (p1 of 10)
Link: openid2.provider
Link: openid.server
Member details
Hyves - Always in touch with your friends
    * Username: _____________________
    * Password: _____________________
    * [ ] Remember me
    * Show:
       Online
        * Online
        * Busy
        * Be Right Back
        * Away
        * In a call
        * Out to Lunch
        * Appear Offline
     Select your online status
enz.

 

Doordat het reizen over het internet zo eenvoudig als drukken op een link is geworden is het ook heel eenvoudig geworden voor mensen met een website om verschillende delen van die website op verschillende computers te bewaren. De gebruiker merkt daar eigenlijk helemaal niets van. Doordat het web op veel verschillende computers draait terwijl je daar niets van merkt kon het web heel erg groot worden, want iedereen beheert zijn eigen kleine stukje van het web. Je hebt niet meer een grote computer nodig om alles tegelijk op te slaan.

HTTPS
Als er data met het HTTP protocol verstuurd wordt tussen een client en server, dan is dat niet beveiligd. Dat betekent dat als meneer X die data onderschept, hij de pagina die jij hebt opgevraagd ook kan zien. Dat is onhandig als je bijvoorbeeld je e-mail op een website wil bekijken, want je wil niet altijd dat meneer X je liefdesbrieven kan lezen. Om die reden is het HTTPS protocol ontwikkeld. Als een client en server via het HTTPS protocol communiceren, dan wordt er eerst een code afgesproken. Die code wordt gebruikt om de data te versleutelen, zodat alleen de client de data die de server verstuurt kan lezen en omgekeerd. Nadat de twee computers deze code hebben afgesproken wordt er vervolgens op dezelfde manier gecommuniceerd als HTTP, maar dan veilig.
Bijvoorbeeld, als je naar http://gmail.com gaat, dan word je automatisch doorgestuurd naar een ander adres dat met https:// begint. Dit betekent dat de gebruikersnaam en het wachtwoord die je invult om in te loggen versleuteld verstuurd worden, zodat niemand anders die data kan lezen. Dus als je wilt weten of de data die je op een site invult beveiligd verstuurd wordt, kijk dan even in de adresbalk of het adres begint met https://.

1c E-mail

Net als websites is e-mail een internet applicatie. Je kan een e-mailadres herkennen aan het apenstaartje (@). Als je een e-mail vestuurt aan "jan@gmail.com", dan geeft het e-mailadres aan dat de mailserver "gmail.com" een mailbox zou moeten beheren van "jan". Dus als je een mail naar jan@gmail.com stuurt , dan zal de mailserserver van gmail.com dat bericht bewaren en aan Jan tonen als hij z'n mail checkt.

Waar voor websites het HTTP protocol gebruikt wordt, wordt er voor e-mail het SMTP protocol gebruikt om e-mail te vesturen. Het SMTP protocol schrijft voor dat er een aantal velden gegeven worden die "headers" heten, zoals degene die de mail verzendt (From) en de geadresseerde (To). Bijvoorbeeld, jouw e-mailadres is klaas@live.com en je stuurt een mail naar jan@gmail.com. De SMTP server van live.com zal het bericht dat jij getypt hebt ontvangen en het doorsturen naar een server van Gmail. De Gmail server zal het weer doorsturen naar een speciale aflever-mailserver die de mail bij Jan aflevert.
In het volgende hoofdstuk zal je meer leren over zowel sociale en technische aspecten van e-mail.

 

Upload nu de opdrachten van hoofdstuk 1 in de Postbus.

  • Ga naar 'Add' en klik op 'Upload files';
  • Selecteer de opdrachten van hoofdstuk 1 bij 'Bladeren';
  • Zet het hoofdstuknummer en je naam bij 'Display name'.

2. Mail

2 Mail

De komst van e-mail heeft een enorme invloed gehad op sociale contacten, nationaal en internationaal. Voor de komst van e-mail waren de twee belangrijkste communicatiemiddelen de brief en de telefoon. Een brief (ook wel pesterig "snail mail", slakkenpost, genoemd) deed er minimaal een dag over om aan te komen, internationaal zelfs veel langer, terwijl e-mail meestal binnen een minuut aankomt (in ieder geval daar op de wereld waar internet altijd beschikbaar is). De telefoon is wel snel, maar heeft het probleem dat hij aan de andere kant opgenomen moet worden om een gesprek te hebben. Er bestaat wel voicemail (vroeger was dat het antwoordapparaat met een bandje erin), maar moet je voorstellen dat je even veel voicemail berichten zou krijgen als e-mails, dan zou je geen tijd meer hebben om ze allemaal af te luisteren.

Door de handige eigenschap van e-mail dat je hem kunt lezen wanneer je maar wilt, snel of langzaam, is het mogelijk geworden om goed te communiceren met mensen aan de andere kant van de wereld, die meestal slapen als jij wakker bent en andersom. Daardoor kunnen mensen overal over de wereld elkaar nu veel eenvoudiger leren kennen en bijvoorbeeld zaken doen.

Diezelfde eigenschap heeft ook gezorgd voor een enorm probleem: ongewenste reclame per e-mail, de zogeheten "spam". Als je niet meer zelf aan de telefoon hoeft te wachten op antwoord of zelf alle enveloppen hoeft dicht te plakken kun je miljoenen reclameberichten tegelijk versturen. Er wordt tegenwoordig zo veel spam verzonden (meer dan 100.000.000.000 spam berichten per dag wereldwijd) dat meer dan 90% van ALLE e-mail spam is. In het volgende hoofdstuk, "Sociale aspecten van het internet" hebben we het over de invloed van alle zoemende servers op het milieu. Onthoud maar alvast even dat de e-mail servers dus 90% van de tijd met ongewenste e-mail bezig zijn, dan kun je er dan achter komen waarom dat zo erg is...

 

Download voor je verder gaat met het hoofdstuk nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 2.doc

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

2a Velden e-mail headers

Voordat we verder ingaan op de soorten ongewenste e-mails die er zijn, kijken we eerst hoe een e-mail er precies uitziet.
Een e-mail bestaat uit twee delen: de headers en de body. De inhoud van de e-mail heet de body en wat bij een brief op de buitenkant van de envelop zou staan heten de headers.
De belangrijkste headers zijn:

Subject:    Het onderwerp van het mailtje. Door alleen het onderwerp te lezen moet de ontvanger zo goed kunnen begrijpen waar het mailtje over gaat dat hij kan besluiten wanneer (en of) hij het mailtje wil lezen.
Date:    Het tijdstip waarop het mailtje is verstuurd (niet het tijdstip waarom het is ontvangen).
To:    Een lijst van de e-mailadressen waaraan de e-mail is verstuurd. Bij de door jou ontvangen e-mails ben jij dat dus meestal zelf. Er hoeft niet per se iets ingevuld te worden in het To veld, maar dan moet het CC of BCC (zie verderop in dit lijstje) wel ingevuld zijn. Houd er wel rekening mee dat het over het algemeen niet beleefd is om op deze manier "anoniem" e-mail te versturen.
From:    Het e-mailadres van de afzender van de e-mail (in ieder geval: het adres dat is opgegeven door de afzender).
CC:    staat voor "carbon copy", een lijst van adressen van mensen aan wie je een kopie van het mailtje wilt sturen zonder dat je ze echt als geadresseerde wilt zien. Mensen die mee mogen lezen dus. Carbon copy komt van carbonpapier uit de tijd dat mensen nog wel eens een kopietje van een brief wilden maken voor de tijd van het kopieerapparaat. Zie Wikipedia:http://nl.wikipedia.org/wiki/Carbonpapier
BCC:   staat voor "blind carbon copy", net als CC, maar dan krijgt niemand te zien dat er ook een kopietje aan iemand anders is gestuurd. Zo kun je dus "stiekem" een kopietje aan iemand anders sturen, zonder dat de geadresseerde in het To veld dat kan zien. De beste reden om BCC te gebruiken is als je b.v. een uitnodiging aan al je vrienden wilt sturen en je wilt niet dat iedereen een enorme lijst e-mailadressen boven het e-mailtje krijgt te zien (en dat dus ook iedereen daarna elkaars, misschien wel geheime, e-mailadres kent). Op deze manier BCC gebruiken in plaats van To wordt gezien als beleefd.

Voorbeeld van invoervelden voor e-mail-headers in Microsoft Outlook

https://support.google.com/websearch/answer/136861?hl=en

E-mails worden gegroepeerd per onderwerp doordat je e-mailprogramma bijhoudt welke mailtjes als antwoord verstuurd zijn op een ander mailtje met "reply to". Dat wordt in de headers automatisch bijgehouden door de Message-ID en In-Reply-To headers. Zo'n groepering wordt een "thread", een (rode) draad, genoemd.
Als je een discussie met een aantal mensen wilt hebben kun je "reply to all" gebruiken. Daarmee stuur je je e-mailtje als antwoord in dezelfde thread naar alle adressen in het To en CC veld (en dus niet de mensen in het BCC veld van het orginele mailtje, want die informatie heb je nooit ontvangen). Over het algemeen wordt het als niet beleefd gezien om berichten naar veel mensen te sturen met "reply to all", omdat misschien niet iedereen de thread even belangrijk vindt en dus geen zin heeft in de ongevraagde e-mails, en omdat niet iedereen het eens is.

2b Spam, Scams, Spoofing, Phishing

Genoeg over de technische details van e-mail. We gaan het nu hebben over de onguurdere kanten van e-mail: ongewenste e-mail, bedrog, misleiding, en diefstal van persoonsinformatie. We laten je bijvoorbeeld zien hoe je kunt herkennen dat je bedrogen wordt via e-mail. Dat lijkt heel eenvoudig, maar is soms veel lastiger dan je denkt. Als het altijd zo eenvoudig was zouden mensen niet rijk worden van spam versturen, omdat nooit iemand antwoord zou geven. Dat is jammer genoeg wel het geval. Als iemand 1.000.000 e-mails verstuurt en maar een op de duizend mensen reageert, dan reageren er alsnog duizend mensen. Dat zijn meer mensen dan er in de tijd die het kost om ze te versturen in de meeste winkels langskomen...

Het werd al eerder genoemd: spam, ongewenste e-mail. Waar komt dat woord eigenlijk vandaan? SPAM is een merk ingeblikt vlees en betekent spiced ham, dus gekruide ham (Gewenste e-mail wordt ook wel "ham" genoemd, dus pure ham zonder kruiden, hoe toepasselijk). Het verband tussen gekruide ham en ongewenste informatie komt uit de volgende komische sketch van Monty Python uit 1970:

http://www.youtube.com/watch?v=anwy2MPT5RE

Spam spam spam spam (massa e-mails met een "oprechte" bedoeling)
De meeste spamberichten zijn e-mails met keurige e-mail headers en als er links naar webpagina's in de body staan zijn die ook correct. Het gaat de meeste spammers namelijk om klanten te werven en als die geen antwoord kunnen geven doordat het "From" veld fout of misleidend is, dan kunnen je toekomstige klanten je niet bereiken.
Je kunt spam herkennen aan dezelfde soort eigenschappen als huis-aan-huis foldertjes: scheeuwerigheid, reclame, overdreven claims, enz.

Een andere soort eigenschappen waaraan je spam kunt herkennen wordt veroorzaakt door hoe spamfilters werken. Spamfilters leren automatisch te herkennen welke woorden vaak in spam voorkomen en selecteren zo e-mails waar die woorden vaak in staan en halen ze uit je mailbox. Als je dus e-mail gaat versturen met het woord "loterij" of een of andere merknaam van medicijnen of andere veel verkochte spullen, zoals rolex horloges, dan wordt het automatisch herkend als spam. Om de spamfilters te omzeilen zijn spammers expres woorden fout gaan spellen, zoals b.v. "r0lex" in plaats van "rolex", of "lottrey" in plaats van "lottery". Daardoor zie je vaak spam met spelfouten, en zijn de meeste mails met spelfouten dus ook spam.

Spamfilters werken ook omgekeerd. Woorden die vaak in mails staan die geen spam zijn worden gebruikt om automatisch te bepalen welke berichten geen spam zijn. Dat betekent dat spam die verzonden is door mensen met dezelfde (voor- of achter)naam als mensen waarmee je vaak mailt vaak onterecht als "ham" in plaats van spam worden herkend. Daardoor krijgen veel mensen spam van mensen met bijna dezelfde naam als hun vrienden.

Scams / Phishing (massa e-mails waarin sprake is van oplichting of misleiding)
Iets anders dan spam zijn scams (scam = oplichting). Scams zijn misleidende e-mails die bedoeld zijn om je in een of ander snood plannetje te lokken. Mensen proberen bijvoorbeeld door je te vertellen dat ze iets gratis aan te bieden hebben jouw adresgegevens afhandig te maken. Sommige scams zijn heel eenvoudig te herkennen, maar andere scams zijn dat niet. Het komt voor dat de scammers met geavanceerde computerprogramma's automatisch afleiden hoe je heet, wat voor dingen je leuk vindt, en wie je kent, bijvoorbeeld van je Hyves pagina. Die informatie gebruiken ze dan om een zo authentiek mogelijk mailtje te sturen. Dan kan het dus zijn dat het lijkt dat een van je vrienden je schrijft dat hij geld van je wil lenen, terwijl het eigenlijk heel iemand anders is.

Scams waarbij het doel van de scam is om jouw gegevens te stelen heten Phishing. De naam phishing komt van het woord fishing, vissen, want phishers zitten naar jouw gegevens te vissen. Voorbeelden van phishing zijn: jou proberen te misleiden om ze je pincode te laten vertellen, of je wachtwoord, of je adres en de tijden wanneer je op vakantie bent te laten vertellen, zodat ze weten wanneer ze bij je kunnen inbreken.

Misleiding in e-mails en op het web heet Spoofing. Een spoof is een truc of vervalsing. De meest voorkomende misleiding is dat de e-mail headers worden vervalst of door links naar pagina's te maken met een valse URL (b.v.http://www.radobank.nl of http://www.rabobank.t2.nl in plaats van http://www.rabobank.nl) of links naar een pagina die precies lijkt op een andere (b.v. een nepversie van de Rabobank website). Als je een rare URL ziet, bedenk dan dat het adres precies gelijk moet zijn aan http://www.rabobank.nl/..., anders kan het zomaar ergens anders op de wereld staan. (Waar dat precies is kun je nakijken met de IP locator die je straks gaat gebruiken.)

Je kunt phishing op de volgende manieren herkennen:

  1. Denk gewoon even logisch na over wat voor voorstel je nou eigenlijk gedaan wordt. Banken zullen je nooit vragen om informatie via e-mail. Dat doen ze alleen per brief of in persoon bij de bank en dan moet je altijd je paspoort meenemen. Je moet nooit (een kopie van) je paspoort opsturen, hoe dan ook, en nooit je wachtwoord van wat dan ook opsturen per e-mail.
  2. Kijk goed naar de IP adressen van de verzender en van de weblinks in de e-mail body. Als de e-mail van de Rabobank bank lijkt te komen, dan moet je gewoon even nakijken of de plaatjes en de links in de e-mail ook precies naar http://www.rabobank.nl verwijzen.
  3. Veel scams gebruiken een verkeerd soort te formele of juist te vriendelijke taal. Ze spreken je aan met meneer (of in mijn geval professor), terwijl je nooit zo wordt aangesproken, of wildvreemde mensen spreken je aan als "mijn beste vriend".
  4. Een heel groot gedeelte van de scams komt uit Nigeria en gaat om geld. Als je niet toevallig voor de Nigeriaanse overheid of een Nigeriaanse bank werkt, dan weet je zo'n beetje zeker dat je met een scam te maken hebt. De meeste van deze scams zijn phishing naar kopietjes van je paspoort, om dat vervolgens te gebruiken om een Europees land in te komen door te zeggen dat hun paspoort is gestolen, maar dat ze nog wel een kopietje hebben (met een vervalste pasfoto).
  5. Lees de volgende webpagina: http://www.419eater.com/. Op deze pagina wordt beschreven hoe scammers worden teruggescamt, grappig en leerzaam.

 

 Maak nu opdracht 2-1 en 2-2.

Upload nu de opdrachten van hoofdstuk 2 in de Postbus.

3. Sociale aspecten internet

3 Sociale aspecten internet

De invloed van internet op ons dagelijks leven lijkt groter dan we vaak beseffen en de ontwikkelingen binnen en rond het internet staan evenmin stil. Internet is in nauwelijks vijftien jaar tijd de grootste bron van informatie geworden die de mens ooit heeft gemaakt en is tevens een nieuw medium voor (anonieme) sociale interactie.
De aanwezigheid van het internet en de beschikbaarheid van informatie lijken vanzelfsprekend, maar zijn regelmatig onderwerp van discussies.
De beschikbaarheid van informatie kan worden beinvloed door censuur, of doordat de eigenaar van de informatie betaald wil worden. De openheid van het internet heeft ook gevolgen voor je privacy. Je kunt met gemak informatie op internet zetten, maar het er weer afhalen is soms moeilijk. Voor opsporingsdiensten is het mogelijk om je e-mails te lezen en na te gaan welke pagina's je allemaal bekijkt. Hoe verandert het internet als niemand meer anoniem is, en waarom zouden we wel of niet anonimiteit moeten willen?
Het internet lijkt open voor iedereen, maar deze openheid is gebonden aan praktische beperkingen: is er stroom, heb je geld voor een computer, en zijn er eigenlijk wel internetartikelen in jouw taal?

Kortom, het internet verandert de samenleving, maar tegelijkertijd bepaalt de samenleving ook hoe het internet eruitziet en gebruikt wordt.

In dit hoofdstuk behandelen we een aantal aspecten van deze wisselwerking tussen internet en samenleving in de volgende paragrafen:

3a. privacy en anonimiteit op internet
3b. censuur en filteren van informatie
3c. toegankelijkheid van internet: beperkingen en nieuwe wegen
3d. internet en milieu

 

Verdiepingsmateriaal
Web Science is een nieuw en interdisciplinair [ http://nl.wikipedia.org/wiki/Interdisciplinariteit ]onderzoeksgebied dat zich bezighoudt met het bestuderen van het internet en onderzoek doet naar hoe de toekomst en bruikbaarheid van het internet kunnen worden veiliggesteld. Het onderzoek is interdisciplinair omdat het internet een grote invloed heeft op de hele maatschappij. Binnen Web Science onderzoek werken informatici samen met juristen, economen, wiskundigen en sociale wetenschappers.
Een aantal onderdelen in deze cursus kan worden beschouwd als onderwerpen van onderzoek binnen Web Science; bijvoorbeeld betrouwbaarheid van gegevens (zie hoofdstuk 5d), de sociale impacts van het internet (o.a. dit hoofdstuk) en het Semantische Web (hoofdstuk 6).

Zie voor een overzicht van onderwerpen binnen Web Science: http://webscience.org/research/roadmap.html

 

Download voor je verder gaat met het hoofdstuk nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 3.doc

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

3a Privacy en anonimiteit

In de vorige paragraaf is al heel kort gesproken over privacygevoelige gegevens. In deze paragraaf gaan we verder in op een aantal specifieke problemen rond privacy, anonimiteit en internet.

Privacy: wie is aansprakelijk als het mis gaat?

Lees eerst:
http://www.iusmentis.com/aansprakelijkheid/providers/
en concentreer je daarbij vooral op de verschillen in aansprakelijkheid tussen een access provider en een hosting provider. Bekijk vervolgens de twee onderstaande cases.

Casus I: Smaad
Een handelaar werd op een door Lycos gehoste website beschuldigd van oplichting. De man had een goed lopende internetwinkel, maar door het onjuiste bericht liep hij inkomsten mis en was zijn goede naam langdurig geschaad.

Casus II: Star Wars Kid
In 2002 bedacht een Canadese jongen X dat het wel aardig zou zijn om zichzelf te filmen als Darth Maul uit Star Wars. In 2003 plaatsten vrienden het filmpje op een voorloper van Youtube waarna het razendsnel werd verspreid en uitgroeide tot een van de meest bekeken filmpjes ooit; een schatting uit 2006 gaat uit van 900 miljoen keer. Het leven van deze jongen veranderde drastisch; zijn identiteit werd bekend, de pers achtervolgde hem en uiteindelijk heeft hij zijn naam moeten veranderen. Het filmpje staat nog steeds online.

http://www.youtube.com/watch?v=HPPj6viIBmU

 Maak opdrachten 3-1 en 3-2.

 

Anonimiteit: wie weet wat?

Als het goed is, is in de vorige paragraaf duidelijk geworden dat providers verplicht kunnen worden om de gegevens van hun klanten aan derden te geven. Providers kunnen aan deze gegevens komen doordat de unieke IP-adressen van een computer zijn gekoppeld aan postadres; de rekening van je internetabonnement moet immers ergens naartoe worden gestuurd!
Het verstrekken van persoonlijke gegevens gebeurt ook op grotere schaal dan relatief kleine aanklachten van smaad zoals in de eerste case. Zo is het mogelijk dat een overheid achter de identiteit van bloggers kan komen die zich kritisch uiten over het politieke beleid. Dit wil met name nog wel eens gebeuren in landen met een beperkte vrijheid van meningsuiting. Het is afhankelijk van de provider en de lokale wetgeving hoe er met de anonimiteit van internetgebruikers wordt omgegaan.

Een andere grote verzamelaar van persoonlijke gegevens zijn de zoekmachines. Om je het zoeken gemakkelijker te maken, wordt iedere zoekterm die je intypt, opgeslagen. Bij sommige zoekmachines kun je dat ook zien; je eerdere zoektermen verschijnen in een keuzemenuutje onder de zoekbalk. Dat is natuurlijk handig, maar wie minder goede bedoelingen heeft, zou kunnen nagaan waar jij allemaal naar hebt gezocht de laatste maanden. Vooralsnog lijkt het erop dat de bedrijven achter de zoekmachines deze gegevens niet aan derden geven. Toch zijn sommige mensen ongerust over deze situatie; de gegevens zijn er immers, en dat maakt de verleiding groot om ze toch te gebruiken...

Iemand die zich daar bijvoorbeeld zorgen over maakt is Rop Gongrijp. In onderstaand filmpje vertelt hij kort iets over de voor- en nadelen van centrale opslag van persoonlijke gegevens.
Bekijk het filmpje en beantwoord dan de vragen.

 

http://www.youtube.com/watch?v=7dWUrmQrCSE

Hacker Gongrijp over privacy en dataopslag.

 

 Maak opdracht 3-3.

Wie om wat voor reden dan ook zo anoniem mogelijk gebruik willen maken van internet, kan zich aansluiten op een anoniem netwerk. Bekijk eerst de volgende pagina's over Tor, een netwerk voor anonieme communicatie op internet:

 

 Maak opdracht 3-4.

Privacy en anonimiteit: ook eigen verantwoordelijkheid

Wie informatie over zichzelf op internet zet, of foto's, berichtjes en filmpjes plaatst, moet er rekening mee houden dat dit materiaal heel moeilijk weer te verwijderen is. Als je een foto van je Hyves verwijdert, kan deze toch op een onverwachte plek weer opduiken. Denk dus heel goed na voor je iets op het internet zet.

3b Censuur en filteren van informatie

Wie in de Verenigde Aribische Emiraten flickr.com intypt, krijgt het volgende op het scherm te zien:

Als een regering bepaalde websites of informatie blokkeert, dan kun je spreken van censuur. Een andere manier om naar censuur te kijken is dat de bevolking wordt beschermd tegen informatie en beelden die niet stroken met de politieke of ideologische beginselen van een land. Censuur kan ook worden toegepast als de inhoud van websites in strijd is met de lokale wetgeving.

  • Nederland past in beperkte mate internetcensuur toe; websites die kinderporno bevatten staan op een zwarte lijst (blacklisting) en zijn daardoor niet of heel moeilijk toegankelijk.
  • China blokkeert en filtert webcontent over politiek gevoelige onderwerpen als de Tibetaanse onafhankelijkheid en de vrijheid van meningsuiting. Eveneens worden een aantal buitenlandse nieuwssites, sites met pornografische inhoud en blogs geblokkeerd.
    Een zoekmachine als Google is toegestaan in China maar het bedrijf moet wel meewerken aan het censureringsbeleid.
  • In Noord-Korea wordt internet zwaar gecensureerd door de regering; buitenlandse websites zijn niet toegankelijk. (Dat geldt overigens ook voor buitenlandse televisie- en radiozenders.) De aanwezige websites zouden worden gebruikt als propagandakanaal van de overheid. Voorbeelden hiervan zijn:
    • http://www.kcckp.net/en/ (Engelstalig)
      www.uriminzokkiri.com Deze site is niet in het Engels beschikbaar; om een indruk van de inhoud te krijgen kun je 'uriminzokkori' invullen op Google en dan de vertaalfunctie van Google gebruiken.

Internetcensuur kan op verschillende manieren worden gerealiseerd. In de bovenstaande voorbeelden noemden we al het blacklisting zoals dat onder andere in Nederland gebeurt. Er is dan sprake van een vaste lijst verboden websites. Een andere vorm is whitelisting; een vaste lijst met adressen die wel bezocht mogen worden. Daarnaast kan er nog gefilterd worden; als bijvoorbeeld bepaalde woorden in een pagina voorkomen, wordt de website niet weergegeven in de resultaten van een zoekmachine.

 Maak opdracht 3-5.

Internetcensuur wereldwijd (Bron: Wikipedia.)
 

Gebruikers kunnen er ook zelf voor kiezen om internetfiltering toe te passen:

  • voor kinderen die je zonder toezicht wil kunnen laten internetten, bestaan er speciale kindfilters die voorkomen dat ze op ongewenste pagina's terechtkomen. Ouders kunnen er ook voor kiezen om de allerjongsten alleen via whitelisting te laten internetten. Overigens is het mogelijk dat sommige kinderfilters ook censuur toepassen. Van een christelijk Amerikaans kinderfilter is bekend geworden dat er bij een zoekopdracht naar homoseksualiteit alleen pagina's terugkwamen die zich negatief over het onderwerp uitlieten.
  • op computers in openbare ruimtes wordt eveneens filtering toegepast. Op computers in een openbare bibliotheek zijn websites als Youtube en MSN soms niet te bereiken. Hetzelfde geldt vaak ook voor computers op scholen.

 Maak opdracht 3-6.

3c Toegankelijkheid van internet: beperkingen en nieuwe wegen

Je kan op verschillende manieren toegang krijgen tot internet:

Inbelverbindingen werden veel gebruikt in de jaren negentig. Het voordeel was dat de infrastructuur om te internetten (telefoonlijn) al aanwezig was en je alleen betaalde voor de tijd die je online was. Het grote nadeel was de traagheid; het kon soms minuten duren voor een pagina geladen was. Eind jaren negentig begonnen mensen dan ook massaal over te stappen naar snellere verbindingen als ADSL en kabelinternet. Toch wordt er nog steeds gebruik gemaakt van inbelverbindingen, bijvoorbeeld door mensen die zeer weinig internetten en in gebieden waar nog geen andere manier van internetten beschikbaar is. Dat laatste is vooral het geval in afgelegen gebieden en in ontwikkelingslanden.

Hiermee wordt misschien al duidelijk dat de beschikbaarheid van internet afhankelijk is van een aantal concrete voorwaarden:

  • Ten eerste moet er electriciteit zijn, een computer en als gezegd een infrastructuur.
  • Ten tweede is lees- en schrijfvaardigheid nodig en enige vaardigheid met een computer.
  • Ten derde zou er informatie op internet beschikbaar moeten zijn in de taal van de gebruiker.

In ontwikkelingslanden is soms geen enkele vorm van infrastructuur en zijn computers gewoonweg te duur voor een groot deel van de bevolking.


Bron: www.webfoundation.org

Bovenstaand kaartje toont welke landen een hoog gebruik hebben van internet en mobiele telefoons (o.a. Nederland en Scandinavie) en in welke gebieden het gebruik laag is (een groot deel van Afrika). Toch laat Afrika de snelste groei zien in het aantal internetgebruikers.

 Maak opdracht 3-7.

In Afrika groeit het aantal internetgebruikers onder andere snel door de opkomst van mobiel internet. Een mobiele telefoon is aanmerkelijk goedkoper dan een computer, en de afwezigheid van infrastructuren als kabel en telefoonlijnen vormen geen belemmering. In sommige gebieden in Afrika waar niet overal electriciteit is, kun je een stopcontact huren om je telefoon op te laden. Als je geen telefoon hebt, is ook deze te huur om mee te bellen of te internetten. In gebieden waar geen electriciteit en geen zendmasten zijn, wordt nu geexperimenteerd met zogenaamde internetkiosken: een klein gebouwtje voorzien van een zonnepaneel, een satellietontvanger en een computer. Daardoor is het mogelijk om te internetten in de meest afgelegen gebieden. In deze gebieden kan de toegang tot internet een grote impact hebben op het dagelijks leven.

 Maak opdracht 3-8.

3d Internet en milieu

Het internet wordt voor steeds meer mensen toegankelijk. Door deze groei van het aantal internetgebruikers zal ook het aantal computers, de hoeveelheid data en daarmee de omvang van de datacentra en het aantal servers toenemen. Met het huidige bewustzijn dat dat energieverbruik leidt tot een ongewenst hoge CO2-uitstoot, is het niet vreemd dat sinds kort ook de CO2-uitstoot van internet in kaart wordt gebracht.

Het energieverbruik van het internet in kaart brengen is niet makkelijk en de beschikbare cijfers zijn gebaseerd op de verschillende onderdelen die het samen mogelijk maken om te kunnen internetten. In de volgorde van het grootste aandeel in CO2 uitstoot zijn dat:

  • de computers die worden gebruikt om mee te surfen.
  • de infrastructuur: alles wat nodig is om informatie van de datacentra naar computers en mobiele telefoons te transporteren.
  • de serverruimtes en datacentra waar alle gegevens worden opgeslagen en waar koelsystemen oververhitting moeten voorkomen.

 

Verdiepingsmateriaal

http://www.youtube.com/watch?v=zRwPSFpLX8I

 

Een paar cijfers:

  • In 2007 was de CO2-uitstoot van alle IT-voorzieningen 2% van de mondiale CO2 emissie. Dat was meer dan al het vliegverkeer van dat jaar.
  • In 2002 waren datacentra al verantwoordelijk voor 76 miljoen ton CO2.
  • Het bekijken van een simpele webpagina genereert ongeveer 0,02 gram CO2 per seconde, dit gewicht neemt toe tot 0,2 gram per seconde bij websites met plaatjes, animaties en video's.
  • Een enkele Google zoekopdracht zou gelijk staan aan de uitstoot van tussen de 1 en 10 gram CO2, afhankelijk van of je het opstarten van de computer meerekent. Om een idee te krijgen: in juli 2008 verwerkte Google in Amerika 235 miljoen zoekopdrachten per dag.
  • Een gewone PC genereert al 40 tot 80 gram CO2 per uur. Een gemiddelde auto stoot overigens 163 gram CO2 uit per kilometer.
  • Het softwarebedrijf McAfee meldt dat de hoeveelheid electriciteit die jaarlijks nodig is om de miljarden spam e-mails te verzenden gelijk staat aan het electriciteitsgebruik van 2 miljoen Amerikaanse huishoudens en even veel CO2 genereert als 3 miljoen auto's.

 Maak opdracht 3-9.

Upload nu de opdrachten van hoofdstuk 3 in de Postbus

4. Informatie zoeken

4 Informatie zoeken

De hoeveelheid informatie op internet is indrukwekkend en neemt nog steeds exponentieel toe. Google heeft berekend dat er rond juli 2008 1 triljoen unieke URL's http://nl.wikipedia.org/wiki/URL waren. Cijfers uit midden 2009 ramen de hoeveelheid data op internet op 487 biljoen gigabyte. Als al die informatie zou worden uitgeprint en ingebonden, zou dat resulteren in tien stapels boeken die van de aarde tot Pluto reiken. Doordat steeds meer mensen internet gebruiken en data genereren, neemt deze stapel boeken sneller toe dan een space shuttle kan bijhouden.
De centrale vraag in dit hoofdstuk is hoe je in deze stapel informatie toch nog iets kunt vinden en welke technieken er zijn ontwikkeld om je daarbij te helpen. De verschillende aspecten worden behandeld in de volgende paragrafen:

4a. Zoeksystemen
4b. Uitgelicht: Google (hoe werkt een zoekmachine?)
4c. Zoeken op internet: tips en tricks
4d. Het verborgen internet

 

Download voor je verder gaat met het hoofdstuk nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 4.doc

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

4a Zoeksystemen

Om op internet informatie te kunnen vinden is een zoekinstrumentarium ontwikkeld dat beter bekend is onder de naam zoekmachine. Kort gezegd struinen zoekrobots het hele internet af en vullen een enorme database met data. Om te kunnen reageren op een zoekopdracht beschikt de zoekmachine over de letterlijke weergave van miljarden webpagina's. Afhankelijk van hun functie zijn zoekmachines zijn te verdelen in algemene en specifieke zoekmachines.

Algemene zoekmachines zoeken het hele internet af. Bekende algemene en internationale zoekmachines zijn Google, Yahoo, search.msn.com, search.aol.com, askjeeves en Lycos. Voorbeelden van algemene zoekmachines die alleen binnen het Nederlandse domein zoeken zijn altavista.nl en ilse.nl.

Een bijzondere vorm van een algemene zoekmachine is de metazoekmachine. Hiermee kun je in verschillende zoekmachines tegelijkertijd zoeken. Het resultaat wordt als een lijst gepresenteerd aan de gebruiker. Voorbeelden van metazoekmachines zijn http://ixquick.com/ned/ en http://www.webcrawler.com.

Daarnaast zijn er specifieke zoekmachines die ook wel verticale zoekmachines worden genoemd. Deze zoekmachines richten zich op een bepaald specialisatiegebied en zijn ontworpen om op die gebieden betere prestaties te leveren dan de algemene zoekmachines. Een voorbeeld is Google Scholar dat wetenschappelijke artikelen doorzoekt of jaap.nl waarmee je naar koop- en huurhuizen kunt zoeken.

Een andere vorm van een specifiek zoeksysteem laat je zoeken binnen een bepaalde website. Het verschil met zoeksystemen als Google Scholar en jaap.nl is dat deze zoekmachines zoeken in een statische hoeveelheid gegevens. Voorbeelden daarvan zijn te vinden op bijvoorbeeld telefoongids.nl of ikea.nl. De laatste website biedt als extraatje een zogeheten avatar ('Anna') aan wie je vragen kan stellen. Bij de meeste zoekmachines kun je zoeken op een trefwoord en krijg je pagina's terug die die zoekterm bevatten. Zoeken met een avatar werkt anders. Stel dat je intypt dat je honger hebt, dan zal de avatar je een antwoord geven dat te maken heeft met het restaurant. Vertel je de avatar dat je dorst hebt, dan vertelt ze dat ze je geen suggestie kan doen. Dat komt omdat van tevoren is bedacht welke woorden in de consumentenvragen moeten matchen met welke producten en diensten. In dit geval is 'honger' wel gelinkt aan restaurant, maar 'dorst' niet.
Een goedwerkende vraag- en antwoord machine ontwikkelen kost veel tijd en wordt nog niet op grote schaal gebruikt.

Naast zoekmachines kun je ook gebruik maken van internetgidsen om informatie te vinden. Toen de eerste zoekmachines nog niet zo goed werkten als nu, waren de internetgidsen heel geschikt om snel relevante informatie te vinden over een bepaald onderwerp. Internetgidsen worden handmatig gemaakt, waarbij de makers zelf pagina's beoordelen op hun relevantie en kwaliteit. Het grote nadeel is dat internetgidsen voortdurend onderhouden moeten worden omdat pagina's verdwijnen en er ieder moment nieuwe informatie beschikbaar komt. Daarnaast is de selectie van de pagina's natuurlijk subjectief. Een bekend voorbeeld van een Nederlandse internetgids is http://www.startpagina.nl. Internationale internetgidsen zijn directory.google.com en directory.yahoo.com

 Maak opdracht 4-1 en 4-2 en bekijk ook 4-3 (extra stof).

4b Uitgelicht: Google (Hoe werken zoekmachines?)

In deze paragraaf leer je hoe zoekmachines werken aan de hand van de zoekmachine Google. Bekijk eerst het onderstaande filmpje van Het Klokhuis over hoe Google werkt.

 

Kort samengevat bestaat Google dus uit de volgende onderdelen:

  • Spider: haalt webpagina's op van het internet en extraheert de tekst.
  • Indexer: bekijkt de teksten van de verschillende pagina's en geeft elk woord een score.
  • Database: slaat alle lijsten met woorden op.
  • Zoekmachine: kijkt welke websites uit de database de woorden bevatten die het beste bij een zoekterm passen.
  • Webserver: zorgt ervoor dat de communicatie van Google met een gebruiker. Hij presenteert de resultaten die de zoekmachine vindt aan de gebruiker.

De zoekmachine in actie:

In deze animatie zie je alle onderdelen van Google in actie. De animatie bestaat uit vier knoppen.

Een zoekmachine geeft niet zomaar alle resultaten terug in een willekeurige volgorde. Om de gebruiker goed van dienst te zijn, gebruiken alle algemene zoekmachines bepaalde technieken om de beste pagina's bovenaan de zoekresultaten te laten verschijnen. Verschillende factoren kunnen daarbij worden meegewogen zoals bijvoorbeeld:

  • metatags; dit zijn een soort sleutelwoorden die in de html van een pagina kunnen worden geplaatst. De maker van een pagina kan deze metatags zelf toevoegen. Tegenwoordig worden deze tags bijna niet meer gebruikt voor het meewegen omdat mensen door deze tags makkelijk hun positie op de ranglijst kunnen verbeteren en zelfs misleidende tags kunnen toevoegen.
  • datum laatste wijziging; als een pagina al vier jaar niet mer gewijzigd is, kan het zijn dat informatie verouderd is. Dat kan een reden zijn om een pagina een lagere positie te geven in de zoekresultaten.
  • bezoekersaantallen; als een pagina weinig wordt bezocht, kan het zijn dat deze weinig relevante of interessante informatie bevat. Ook dat kan een reden zijn van een lagere ranking.
  • de inhoud van andere pagina's op een website; stel dat het woord 'vis' slechts eenmaal op een pagina voorkomt en op de andere pagina's van je website niet voorkomt, dan kan het zijn dat deze pagina niet over vissen gaat en dus minder interessant is voor iemand die informatie zoekt over vissen.
  • de inhoud van de websites die naar jou linken; als in deze andere websites wel vaak het woord 'vis' voorkomt, dan is onze pagina over vis misschien toch wel relevanter dan op basis van het aantal woorden 'vis' verwacht kan worden.
  • de populariteit van sites die naar jou linken; als veelbezochte websites naar jouw pagina doorlinken, dan kan dat iets zeggen over de kwaliteit van jouw pagina. Dat kan een reden zijn om die pagina een hogere positie te geven in de zoekresultaten.
  • het aantal pagina's dat naar een pagina linkt en waar zelf ook veel naar gelinkt wordt. Dit is een van de belangrijkste parameters waarop de zoekresultaten van Google worden geordend, en heet pageranking. In onderstaand figuur kun je zien hoe het basaal werkt:

Bron: wikipedia. (http://nl.wikipedia.org/wiki/PageRank)

Stel dat het bovenstaande figuur het hele internet zou zijn, dan is de kans dat een willekeurige bezoeker pagina B bezoekt 38,4%. Dat komt omdat veel pagina's naar deze pagina linken. De kans dat iemand uitkomt op een van de paarse websites is 1,6% omdat niemand naar deze pagina's linkt. Je zou verwachten dat websites A en C een even groot percentage zouden moeten krijgen, omdat er telkens maar een website is die naar ze linkt. Echter; er wordt veel gelinkt naar website B waardoor deze een zekere autoriteit krijgt. Als deze naar een andere website linkt (C) weegt dat zwaarder dan de link van D naar A. Bovendien heeft C maar een link: die naar B. Daarmee wordt gesuggereerd dat er kennelijk een sterke relatie bestaat tussen A en C.

De formule voor de Google pagerank ziet er zo uit:

  • PR(A) = (1 - d) + d * {(PR(T1) / C(T1) + ... + PR(Tn) / C(Tn))}
    d is de dampingfactor: de waarschijnlijkheid dat een gebruiker een pagina verlaat voor een andere pagina (standaard d=0.85)
    T1,T2,...Tn: citaties; dit zijn de pagina's die naar pagina A verwijzen
    C(x): dit zijn het aantal uitgaande links van pagina x
    PR(x) is de pagerank van pagina x
    Bron: http://nl.wikipedia.org/wiki/PageRank

Vrij vertaald staat in deze formule: hoe meer pagina's met een hoge pagerank en weinig links naar je linken, hoe hoger je pagerank wordt. Op de universiteit leer je precies wat die formule betekent en hoe het allemaal precies werkt.

Google's methode om de meest relevante websites bovenaan te plaatsen, werkt goed en is waarschijnlijk een grote reden van de populariteit van deze zoekmachine. Er zit ook een nadeel aan. Als jij op je website geen enkele link hebt, en niemand linkt naar jou, dan ben je onvindbaar. Daarnaast zou je kunnen stellen dat Google met deze methode een ijsberg creeert waarvan alleen het topje dat op de eerste pagina's verschijnt, druk bezocht wordt. Lager gerankte pagina's met even relevante informatie krijgen minder attentie en dus minder links, terwijl er relatief steeds meer gelinkt zal worden naar pagina's die hoog eindigen en veel aandacht krijgen.

Lees eerst opdracht 4-4 door, bekijk de documentaire "Google: achter het scherm" van VPRO's Tegenlicht (50 minuten!) en maak dan opdracht 4-4.

 

 "Google: achter het scherm":

 

 

De zoekmachine in actie

1: Websites zoeken

  • De spider zoekt het Internet af naar alle websites die hij kan vinden

2: De gevonden websites indexeren

  • De spider extraheert alle woorden die hij op een website heeft gevonden en stuurt de teksten naar de indexer.
  • De indexer telt hoe vaak een woord op een site voorkomt en slaat deze informatie op in de database.

3: De zoekpagina van Google opvragen

  • De gebruiker vraagt de webpagina van Google om een zoekterm in te voeren

4: Een zoekterm invoeren

  • De gevraagde zoektermen worden door de webserver doorgegeven aan de search engine
  • De search engine bekijkt en de zoektermen en bepaalt op een geheime manier welke sites hij uit de database moet halen en naar de gebruiker moet sturen.

4c Zoeken op internet: tips en tricks

Globaal kun je op verschillende manieren zoeken op internet:

Bedenk allereerst wat je wil gaan zoeken. Als je resultaten niet goed zijn, voeg dan zoektermen toe of maak ze meer of minder specifiek. Tenslotte kun je je zoekopdracht verfijnen door alleen in een specifieke bron te zoeken, bijvoorbeeld door site:marktplaats.nl aan je zoekopdracht toe te voegen.

Het volgende filmpje gaat over manieren om op internet te zoeken:

http://dotsub.com/media/f779c51c-8732-4df8-9836-b5b2df3a4fe4/embed/dut

 Maak opdracht 4-5.

Een manier om de resultaten van je zoekopdracht te verfijnen is het gebruik van zogenaamde booleaanse [http://nl.wikipedia.org/wiki/George_Boole] operatoren. Hoe de operatoren eruit zien, is per zoekmachine verschillend maar de basisfuncties zijn altijd hetzelfde:

De operatoren AND, OR en NOT geven een relatie aan tussen zoektermen:
AND geeft aan dat termen tegelijkertijd in een pagina moeten voorkomen, bijvoorbeeld bank AND hypotheek of kever AND auto.
NOT geeft aan dat bepaalde termen zeker niet in een pagina moeten voorkomen, bijvoorbeeld jaguar NOT auto.
OR kan worden gebruikt wanneer het voorkomen van een van beide termen voldoende is, bijvoorbeeld Clinton ORObama als je iets wil weten over de laatste twee democratische presidenten in de VS.

Het is ook mogelijk om deze operatoren te combineren, bijvoorbeeld:
bank AND hypotheek OR lening NOT DSB

Als je een specifieke combinatie van woorden zoekt, kun je ook gebruik maken van 'aanhalingstekens'. Typ je eigen naam maar eens in met en zonder deze aanhalingstekens en bekijk het verschil in het aantal resultaten.

Daarnaast hebben zoekmachines doorgaans nog extra functionaliteiten. Hieronder staat een gedetailleerde uitleg van een Google-pagina.

https://support.google.com/websearch/answer/136861?hl=en

 Maak opdracht 4-6.

4d Het verborgen internet

Er staat heel veel informatie op het internet dat zoekmachines wel kunnen vinden. Maar de verborgen informatie is ongeveer 400 keer zo groot. Dat komt doordat zoekmachines niet alle pagina's van een website indexeren. Daarnaast kan een website informatie bevatten die niet voor zoekmachines toegankelijk is:

  • de informatie staat in een database, bijvoorbeeld telefoonnummers op telefoongids.nl
  • de informatie staat op een website in de vorm van bijvoorbeeld een pdf of excelbestand
  • de informatie is alleen beschikbaar nadat je hebt ingelogd.
  • de informatie staat op een pagina die van het internet verdwenen is. (code 404, dode links)

Verborgen informatie: databases en documenten
Het is mogelijk om op zoek te gaan naar deze verborgen informatie. In dat geval is een goede strategie om eerst in een zoekmachine een aantal zoektermen in te vullen die relevante pagina's zullen opleveren.
Nu kun je in die gevonden websites specifiek gaan zoeken door middel van de zoekfunctie op die pagina. Als de pagina geen zoekfunctie heeft, kun je gebruik maken van 'geavanceerd zoeken'. Als je zoekt met Google kun je bijvoorbeeld een domein opgeven. Jaguars op de website oldtimersnederland.nl kun je dan vinden door het volgende in te typen: jaguar site:http://www.oldtimernederland.nl/. Wil je geen informatie vinden van pagina's die eindigen op .com dan kun je dat ook aangeven met site: -.com

Ook is het mogelijk om op websites te zoeken naar bepaalde documenten; het documenttype kun je selecteren in het geavanceerd zoeken menu van Google. Het is dus ook mogelijk om binnen een website op trefwoord naar bepaalde documenten te zoeken.

 

 Maak opdracht 4-7.

Upload nu de opdrachten van hoofdstuk 4 in de Postbus.

5. Web 2.0

5 Web 2.0

Met de term Web 2.0 wordt over het algemeen verwezen naar de tweede fase in de ontwikkeling van het World Wide Web (WWW). Een voorbeeld van een Web 2.0 site is http://wikipedia.org, want karakteristiek voor Web 2.0 sites is dat een belangrijk deel van de inhoud gemaakt is door gebruikers en niet door de webmaster (degene die de website beheert).

Voor de trend Web 2.0 hadden websites een vaste inhoud en hadden gebruikers nauwelijks invloed op de inhoud. Slechts een of een paar personen maakte een website en beheerden die, net als een krant een aantal redacteuren heeft die de inhoud bepalen. De meest succesvolle websites van nu zijn echter opgezet als een platform waar men zelf iets op kan zetten en zijn de beheerders vaak alleen bezig met veranderingen in die content in de gaten te houden.

In dit hoofdstuk komen de volgende paragrafen aan bod:

5a. Fora
5b. Blogs en Twitter
5c. Betrouwbaarheid en volledigheid van informatie
5d. Tagging

 

Download voor je verder gaat met de onderstaande opgave nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 5.doc

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

 Maak opdracht 5-1.

5a Fora

Een forum is een platform voor mensen om te praten over van alles. Meestal heeft een forum een bepaald thema en vaak is dat thema weer onderverdeeld in verschillende subthema's die elk een specifiek forum hebben. Op het forum http://forum.fok.nl worden veel uiteenlopende onderwerpen besproken die onderverdeeld zijn in allerlei sub-fora. Het bevat bijvoorbeeld fora zoals "Nieuws & Achtergronden", "School & Studie" en "Flora & Fauna".

Op een forum kan je berichten plaatsen als reactie op wat andere mensen schrijven, maar je kan ook zelf een onderwerp aansnijden. Niet alle fora gebruiken dezelfde naam voor een onderwerp en vaak wordt er een Engels woord voor gebruikt, zoals topic of thread. Let bij het maken van een nieuwe thread erop dat je het in een passend forum zet.

Op een forum heerst vaak een bepaalde cultuur, waar een beleid bij hoort. Het forum Gathering of Tweakers, oftewel GoT, is een groot forum en bevat daarom een uitleg over wat het beleid op dat forum is:http://gathering.tweakers.net/forum/faq/beleid

Hierin staat bijvoorbeeld dat je nooit anderen mag groeten op het forum, want "we doen elkaar op GoT permanent de groeten". Je bericht starten met "Hallo beste tweakers" wordt niet geaccepteerd op GoT. Een regel die op vrijwel alle fora geldt is dat je niet rare tekst opmaak mag gebruiken, zoals ALLES IN HOOFDLETTERS EN/OF DIKGEDRUKT.

Aangezien iedereen zomaar iets op een forum kan zetten, is het belangrijk dat er een oogje in het zeil gehouden wordt. Daar zijn moderators voor. Moderators zijn vaak vrijwilligers die in de gaten houden wat er op het forum geplaatst wordt om verschillende redenen:

  • Om illegale content tegen te gaan.
  • Om te voorkomen dat mensen zich misdragen. Bijvoorbeeld, als iemand anderen gaat uitschelden, dan wordt hem/haar vaak de toegang van het forum ontzegd.

 

 Maak opdracht 5-2.

5b Blogs en Twitter

Veel mensen vinden het leuk om op het web te schrijven over wat hun bezighoudt. Dat doe je op een weblog, oftewel een blog. Een website waar veel blogs op te vinden zijn is http://wordpress.com. Je kan daar bijvoorbeeld blogs vinden van mensen die een gouden medaille winnen op de Olympische Spelen, maar ook van mensen die elke vrijdag een raadsel op hun blog zetten waarvan op maandag de oplossing gegeven wordt.

Twitter is een fenomeen dat in 2009 in een razendsnel tempo populair geworden is. Het concept is dat je berichtjes van maximaal 160 tekens (letters en cijfers), oftewel tweets, op je Twitter pagina kan zetten. Mensen die jou volgen zullen op hun eigen Twitter pagina jouw tweet dan te zien krijgen. Zo kan je aan je vrienden bijvoorbeeld bekendmaken wat je vanavond gaat doen, wat je van een bepaald televisieprogramma vond, of wat er om je heen gebeurt. Er zijn bijvoorbeeld politici die op Twitter schrijven wat er gebeurt in de Tweede Kamer.

5c Betrouwbaarheid en volledigheid van informatie

Als je informatie vindt die andere mensen op het Internet gezet hebben, dan is het altijd nog de vraag of ze gelijk hebben. Geloof je alles wat je vrienden vertellen? Geloof je alles wat mensen op straat je vertellen? Geloof je alle reclames? Soms is het moeilijk om te beoordelen of informatie klopt.

https://support.google.com/websearch/answer/136861?hl=en

Wikipedia is een goed voorbeeld, want er wordt vaak beweerd dat informatie op Wikipedia niet betrouwbaar is. Daarom wordt er nu vaak een referentie gezet naar informatie op Wikipedia. Kijk bijvoorbeeld eens naar de Engelstalige pagina over Irak: http://en.wikipedia.org/wiki/Iraq. Er staan meer dan honderd referenties onderaan die pagina, maar kan je alle informatie met een referentie vertrouwen? Je kan in ieder geval kijken waar die informatie vandaan komt, en hoe betrouwbaar die bron is.

 Maak opdracht 5-3.

5d Tagging

Er zijn veel websites die gebruikmaken van tags. Vaak zijn het de gebruikers van een site die tags toevoegen aan documenten. Een mooi voorbeeld is http://delicious.com: hier kan je links van websites opslaan en daar tags bij zetten. Het is handig, omdat het je helpt om websites terug te vinden als je weet waarmee je de link ge-tagged hebt, maar je kan ook websites vinden die anderen op Delicious opgeslagen en ge-tagged hebben.

Niet alle websites laten de users tags toevoegen. Om slechte tags te voorkomen, worden nieuwsberichten vaak door de redactie zelf ge-tagged. Zie bijvoorbeeld: http://tweakers.net/nieuws/65869/

Een mooie manier van je inzicht te geven in je gebruik van tags is een tagcloud. Hierin zie je welke tags je vaak gebruikt. Een tag die je vaker gebruikt wordt groter weergegeven dan een tag die je minder vaak gebruikt. Dus bij de tagcloud hieronder wordt de tag 'Computer' minder vaak gebruikt dan 'World Wide Web'.

 Maak opdracht 5-4.

Upload nu de opdrachten van hoofdstuk 5 in de Postbus.

6. Semantic Web

6 Semantic Web

Download voor je begint met het hoofdstuk nu eerst de opdrachten:

Open bestand Opdrachten Hoofdstuk 6.doc

Het icoontje  geeft aan wanneer je een opdracht moet maken.
Vul de antwoorden en je naam + klas in in het Word document en upload aan het einde van het hoofdstuk de antwoorden in de Postbus.

 

Data en informatie

In dit stuk van de cursus hebben we het vaak over data en informatie. De woorden informatie en data worden vaak door elkaar gebruikt. Toch is er een duidelijk verschil. Data zijn een verzameling van ruwe gegevens die geen of weinig betekenis hebben; informatie is een ordening van data tot een zinvol verband.

Stel je een Excel bestand voor met een reeks jaartallen gevolgd door twee kolommen met cijfers. Als je niet weet dat het gaat om het aantal geslaagden en gezakten voor het eindexamen, betekenen deze data niets. Maar met deze kennis kun je de vraag stellen hoeveel scholieren in 2005 zijn gezakt voor hun eindexamen; je kan de slagingspercentages uitrekenen en vergelijken met andere jaren en eventueel met andere scholen. Deze informatie leidt vervolgens weer tot kennis op basis waarvan het schoolbestuur maatregelen kan nemen om bijvoorbeeld de slagingspercentages te verbeteren. Mogelijk zijn daar dan weer andere data voor nodig. De onderstaande figuur illustreert deze cyclus:

Bron: sc.readle.org.uk
Bron: sc.readle.org.uk

In dit hoofdstuk bekijken we wat een Semantic Web is en wat je er mee kunt:

6a. Wat is een Semantic Web?
6b. Een voorbeeld van Semantic Web data
6c. Uitleg van het voorbeeld
6d. Ambiguïteit opgelost?
6e. Linked Open Data
6f. Iedereen weet wat je bedoelt
 

 

 Maak opdracht 6-1.

6a Wat is Semantic Web?

Alle websites die we tot nu toe hebben laten zien in deze module zijn human readable, leesbaar voor mensen. Waar wij een nieuwbericht op een website lezen, ziet een computer een lap tekst zonder enige betekenis of inhoud. Het is vergelijkbaar met een tekst in het Chinees (mits je Chinees kan): je ziet wel de tekens, maar wordt er niets wijzer van. Je kan nog net afleiden dat er een telefoonnummer in staat en twee opsommingen. Maar wat zou het voor tekst zijn? Een recept?

Ons algemeen inzicht en voorkennis gebruiken we veel bij het lezen van een tekst. Bijvoorbeeld als we de kop van dit nieuwsbericht lezen "Tsunami's na aardbeving vallen mee", dan begrijpen we al snel dat het gaat om vloedgolven (Tsunami's), die hele dorpen kunnen wegvagen. Hoewel de woorden Tsunami en vloedgolf totaal niet op elkaar lijken, weten wij dat ze veel met elkaar te maken hebben. Dat soort informatie is voor mensen vanzelfsprekend, maar voor computers niet.

Om gestructureerde tekst maken, waarbij de computer iets kan afleiden over de betekenis en functie ervan, is Semantic Web in het leven geroepen.

6b Een voorbeeld van Semantic Web data

Semantic Web is nog volop in ontwikkeling, maar er zijn al een aantal sites die het gebruiken.

 Maak opdracht 6-2.

6c Uitleg van het voorbeeld

Zoals je misschien al vermoedt na opdracht 6-2b gedaan te hebben, komt de data van DBpedia direct van Wikipedia. Een groot deel van de data op DBpedia komt uit de infoboxes op Wikipedia, de rechthoekige informatieblok rechts bovenaan de pagina's, want de informatie die daarin staat is gestructureerd. De data bij de velden dbpprop:abstract en rdfs:comment is meertalig, want het maakt gebruik van de links naar de pagina's in andere talen op Wikipedia (onderaan in de linkerbalk). De data op DBpedia kan iets afwijken, want Wikipedia wordt constant veranderd door de gebruikers.

Elk feit dat op DBpedia staat is een triple, dat is een relatie tussen twee entiteiten. Daarmee kan je simpele relaties leggen tussen entiteiten, zoals "Marjan is de moeder van Klaas", want daar wordt de relatie "is moeder van" gelegd tussen de entiteiten "Marjan" en "Klaas". Deze triples zijn de bouwblokken van het Semantic Web.

6d Ambiguïteit opgelost?

Als je op Google Images zoekt naar "Jaguar", dan vind je plaatjes zowel jachtluipaarden, want die heten jaguars in het Engels, en auto's van het merk Jaguar. Het Engelse woord Jaguar is dus ambigu (kan twee dingen betekenen). Google kan geen onderscheid maken tussen de twee concepten die met hetzelfde woord aangeduid worden, dus geeft het je resultaten van beide concepten en moet de gebruiker zelf onderscheid maken tussen de goede en foute resultaten.

Het ambiguïteitprobleem wordt ook opgelost door het Semantic Web. Om dat te laten zien gebruiken we een andere website, namelijk http://freebase.com. Deze site is ook met Semantic Web, maar gebruikers kunnen hier direct nieuwe data op zetten, in plaats van dat het van Wikipedia wordt gehaald. Als je op Freebase zoekt naar "Jaguar" (maar nog niet op enter drukt!), dan krijg je een lijst van verschillende soorten concepten te zien die je zou kunnen bedoelen. Bovenaan staat het bedrijf (Company), daaronder gelijk het dier (Animal) en daaronder nog wat andere resultaten.

Dat Semantic Web het probleem van ambiguïteit oplost is een big deal! Als je een website wil hebben die antwoord kan geven op vragen, dan is het belangrijk om de vraag te begrijpen. Dus als je de vraag intypt "hoe snel is die kever?", dan wil je net als bij de Jaguar onderscheid kunnen maken tussen de auto en het dier.

6e Linked Open Data

Belangrijke principes van Semantic Web is dat het net als op het WWW geen gecentraliseerde structuur heeft en dat het gratis is. Daarom kan iedereen z'n eigen Semantic Web data maken en linken naar data van anderen, net zoals je heel makkelijk een eigen website kan maken en linken naar anderen.

Doordat Semantic Web zo vrij en gespreid opgezet is, is er al snel veel data gemaakt door verschillende partijen. Om goed te kunnen samenwerken is er een Linked Open Data initiatief ontstaan. Op het plaatje (ook hier te zien) zie je allemaal verschillende databanken en welke met elkaar verbonden zijn. Hier staan ook DBpedia en Freebase bij.

 Maak opdracht 6-3.

6f Iedereen weet wat je bedoelt

Met de grote ontwikkelingen op het WWW en alle applicaties die daarop draaien zou het heel mooi zijn als die applicaties zouden samenwerken. Stel je voor dat je fotocamera, fotoalbum en kaart (bijvoorbeeld Google Maps) elkaar zouden begrijpen.

Je camera weet waar je staat als je de foto maakt en zet die informatie bij de foto. Als je foto's op je online fotoalbum zet, dan komt alle geografische data daar ook bij te staan. Je kiest ervoor om je vrienden toegang te geven tot je fotoalbum.

Je vriendin Marie gaat binnenkort uit in Amsterdam en kijkt wat er allemaal te doen valt rond het Leidseplein. Ze ziet dat jij foto's online hebt staan van Dansen bij Jansen (want die discotheek is vlakbij het Leidseplein) en vindt het er heel gezellig uitzien. Daarom besluit ze met haar vriendinnen daar naartoe te gaan en laat ze jou weten dat je morgen haar foto's daar ook terug kan vinden.

Er zijn nog veel meer van dit soort scenario's te bedenken waarbij meerdere internetapplicaties en digitale apparaten dezelfde (of gelinkte) Semantic Web data gebruiken, waardoor ze elkaar allemaal begrijpen. Zo kan je bijvoorbeeld delast.fm scrobbler aanzetten, zodat je vrienden kunnen zien welke muziek je geluisterd hebt. Als Hyves nou ook zou weten welke last.fm accountnaam je vrienden hebben, dan zou je wellicht gemakkelijk in iTunes kunnen zien wat je vrienden als laatste geluisterd hebben en wat er anders is aan jullie muziekcollecties.

 Maak opdracht 6-4.

Upload nu de opdrachten van hoofdstuk 6 in de Postbus.

D-toets

Eindopdracht

Over deze module