Categorie: Volkskrant

510 staandehoudingen en de zelfversterkende feedback-loop

Toen ik las over de vraag of de belastingdienst gebruik heeft gemaakt van etnisch profileren en de discussie over hoe de overheid meer algoritmen kan gebruiken, dacht ik steeds aan zelfversterkende feedback-loops. En hoe daarmee kleine verschillen tussen groepen kunnen worden opgeblazen tot gapende kloven.

Een fictief voorbeeld. In een ver land bestaat de bevolking uit twee even grote bevolkingsgroepen: de huffelpuffers en de ravenklauwen. Uit de statistieken blijkt dat de huffelpuffers verantwoordelijk zijn voor 51 procent van de misdaden en de ravenklauwen voor 49 procent. Uit nader onderzoek blijkt dat precies 51 procent van de huffelpuffers betrokken is bij criminele activiteiten, ­tegenover 49 procent van de ravenklauwen.

De politie besluit een nieuw datagedreven beleid in te zetten om criminaliteit op te sporen. Ze gaan elke maand duizend mensen staande houden en controleren. Daarbij zullen ze steeds de criminaliteitscijfers van de vorige maand gebruiken om te bepalen wat de meest ­effectieve manier van controleren is. Zo profileren ze mooi de meest waarschijnlijke criminelen. In dit fictieve voorbeeld nemen we aan dat de criminaliteit onder de bevolkingsgroepen constant blijft en dat het herkennen van criminelen volkomen vlekkeloos verloopt.

De politie begint met het feit dat 51 procent van de misdrijven gepleegd is door huffelpuffers en 49 procent door ravenklauwen. Die eerste maand houdt de politie daarom 510 huffelpuffers staande – waarvan 51 procent crimineel is, dat levert afgerond 260 misdadigers. Er worden daarnaast 490 ravenklauwen gecontroleerd, daarvan is 49 procent crimineel, dat geeft afgerond 240 misdadigers.

‘Zie je wel’, concludeert de politie: ‘Onze methode werkt als een tierelier – we zien dat de afgelopen maand zelfs 52 procent van de 500 gevonden criminelen een huffelpuffer was.’ De volgende maand worden er daarom 520 huffelpuffers en 480 ravenklauwen gecontroleerd. Hoppa, die maand blijkt zelfs 53 procent van de gevonden misdadigers een huffelpuffer.

Als dit systeem gestaag zo door blijft werken, wordt na twee jaar 73 procent van de criminaliteit toegeschreven aan huffelpuffers. Binnen vijf jaar is dat 90 procent en na zeven jaar worden er per maand nog slechts een stuk of dertig ravenklauwen gecontroleerd tegen zo’n 970 huffelpuffers.

De groep die bij invoering van het nieuwe systeem ietsje crimineler is, heeft net ietsje meer kans om gecontroleerd te worden. Waardoor ze ietsje vaker in de statistieken opduiken, waardoor ze iets vaker worden staande gehouden. Enzovoort: dit is een zelfversterkende feedback-loop. Terwijl het werkelijke verschil in criminaliteit tussen de twee groepen al die tijd een schamele twee procentpunt blijft: 51 versus 49.

Nu is dit een fictief voorbeeld. Maar we kennen helaas tal van echte voorbeelden waarbij zelfversterkende feedback-loops verwoestende gevolgen hadden. Cathy O’ Neill geeft in Weapons of Math Destruction een deprimerend overzicht. En laatst zag ik een grafiek voorbijkomen met daarin welke voetgangers de politie in New York staande houdt op basis van ‘redelijke verdenking’. Van elke duizend zwarte jongens van 20 worden er jaarlijks ongeveer 950 staandegehouden. Bij witte jongens van dezelfde leeftijd waren dat er ongeveer 175 van elke duizend. Toen vroeg ik me af hoe fictief mijn voorbeeld precies was.

Deze column verscheen op 21 juni 2019 in de Volkskrant.

17.187 patiënten

Wat doe je als iemand je dwingt om iets te doen dat je een heel dom idee vindt? Deze week las ik de glorieuze oplossing van onderzoeker Richard Peto: doe het samen met iets dat je een nóg dommer idee vindt. Dan voldoe je keurig aan de gegeven opdracht, maar laat je tegelijk je protest zien aan de goede verstaander.

In 1988 leidde Peto een groot onderzoek naar het gebruik van medicijnen tijdens een hartaanval. Er werd gekeken of overlevingskansen toenamen na het toedienen van aspirine of streptokinase – twee middelen die het samenklonteren van bloedplaatjes tegengaan. Het vermoeden was dat het toedienen van deze medicijnen de kans op complicaties door bloedpropjes verkleint.

De studie omvatte een indrukwekkende 17.187 patiënten. Sommige patiënten kregen alleen aspirine, anderen alleen streptokinase, sommigen allebei en weer anderen kregen een placebo. En dat allemaal keurig willekeurig verdeeld over al die patiënten om te testen wat nu het beste werkte.

Ruim vierduizend patiënten kregen zowel aspirine als streptokinase. In deze groep stierven 343 mensen binnen iets meer dan een maand na hun hartaanval. In de even grote groep patiënten die voor allebei de medicijnen een placebo kreeg, overleden in dezelfde periode 568 mensen. De statistische analyse en de conclusies waren glashelder: de behandeling kon levens redden.

Peto en zijn collega’s schreven al hun resultaten op en dienden ze in als wetenschappelijk artikel bij het prestigieuze tijdschrift The Lancet. En toen kwam het moment dat Peto gedwongen werd om iets doms te doen. Om zijn artikel te publiceren, moest hij namelijk zijn resultaten verder uitsplitsen naar allerlei verschillende groepen patiënten. Hoe zat het met verschillen tussen mannen en vrouwen? Maakte het uit of een patiënt diabetes heeft? En wat als de patiënt de week voor de hartaanval al aspirine had ingenomen?

Dat uitsplitsen vond Peto dus een heel dom idee. Hij had dit experiment juist opgezet met een groot aantal patiënten omdat je dan goed ziet wat er gebeurt. Als je vervolgens in kleine groepen gaat zoeken naar verschillen, dan vind je allerlei resultaten die meer ruis dan waarheid zijn. Stel bijvoorbeeld dat de kans 5% is dat je per ongeluk een verschil vindt tussen twee groepen patiënten waar in werkelijkheid niets aan de hand is. Als je twintig losse vergelijkingen tussen twee van zulke groepen maakt, dan is de kans 64% dat je minstens één keer een resultaat vindt dat eigenlijk niets betekent.

Maar als Peto zijn studie wilden publiceren, kon hij zulke vergelijkingen niet weigeren. Daarop voegde hij iets toe dat hij nóg dommer vond: een analyse met sterrenbeelden van patiënten. Voor tweelingen en weegschalen bleek aspirine averechts te werken. Voor alle andere sterrenbeelden was het goed. Peto zette deze analyse pal bovenaan zijn tabel met de gevraagde analyses van losse groepen en liet daarmee zien hoe serieus je al die cijfers moet nemen. En de Lancet drukte het keurig af.

Deze column verscheen eerder in de Volkskrant

30% vrouwen

Ik dacht eigenlijk dat ik best lekker door dat glazen plafond heen was gekomen. Een hoogleraarschap, bestuursfuncties, politici die me om advies vragen. Regelmatig kijk ik om me heen bij een vergadering of diner en denk dan: “Dit is het dus: dat old-boys-network.” Want vaak ben ik de enige vrouw – en ook de enige die jonger is dan vijftig.

Maar goed, ik zat er dus toch maar mooi tussen. Ik dacht dat ik het behoorlijk had gemaakt. Tot ik bij een diner naast een topbestuurder kwam te zitten die me waarschuwde dat ik cruciale dingen mis omdat de échte beslissingen worden genomen op het herentoilet.

Bijna glunderend legde hij uit hoe elegant het is om een moeizame vergadering kort te schorsen, waarop de discussie verder gaat op de wc. En tja, zei hij, vrouwen kunnen natuurlijk niet met elkaar praten tijdens het plassen.

Ik keek hem verbijsterd aan en verzekerde hem dat vrouwen op het toilet óók met elkaar praten – desnoods dwars door een muurtje of wc-deur heen. Nuja, wierp mijn gesprekspartner tegen. Misschien práten jullie dan wel met elkaar, maar jullie kennen niet die unieke intimiteit van het herentoilet.

Pardon, geen intimiteit? Had ik niet de week ervoor nog een vrouwelijke college geholpen om de rits in de rug van haar jumpsuit dicht te maken? Zij met haar handen omhoog om haar haren uit de weg te houden, ik met mijn vingers voorzichtig op haar huid. Hoe vaak plukken we op het damestoilet niet even haren van elkaars jasjes? Gebruiken we elkaars deodorant? Vragen we of iemand toevallig tampons bij zich heeft? Hoe vaak staan we niet zij aan zij voor de spiegel om onze make-up bij te werken? Is dat geen intimiteit? En waarom zou je bij dat alles niet kunnen praten of beslissingen nemen?

Nee, zuchtte de man naast me. Je snapt het niet. Wij staan naast elkaar te plassen en kunnen elkaar niet aankijken tijdens het praten. Dát maakt het verschil.

Ineens zag ik voor me hoe ze daar stonden in hun blauwe en grijze pakken. Zij aan zij bij het urinoir. Ogen strak naar voren. Met hun piemel in de hand. Zó werden dus de echte beslissingen genomen. Wat een treurige gedachte.

Ik dacht aan alle vergaderingen waarbij ik als enige vrouw aanwezig was. En hoe vaak die even waren stilgelegd zodat iedereen naar de wc kon. En welke cruciale beslissingen ik blijkbaar gemist had, doordat ik eenzaam op het damestoilet zat. Ik dacht naïef genoeg altijd dat iedereen opgelucht terugkwam dankzij de plaspauze en de kleine wandeling die daarbij hoorde. Niet omdat er buiten de vergadering, uit het zicht van mij en de notulen heimelijk een beslissing doorheen was gejast.

Kom dus maar door met dat vrouwenquotum – al was het maar opdat er in de toekomst iets minder beslissingen worden genomen met een piemel in de hand.

Deze column verscheen eerder in de Volkskrant

13 tekens

De dag die je wist dat zou komen was weer daar: tijd om zoals elk half jaar verplicht het wachtwoord van mijn universiteitsaccount te veranderen. Was ik er klaar voor? Kun je dat ooit echt zijn? Ik keek naar de eisen: “Het wachtwoord moet minstens 8 tekens lang zijn. Het wachtwoord mag niet meer dan 13 tekens bevatten. Het wachtwoord moet minstens één getal bevatten. Het wachtwoord mag geen symbolen bevatten. […] Het wachtwoord kan geen deel van je (gebruikers)naam bevatten. Het wachtwoord mag geen gewoon woord of een veelgebruikte reeks tekens bevatten.”

Wacht, waarom mocht ik *@#$%^& geen symbolen gebruiken? Ik snap dat het wachtwoord niet te kort mag zijn en ik juich het natuurlijk toe dat er Fibonacci-getallen gebruikt worden voor grenzen. Maar waarom mag mijn wachtwoord in vredesnaam niet langer dan dertien tekens zijn? Wordt het opgeslagen op een heel smal ponskaartje?

Blijkbaar worden niet alle eisen even streng gehandhaafd, want het systeem accepteerde eens een wachtwoord dat het woord ‘ANGRY’ bevatte en ik heb ook wel eens delen van mijn naam gebruikt – wat goed nieuws is voor Melvin Q.D. Jugxby Schwartzkopf.

Toch is het elk half jaar weer puzzelen op een wachtwoord dat aan alle eisen voldoet en toch te onthouden is. Het regelmatig verplicht veranderen van wachtwoorden is volgens experts dan ook een slecht idee [1][2]. Gebruikers kiezen namelijk minder goede wachtwoorden als ze weten dat ze die over een tijdje weer moeten veranderen. Of ze gaan over tot een systeem met steeds hetzelfde wachtwoord met een ander getal aan het eind – wat gek genoeg niet zo heel moeilijk te kraken blijkt als eenmaal een wachtwoord gelekt is. Of gebruikers die wél braaf een moeilijk te raden wachtwoord kiezen, schrijven dit op een post-it aan hun monitor. Natuurlijk zijn er wachtwoord-managers die dit soort problemen oplossen – maar dan sta je wel weer te klungelen bij een printer waarop je je wachtwoord met de hand moet intypen.

Om het nog erger te maken zijn al die eisen aan wachtwoorden óók al een slecht idee [3]. Mensen zoeken namelijk naar manieren om zo simpel mogelijk aan de gestelde eisen te voldoen, wat juist leidt tot minder sterke wachtwoorden. De hoofdletter komt aan het begin, als een symbool verplicht is, dan doe je aan het eind een uitroepteken. Nog even ergens een cijfer erin stoppen en klaar is je W8chtwoord! De diepe ironie van dit alles is dat we, zoals Randall Munroe het ooit treffend verwoordde in zijn strip xkcd, iedereen hebben getraind om wachtwoorden te kiezen die moeilijk te onthouden zijn voor mensen, maar makkelijk te raden voor computers.

Er bestaan elegante oplossingen, zoals bijvoorbeeld diceware, waarbij je wachtwoord uit een rijtje van zes gewone woorden bestaat. Die woorden komen uit een standaardlijst van 7.776 makkelijk te onthouden woorden. Je kiest een woord door vijf keer een dobbelsteen te gooien (waarbij er niet geheel toevallig 7.776 mogelijke uitkomsten zijn) en het bijpassende woord op te zoeken in de lijst. Dit herhaal je tot je een rijtje van zes woorden hebt. Ik probeerde deze methode en kwam op ‘geheel hommel best kaars dienst aaien’. Dat lijkt me makkelijker om te onthouden én moeilijker te kraken dat het wachtwoord dat ik nu toch maar weer braaf heb verzonnen voor het komende half jaar.

0,8%

De zon scheen, de magnolia’s bloeiden en in de sloot zwom een meerkoet naast een waterhoen. Wat een geluk dat ik die samen zag, want nu kon ik vrolijk melden dat ik een meerkoet en een waterhoen tegenkwam, terwijl ik die twee watervogels nooit uit elkaar kan houden. Toen ik hier een grapje over maakte op Twitter, bleken allerlei mensen hetzelfde probleem te hebben (‘Het zijn net Nick en Simon.’).

Die mensen bleken dan weer allemaal handige ezelsbruggetjes te hebben bedacht hiervoor. Zoals: de meerKOEt is zwart met wit, net als een koe en de waterHOEN heeft het rood van een haan. Iemand anders dacht bij de witte vlek aan kauwgom, dus moest het de meerkoet met de k van kauwgom zijn. Sommige geheugensteuntjes gebruikten een vreemde logica: ’Bij de vogel met het wit op de kop, zit er géén w in de naam.’ Of nog gekker: ‘De vogel met de witte bles heet in het Duits ‘Blässhuhn’ en dat is natuurlijk de meerkoet.’

Ontroerend dat allerlei mensen trucjes verzinnen om de namen van deze vogels te onthouden. Mijn promovendus Michiel Hooykaas doet onderzoek naar soortenkennis en hoe je daarover communiceert. Vorig jaar trok hij langs basisscholen om te kijken of kinderen gangbare Nederlandse dieren herkennen. Daarbij liet hij ruim 600 kinderen een waterhoen zien en slechts een schamele 0,8% wist de juiste naam te noemen. Sommige kinderen gokten op ‘koekoek’, ‘kalkoen’ of ‘waterkoe’. Michiel heeft iets te doen de komende jaren.

Kinderen herkennen exotische dieren als een giraffe makkelijker dan de ekster die op hun eigen schoolplein zit. Sterker nog, ze weten vaak zelfs meer over fantasiedieren. In 2002 lieten onderzoekers aan Britse scholieren plaatjes zien van dieren uit hun eigen omgeving, zoals een haas of een kever, en Pokémon-plaatjes met bijvoorbeeld Pikachu of Bulbasaur. Achtjarigen herkenden bijna 80% van de fictieve Pokémon-dieren en minder dan de helft van de echte dieren. De conclusie was dat natuurbeschermers heel wat kunnen leren van Pokémon.

Want je gaat meer houden van dingen die je kent en waarover je allerlei leuke feitjes weet. Ik denk nog vaak aan een column die Bas Haring pakweg tien jaar geleden schreef over ene Martin wiens prachtige uitzicht verpest werd door een stel elektriciteitsmasten pal voor zijn huis. Eerst baalde Martin daarvan, want hij zag liever bomen dan die stomme metalen masten. Maar toen deed Martin iets geniaals: hij besloot zich te verdiepen in elektriciteitsmasten, op zoek naar een zelfde schoonheid die hij wel herkende in bomen. Hij leerde dat er allemaal vormen en soorten masten bestonden. Zijn ergernis over de masten voor zijn raam verdween, hij zag er nu inderdaad een zekere schoonheid in. Als ik in het buitenland langs een gekke elektriciteitsmast rijd, dan denk ik altijd even aan die Martin en hoe hij daar vast iets leuks over zou weten.

Bas Haring concludeerde dat we iets kunnen leren van Martin: schoonheid ontdekken in allerlei gewone dingen door ons erin te verdiepen. Ik verheug me al op de volgende keer dat ik een meerkoet of een waterhoen zie zwemmen.

Deze column verscheen eerder in de Volkskrant

Inmiddels is de studie van Michiel Hooykaas gepubliceerd en hier te vinden.

Twee klassen getallen

Een lezer vroeg of ik eens een column kon schrijven met mijn mening over Baudet. Nu houd ik zelf juist zo van het wetenschapskatern omdat je daarin eens níet allerlei meningen leest, maar de lezer is natuurlijk altijd de baas. Dus daarom een column over Baudet met aan het eind mijn mening.

Omdat de vraag niet zo specifiek was, gaat deze column over Han Baudet, de overgrootvader van politicus Thierry Baudet. Deze wiskundige leefde van 1891 tot 1921 en de jong gestorven wetenschapper liet het ‘Vermoeden van Baudet’ na.

Dit vermoeden gaat over de natuurlijke getallen (1, 2, 3, 4, enzovoorts) en rekenkundige rijtjes. Dat zijn rijtjes getallen waarin het verschil tussen twee opeenvolgende getallen steeds hetzelfde is. Bijvoorbeeld 2, 4, 6, 8, 10 of 3, 7, 11, 15. Kortom: het soort rijtje dat je op makkelijke IQ-testen moeten aanvullen met het volgende getal.

Het Vermoeden van Baudet luidt als volgt: “Als m een natuurlijk getal is en de verzameling der natuurlijke getallen wordt in twee klassen verdeeld, dan bevat één van die klassen een rekenkundig rijtje van lengte m.” Oké. Wat betekent dat? Als je al die oneindige natuurlijke getallen in twee aparte groepen verdeelt, dan zit er in één van die groepen een rekenkundig rijtje van een willekeurige lengte (dat is die m en je mag daarvoor alles kiezen, je kunt 3 nemen of 1729 of een triljoen).

Om hier een gevoel voor te krijgen is het goed om te kijken naar een iets kleiner voorbeeld (oneindig veel getallen uitschrijven is altijd zo’n gedoe). Probeer maar eens om de getallen 1, 2, 3, 4, 5, 6, 7, 8 en 9 in twee groepen te verdelen zodat er in géén van die groepen een rekenkundig rijtje van lengte drie zit.

Dit zal niet lukken. Het bewijs past niet in deze column (de kantlijn is weer eens te klein), maar het is een kwestie van gevallen uitsplitsen. Als je bijvoorbeeld 3 en 5 in de eerste groep stopt, dan moet 1 in de andere groep zitten (want anders krijg je het rijtje 1, 3, 5) en ook 4 en 7 moeten in de tweede groep zitten als je rekenkundige rijtjes in de eerste groep wilt vermijden. Maar dan belanden 1, 4 en 7 in de tweede groep en dat is zelf een rekenkundig rijtje. Zo kun je nog veel meer gevallen uitsluiten, net zolang tot je ziet dat het nóóit lukt en je altijd met een rekenkundig rijtje eindigt.

En als je die oneindig veel natuurlijke getallen in twee groepen verdeelt, zal één van die groepen willekeurig lange rekenkundige rijtjes bevatten. Het Vermoeden van Baudet is in 1927 bewezen en het heet nu in een iets andere vorm de Stelling van Van der Waerden (u mag raden wie het bewezen heeft). In een artikel uit 2007 beschrijft K.P. Hart hoeveel invloed deze stelling heeft gehad, nog steeds blijft hij opduiken in allerlei andere bewijzen.

En dan ten slotte, zoals beloofd, mijn mening: ik ben er niet voor om de natuurlijke getallen in twee klassen te verdelen.

Deze column verscheen eerder in de Volkskrant

18 dingen waarvan ik vrolijk werd in 2018

1. Hoe toen de treinen waren gestrand allerlei mensen elkaar thuisbrachten met #stormpoolen. Zo belandde ik op weg van Utrecht naar Leiden in een auto met twee onbekenden die allerlei vrienden van mij bleken te kennen via, jawel, sterrenkunde-zomerkampen.
2. Collega’s die meedachten over mijn onderzoek, constructief commentaar gaven op mijn artikel en daarna zeiden dat dit normaal was en dat hun naam heus niet bij de auteurs hoefde.
3. The Good Place op Netflix. Het was even inkomen, maar daarna werd het hardop lachen.
4. Dat ik bij bij een lezing over wetenschapscommunicatie aangevallen werd door een stuurse wiskundestudent die mopperde dat het tijdverspilling is om wiskundige ideeën te delen met het algemeen publiek. En dat toen topwiskundige Ingrid Daubechies in de zaal bleek te zitten en opstond om hem de les te lezen en uit te leggen hoe belangrijk wetenschapscommunicatie is.
5. Die middag dat er op het verder lege terras van Five Guys precies vijf mannen aan een tafeltje zaten.
6. Hoe ik dankzij DJ St Paul een uurtje mijn lievelingsmuziek mocht draaien op Best Kept Secret en dat toen iedereen los ging op Campus van Vampire Weekend.
7. Dat de Technische Universiteit Delft me uitriep tot alumnus van het jaar 2018, terwijl ik toch niet het prototype ingenieur ben. En hoe mijn vader, die óók ingenieur is, stralend van trots vooraan zat bij de prijsuitreiking.
8. Less van Andrew Sean Greer, ongetwijfeld de vrolijkste Pulitzerprijswinnende roman in jaren.
9. De drie tellen waarin ik eindelijk rechtop stond op mijn surfbord nadat ik voor het tweede jaar lessen golfsurfen volgde.
10. Dat ik totaal onverwacht in de Donald Duck stond – als Pionica Smeets met een kekke toga en een mopsneus. Deze voorzitster van de Duckstadse Algebra-Ver1niging organiseerde een wiskundewedstrijd waar half Duckstad aan meedeed. Guus Geluk won vanzelfsprekend.
11. Hoe mijn zoon vervolgens totáál niet onder de indruk was toen hij die week zijn Donald Duck las: ‘Jaja, het drie-deuren-probleem, daar heb je het zo vaak over, mama. Oh kijk, een leuk verhaal over Willy Wortel.’
12. Dat er zoals elk collegejaar weer een nieuwe lading studenten de collegezalen binnenstormde met verse idealen en plannen om de wereld te veroveren.
13. Dat mijn verjaardag een palindroom-datum was.
14. Half oktober in een zomerjurkje in de tuin zitten en daarbij De laatste dans (Dansen op een vulkaan) neuriën.
15. De optimistische zienswijze van mijn collega Noelle Aarts, hoogleraar Socio-Ecologische Interacties. Tijdens een gastcollege legde ze uit dat mensen heel slecht zijn in het voeren van een dialoog met mensen die anders denken dan zijzelf. Waarop Aarts concludeerde dat dit héél goed nieuws was, want daardoor viel er nog veel te verbeteren.
16. King Lear van Toneelgroep Maastricht – zo geestig, zo mooi.
17. Dat er in mijn vriendenkring minder begrafenissen waren dan in 2017.
18. Het idee dat er een rangorde te maken is van al die grote en kleine vrolijke momenten en dat je daarmee kunt aanwijzen wat het vrolijkste van 2018 was.

Deze column verscheen eerder in de Volkskrant.

Tweehonder dollar

In het ruim honderd jaar oude verhaal Het apenpootje van W.W. Jacobs mag de eigenaar van een gemummificeerd apenpootje drie wensen doen. Een man vraagt tweehonderd dollar om zijn hypotheek af te lossen. Dat bedrag krijgt hij, maar wel als smartengeld voor zijn geliefde zoon die op gruwelijke wijze verongelukt. De andere twee wensen gaan niet veel beter, want het apenpootje blijkt vervloekt – mensen moeten zich namelijk niet bemoeien met hun lot.

Ik ontdekte Het apenpootje via een blogpost over kunstmatige intelligentiesystemen die niet doen wat de bedoeling is. Vorige week schreef Laurens Verhagen in Sir Edmund een lang stuk over hoe computersystemen onbedoeld allerlei vooroordelen overnemen uit de trainingsgegevens die mensen erin stoppen. Kunstmatige intelligentie-onderzoeker Victoria Krakovna verzamelt op haar blog voorbeelden van een andere categorie ongewild gedrag: systemen die een oplossing vinden die letterlijk genomen keurig aan de opdracht voldoet, maar totaal niet is wat de menselijke ontwerper bedoelde.

Neem bijvoorbeeld de robotarm die moest leren om een pannenkoek vanuit een pan op een bord te werpen. Als eerste stap programmeerde de maker de arm zo, dat een sessie eindigde als de pannenkoek op de grond viel en de robot punten verdiende voor de tijd dat de sessie duurde. Het doel was om zoveel mogelijk punten te halen. Het idee was dat de robot de pannenkoek daardoor lang in de pan zou houden. Helaas: het resultaat was dat de robotarm de pannenkoek zo ver mogelijk weggooide, om de tijd in de lucht te maximaliseren.

De lijst van Krakovna staat vol met dit soort heerlijke voorbeelden. Een robotarm die een blokje op een gemarkeerde plek op een tafel moest zetten, bereikte dit door de complete tafel te verplaatsen. Een programma dat zijn eigen antwoord moest vergelijken met het juiste antwoord in een tekstbestand, verwijderde vrolijk dat antwoordbestand. Daarna hoefde het verder niets te doen, want het juiste antwoord was nu immers ‘niets’. Kunstmatige intelligentie die moest leren hoe ze een strategisch computerspel kon winnen, ontdekte dat het soms meer punten opleverde om het spel te laten crashen. Dus verzon ze allerlei trucs om het spel te laten vastlopen.

Ik herken mezelf heel erg in deze computersystemen. Bij spelletjes zoek ik ook graag naar manieren om te winnen die technisch gezien mogen volgens de regels, maar duidelijk niet de bedoeling zijn. Ik ben ook wel eens gebeld door de producent van een televisiequiz die overwoog een spelregel te veranderen. Voor de zekerheid wilde hij even vragen wat ik dan zou doen als kandidaat. Na even denken kwam ik met een bloedirritante strategie, waarop de producent in kwestie besloot om de regel dan maar te houden zoals hij was.

Onhandig gemaakte regels zijn het probleem bij al die voorbeelden van ‘verkeerd’ gedrag van computersystemen. De echte fout zit natuurlijk bij de mensen die de doelen en beloningen onhandig formuleren. Een computersysteem gaat niet, zoals een Ionica zou doen, bewust de regels verkeerd interpreteren om te winnen. Dus hoe moet je dit gedrag dan noemen? In de reacties onder de blog kwam ene Alex Foster met de schitterende suggestie: apenpootjes. Naar dat verhaal van meer dan honderd jaar geleden. Als je wensen totaal verkeerd geïnterpreteerd kunnen worden, dan is het de vraag of het verstandig is om een wens te doen.

Deze column verscheen eerder in de Volkskrant.

38,2

Daar zaten we dan met onze jury bij De Wereld Draait Door om het Getal van het Jaar bekend te maken. Op 11 december. En dat terwijl jurylid Casper Albers eens een vernietigende analyse maakte van eindejaarslijsten die verschijnen vóórdat het jaar is afgelopen. Op 11 december waren we op 95% van het jaar, dus er was een kans van 5% dat hét getal van 2018 nog moest komen.

Maar ja, hier gold een speciale versie van de wet van de grote aantallen: voor meer dan een miljoen kijkers besloot de jury de gok te wagen en de winnaar toch maar vast bekend maken. Allerlei mensen hadden ons een pleidooi voor hun favoriete getal gestuurd en uit de meer dan duizend nominaties kozen wij de drie getallen die 2018 het meest typeerden. Brons ging naar de 1.900.000.000 euro die de afschaffing van de dividendbelasting zou kosten en stond voor de eindeloze politieke discussies daarover. Zilver was voor Maarten van der Weijden en de heroïsche 163 kilometer die hij zwom tijdens zijn elfstedenzwemtocht om geld in te zamelen voor kankeronderzoek. Het goud ging naar 38,2 graden – de hoogst gemeten temperatuur deze zomer in het Limburgse Arcen. Veel inzenders koppelden die eindeloze, warme zomer van 2018 aan klimaatverandering en het stijgende gevoel dat we iets moeten doen voor het te laat is.

Anderen drukten dat gevoel uit in het recordaantal van 55 officiële zomerse dagen, of de hoogste gemiddelde zomertemperatuur sinds 1706, of de 335 zonuren waarmee juli de zonnigste maand ooit gemeten was. Uiteindelijk won 38,2 graden omdat je je nu eenmaal makkelijker iets kunt voorstellen bij zo’n snikhete dag waarop zelfs de wind je niet verkoelt dan bij andere meer abstracte getallen. Iemand stelde al voor om die iconische 38,2 groot op een muur in Arcen te schilderen.

Prachtig, maar de jury bleef voor de zekerheid de getallen toch nauwlettend in de gaten houden na de bekendmaking. Stel dat er een nog betere zou komen. Op 16 december las ik bijvoorbeeld dat een slimme zakenman 18.152.868 euro kreeg van ProRail voor stukjes grond langs het spoor – terwijl hij in 2010 nog tien miljoen euro tóe kreeg van de NS om die stukjes grond over te nemen. Heerlijk en typisch Nederlands, maar gelukkig geen top-drie-materiaal.

Britse statistici maakten in de tussentijd bekend dat wat hen betreft 90.5% de internationale statistiek van het jaar is: het percentage van plastic afval dat nooit is gerecycled. Scientific American publiceerde een nummer met de grootste verhalen over wetenschap van 2018. Alleen bleek dat tijdschrift helaas gedrukt net vóórdat het nieuws over de Chinese genetische gemodificeerde baby’s bekend werd en zo misten ze één van de wetenschappelijke verhalen waarvoor 2018 herinnerd zal worden.

Inmiddels durf ik bijna rustig adem te halen. Deze column verschijnt op 29 december – nog maar twee dagen te gaan. Ik denk dat we inmiddels redelijk veilig zitten met onze top 3. Mark Rutte gaat vast geen plan meer verzinnen dat meer dan 1.900.000.000 euro kost, niemand zwemt nog snel meer dan 163 kilometer in Friesland en warmer dan 38,2 graden gaat het óók niet meer worden. Nee, zolang er geen grote ramp plaatsvindt de komende dagen, zitten we goed met deze getallen. Dus laten we dus hopen dat het bij deze top drie blijft voor 2018.

Deze column verscheen eerder in de Volkskrant.

Lees hier de eerdere column over dit onderwerp.