510 staandehoudingen en de zelfversterkende feedback-loop

Toen ik las over de vraag of de belastingdienst gebruik heeft gemaakt van etnisch profileren en de discussie over hoe de overheid meer algoritmen kan gebruiken, dacht ik steeds aan zelfversterkende feedback-loops. En hoe daarmee kleine verschillen tussen groepen kunnen worden opgeblazen tot gapende kloven.

Een fictief voorbeeld. In een ver land bestaat de bevolking uit twee even grote bevolkingsgroepen: de huffelpuffers en de ravenklauwen. Uit de statistieken blijkt dat de huffelpuffers verantwoordelijk zijn voor 51 procent van de misdaden en de ravenklauwen voor 49 procent. Uit nader onderzoek blijkt dat precies 51 procent van de huffelpuffers betrokken is bij criminele activiteiten, ­tegenover 49 procent van de ravenklauwen.

De politie besluit een nieuw datagedreven beleid in te zetten om criminaliteit op te sporen. Ze gaan elke maand duizend mensen staande houden en controleren. Daarbij zullen ze steeds de criminaliteitscijfers van de vorige maand gebruiken om te bepalen wat de meest ­effectieve manier van controleren is. Zo profileren ze mooi de meest waarschijnlijke criminelen. In dit fictieve voorbeeld nemen we aan dat de criminaliteit onder de bevolkingsgroepen constant blijft en dat het herkennen van criminelen volkomen vlekkeloos verloopt.

De politie begint met het feit dat 51 procent van de misdrijven gepleegd is door huffelpuffers en 49 procent door ravenklauwen. Die eerste maand houdt de politie daarom 510 huffelpuffers staande – waarvan 51 procent crimineel is, dat levert afgerond 260 misdadigers. Er worden daarnaast 490 ravenklauwen gecontroleerd, daarvan is 49 procent crimineel, dat geeft afgerond 240 misdadigers.

‘Zie je wel’, concludeert de politie: ‘Onze methode werkt als een tierelier – we zien dat de afgelopen maand zelfs 52 procent van de 500 gevonden criminelen een huffelpuffer was.’ De volgende maand worden er daarom 520 huffelpuffers en 480 ravenklauwen gecontroleerd. Hoppa, die maand blijkt zelfs 53 procent van de gevonden misdadigers een huffelpuffer.

Als dit systeem gestaag zo door blijft werken, wordt na twee jaar 73 procent van de criminaliteit toegeschreven aan huffelpuffers. Binnen vijf jaar is dat 90 procent en na zeven jaar worden er per maand nog slechts een stuk of dertig ravenklauwen gecontroleerd tegen zo’n 970 huffelpuffers.

De groep die bij invoering van het nieuwe systeem ietsje crimineler is, heeft net ietsje meer kans om gecontroleerd te worden. Waardoor ze ietsje vaker in de statistieken opduiken, waardoor ze iets vaker worden staande gehouden. Enzovoort: dit is een zelfversterkende feedback-loop. Terwijl het werkelijke verschil in criminaliteit tussen de twee groepen al die tijd een schamele twee procentpunt blijft: 51 versus 49.

Nu is dit een fictief voorbeeld. Maar we kennen helaas tal van echte voorbeelden waarbij zelfversterkende feedback-loops verwoestende gevolgen hadden. Cathy O’ Neill geeft in Weapons of Math Destruction een deprimerend overzicht. En laatst zag ik een grafiek voorbijkomen met daarin welke voetgangers de politie in New York staande houdt op basis van ‘redelijke verdenking’. Van elke duizend zwarte jongens van 20 worden er jaarlijks ongeveer 950 staandegehouden. Bij witte jongens van dezelfde leeftijd waren dat er ongeveer 175 van elke duizend. Toen vroeg ik me af hoe fictief mijn voorbeeld precies was.

Deze column verscheen op 21 juni 2019 in de Volkskrant.

17.187 patiënten

Wat doe je als iemand je dwingt om iets te doen dat je een heel dom idee vindt? Deze week las ik de glorieuze oplossing van onderzoeker Richard Peto: doe het samen met iets dat je een nóg dommer idee vindt. Dan voldoe je keurig aan de gegeven opdracht, maar laat je tegelijk je protest zien aan de goede verstaander.

In 1988 leidde Peto een groot onderzoek naar het gebruik van medicijnen tijdens een hartaanval. Er werd gekeken of overlevingskansen toenamen na het toedienen van aspirine of streptokinase – twee middelen die het samenklonteren van bloedplaatjes tegengaan. Het vermoeden was dat het toedienen van deze medicijnen de kans op complicaties door bloedpropjes verkleint.

De studie omvatte een indrukwekkende 17.187 patiënten. Sommige patiënten kregen alleen aspirine, anderen alleen streptokinase, sommigen allebei en weer anderen kregen een placebo. En dat allemaal keurig willekeurig verdeeld over al die patiënten om te testen wat nu het beste werkte.

Ruim vierduizend patiënten kregen zowel aspirine als streptokinase. In deze groep stierven 343 mensen binnen iets meer dan een maand na hun hartaanval. In de even grote groep patiënten die voor allebei de medicijnen een placebo kreeg, overleden in dezelfde periode 568 mensen. De statistische analyse en de conclusies waren glashelder: de behandeling kon levens redden.

Peto en zijn collega’s schreven al hun resultaten op en dienden ze in als wetenschappelijk artikel bij het prestigieuze tijdschrift The Lancet. En toen kwam het moment dat Peto gedwongen werd om iets doms te doen. Om zijn artikel te publiceren, moest hij namelijk zijn resultaten verder uitsplitsen naar allerlei verschillende groepen patiënten. Hoe zat het met verschillen tussen mannen en vrouwen? Maakte het uit of een patiënt diabetes heeft? En wat als de patiënt de week voor de hartaanval al aspirine had ingenomen?

Dat uitsplitsen vond Peto dus een heel dom idee. Hij had dit experiment juist opgezet met een groot aantal patiënten omdat je dan goed ziet wat er gebeurt. Als je vervolgens in kleine groepen gaat zoeken naar verschillen, dan vind je allerlei resultaten die meer ruis dan waarheid zijn. Stel bijvoorbeeld dat de kans 5% is dat je per ongeluk een verschil vindt tussen twee groepen patiënten waar in werkelijkheid niets aan de hand is. Als je twintig losse vergelijkingen tussen twee van zulke groepen maakt, dan is de kans 64% dat je minstens één keer een resultaat vindt dat eigenlijk niets betekent.

Maar als Peto zijn studie wilden publiceren, kon hij zulke vergelijkingen niet weigeren. Daarop voegde hij iets toe dat hij nóg dommer vond: een analyse met sterrenbeelden van patiënten. Voor tweelingen en weegschalen bleek aspirine averechts te werken. Voor alle andere sterrenbeelden was het goed. Peto zette deze analyse pal bovenaan zijn tabel met de gevraagde analyses van losse groepen en liet daarmee zien hoe serieus je al die cijfers moet nemen. En de Lancet drukte het keurig af.

Deze column verscheen eerder in de Volkskrant

30% vrouwen

Ik dacht eigenlijk dat ik best lekker door dat glazen plafond heen was gekomen. Een hoogleraarschap, bestuursfuncties, politici die me om advies vragen. Regelmatig kijk ik om me heen bij een vergadering of diner en denk dan: “Dit is het dus: dat old-boys-network.” Want vaak ben ik de enige vrouw – en ook de enige die jonger is dan vijftig.

Maar goed, ik zat er dus toch maar mooi tussen. Ik dacht dat ik het behoorlijk had gemaakt. Tot ik bij een diner naast een topbestuurder kwam te zitten die me waarschuwde dat ik cruciale dingen mis omdat de échte beslissingen worden genomen op het herentoilet.

Bijna glunderend legde hij uit hoe elegant het is om een moeizame vergadering kort te schorsen, waarop de discussie verder gaat op de wc. En tja, zei hij, vrouwen kunnen natuurlijk niet met elkaar praten tijdens het plassen.

Ik keek hem verbijsterd aan en verzekerde hem dat vrouwen op het toilet óók met elkaar praten – desnoods dwars door een muurtje of wc-deur heen. Nuja, wierp mijn gesprekspartner tegen. Misschien práten jullie dan wel met elkaar, maar jullie kennen niet die unieke intimiteit van het herentoilet.

Pardon, geen intimiteit? Had ik niet de week ervoor nog een vrouwelijke college geholpen om de rits in de rug van haar jumpsuit dicht te maken? Zij met haar handen omhoog om haar haren uit de weg te houden, ik met mijn vingers voorzichtig op haar huid. Hoe vaak plukken we op het damestoilet niet even haren van elkaars jasjes? Gebruiken we elkaars deodorant? Vragen we of iemand toevallig tampons bij zich heeft? Hoe vaak staan we niet zij aan zij voor de spiegel om onze make-up bij te werken? Is dat geen intimiteit? En waarom zou je bij dat alles niet kunnen praten of beslissingen nemen?

Nee, zuchtte de man naast me. Je snapt het niet. Wij staan naast elkaar te plassen en kunnen elkaar niet aankijken tijdens het praten. Dát maakt het verschil.

Ineens zag ik voor me hoe ze daar stonden in hun blauwe en grijze pakken. Zij aan zij bij het urinoir. Ogen strak naar voren. Met hun piemel in de hand. Zó werden dus de echte beslissingen genomen. Wat een treurige gedachte.

Ik dacht aan alle vergaderingen waarbij ik als enige vrouw aanwezig was. En hoe vaak die even waren stilgelegd zodat iedereen naar de wc kon. En welke cruciale beslissingen ik blijkbaar gemist had, doordat ik eenzaam op het damestoilet zat. Ik dacht naïef genoeg altijd dat iedereen opgelucht terugkwam dankzij de plaspauze en de kleine wandeling die daarbij hoorde. Niet omdat er buiten de vergadering, uit het zicht van mij en de notulen heimelijk een beslissing doorheen was gejast.

Kom dus maar door met dat vrouwenquotum – al was het maar opdat er in de toekomst iets minder beslissingen worden genomen met een piemel in de hand.

Deze column verscheen eerder in de Volkskrant

Paper Ten simple rules for getting started on Twitter as a scientist

Twitter is one of the most popular social media platforms, with over 320 million active users as of February 2019. Twitter users can enjoy free content delivered by other users whom they actively decide to follow. However, unlike in other areas where Twitter is used passively (e.g., to follow influential figures and/or information agencies), in science it can be used in a much more active, collaborative way: to ask for advice, to form new bonds and scientific collaborations, to announce jobs and find employees, to find new mentors and jobs. This is particularly important in the early stages of a scientific career, during which lack of collaboration or delayed access to information can have the most impact.

For these reasons, using Twitter appropriately can be more than just a social media activity; it can be a real career incubator in which researchers can develop their professional circles, launch new research projects and get helped by the community at various stages of the projects. Twitter is a tool that facilitates decentralization in science; you are able to present yourself to the community, to develop your personal brand, to set up a dialogue with people inside and outside your research field and to create or join professional environment in your field without mediators such as your direct boss.

This article is written by a group of researchers who have a strong feeling that they have personally benefited from using Twitter, both research-wise and network-wise. We (@DrVeronikaCH, @Felienne, @CaAl, @nbielczyk_neuro, @ionicasmeets) share our personal experience and advice in the form of ten simple rules, and we hope that this material will help a number of researchers who are planning to start their journey on Twitter to take their first steps and advance their careers using Twitter.

Further information and the article itself can be found here.

13 tekens

De dag die je wist dat zou komen was weer daar: tijd om zoals elk half jaar verplicht het wachtwoord van mijn universiteitsaccount te veranderen. Was ik er klaar voor? Kun je dat ooit echt zijn? Ik keek naar de eisen: “Het wachtwoord moet minstens 8 tekens lang zijn. Het wachtwoord mag niet meer dan 13 tekens bevatten. Het wachtwoord moet minstens één getal bevatten. Het wachtwoord mag geen symbolen bevatten. […] Het wachtwoord kan geen deel van je (gebruikers)naam bevatten. Het wachtwoord mag geen gewoon woord of een veelgebruikte reeks tekens bevatten.”

Wacht, waarom mocht ik *@#$%^& geen symbolen gebruiken? Ik snap dat het wachtwoord niet te kort mag zijn en ik juich het natuurlijk toe dat er Fibonacci-getallen gebruikt worden voor grenzen. Maar waarom mag mijn wachtwoord in vredesnaam niet langer dan dertien tekens zijn? Wordt het opgeslagen op een heel smal ponskaartje?

Blijkbaar worden niet alle eisen even streng gehandhaafd, want het systeem accepteerde eens een wachtwoord dat het woord ‘ANGRY’ bevatte en ik heb ook wel eens delen van mijn naam gebruikt – wat goed nieuws is voor Melvin Q.D. Jugxby Schwartzkopf.

Toch is het elk half jaar weer puzzelen op een wachtwoord dat aan alle eisen voldoet en toch te onthouden is. Het regelmatig verplicht veranderen van wachtwoorden is volgens experts dan ook een slecht idee [1][2]. Gebruikers kiezen namelijk minder goede wachtwoorden als ze weten dat ze die over een tijdje weer moeten veranderen. Of ze gaan over tot een systeem met steeds hetzelfde wachtwoord met een ander getal aan het eind – wat gek genoeg niet zo heel moeilijk te kraken blijkt als eenmaal een wachtwoord gelekt is. Of gebruikers die wél braaf een moeilijk te raden wachtwoord kiezen, schrijven dit op een post-it aan hun monitor. Natuurlijk zijn er wachtwoord-managers die dit soort problemen oplossen – maar dan sta je wel weer te klungelen bij een printer waarop je je wachtwoord met de hand moet intypen.

Om het nog erger te maken zijn al die eisen aan wachtwoorden óók al een slecht idee [3]. Mensen zoeken namelijk naar manieren om zo simpel mogelijk aan de gestelde eisen te voldoen, wat juist leidt tot minder sterke wachtwoorden. De hoofdletter komt aan het begin, als een symbool verplicht is, dan doe je aan het eind een uitroepteken. Nog even ergens een cijfer erin stoppen en klaar is je W8chtwoord! De diepe ironie van dit alles is dat we, zoals Randall Munroe het ooit treffend verwoordde in zijn strip xkcd, iedereen hebben getraind om wachtwoorden te kiezen die moeilijk te onthouden zijn voor mensen, maar makkelijk te raden voor computers.

Er bestaan elegante oplossingen, zoals bijvoorbeeld diceware, waarbij je wachtwoord uit een rijtje van zes gewone woorden bestaat. Die woorden komen uit een standaardlijst van 7.776 makkelijk te onthouden woorden. Je kiest een woord door vijf keer een dobbelsteen te gooien (waarbij er niet geheel toevallig 7.776 mogelijke uitkomsten zijn) en het bijpassende woord op te zoeken in de lijst. Dit herhaal je tot je een rijtje van zes woorden hebt. Ik probeerde deze methode en kwam op ‘geheel hommel best kaars dienst aaien’. Dat lijkt me makkelijker om te onthouden én moeilijker te kraken dat het wachtwoord dat ik nu toch maar weer braaf heb verzonnen voor het komende half jaar.

Ionica bij Exact Live 2019

Welke belangrijke patronen mis je als je op de verkeerde manier naar de cijfers kijkt? Hoe voorkom je dat je verbanden in data ziet die er helemaal niet zijn? En hoe ga je om met mensen die zeggen dat het allemaal leuk en aardig is met die cijfers van jou, maar dat zij liever kijken naar wat mensen voelen? Ionica Smeets laat met praktische voorbeelden en veel humor zien wat de cijfers niet zeggen.