‘U heeft een 9,4. Of nee, toch een 6,3’: de bizarre schijnprecisie van beoordelingen

Stel dat een groep studenten de eerste versie van een werkstuk inlevert en van hun docent te horen krijgt: ‘Goed gedaan, dit is een 9,4, hierbij nog een paar kleine verbeterpunten.’ En stel dat die studenten daar ijverig mee aan de slag gaan en een verbeterde versie inleveren. En stel nu dat die tweede versie wordt nagekeken door een andere docent, die met allerlei nieuwe kritiekpunten komt en als eindcijfer een 6,3 geeft. Ik denk dat die studenten heel boos zouden worden en vragen zouden stellen over of de manier van beoordelen wel deugt.

Dit is min of meer wat mij met een groep collega’s onlangs overkwam bij een Europese onderzoekssubsidie. Vorig jaar vormden we een consortium van zeven Europese universiteiten en tientallen maatschappelijke partners die samen een groep nieuwe experts op het gebied van wetenschapscommunicatie wilden opleiden. We dienden een subsidievoorstel in voor een netwerk van promovendi bij de Europese Unie.

Dat voorstel werd lovend beoordeeld: we haalden een score van 94,20 procent. Helaas kregen we desondanks geen subsidie, van de 1.417 ingediende voorstellen konden slechts de 149 hoogst scorende worden gehonoreerd. Ons voorstel stond op plek 155.

Het goede nieuws was dat we dit jaar een verbeterde versie van ons voorstel mochten indienen. We gingen ijverig aan de slag met de kleine verbeterpunten. Maar toen kregen we dit jaar een score van 62,80 procent. Aspecten van ons plan die vorig jaar als uitzonderlijk sterk waren beoordeeld, werden dit jaar beoordeeld als zwak. Terwijl de criteria niet gewijzigd waren. Los van mijn eigen teleurstelling vond ik het gênant om dit te moeten vertellen aan de partners met wie ik dit project had willen doen. Wat een puinhoop is de beoordeling van wetenschappelijke subsidies.

Bij het nakijken van studentenwerk is de norm dat twee docenten het beoordelen en als die meer dan een punt verschillen, komt er een derde beoordelaar bij. Als docenten geregeld zoveel van elkaar afwijken, dan kijken we waar dit misgaat. Zijn de criteria niet goed? Moeten de docenten beter getraind worden in het nakijken?

Als wiskundige ben ik me ervan bewust dat het niet triviaal is om een complex werk met allerlei dimensies terug te brengen tot één cijfer. De Europese Commissie heeft voor de onderzoeksvoorstellen van tientallen pagina’s slechts drie criteria (excellentie, impact, implementatie), elk te beoordelen op een schaal van 1 tot 5. Vervolgens worden deze drie scores gecombineerd tot een getal met twee cijfers achter de komma en gebruikt om een ranglijst van alle voorstellen te maken. Het is een bizarre schijnprecisie. Bovendien is het een naïef idee dat je honderden voorstellen met totaal verschillende invalshoeken en samenwerkingen op één lineaire manier op kwaliteit kunt ordenen.

Natuurlijk denk ik graag dat ons herziene voorstel minstens een 95 procent had moeten krijgen, maar ik besef goed dat we vorig jaar bij andere beoordelaars misschien wel veel lager hadden gescoord. Voorkeuren en interpretatie van reviewers spelen een belangrijke rol en het is een loterij wie jouw voorstel beoordeelt.

Steeds vaker denk ik: als willekeur toch al een grote rol speelt, maak er dan maar een echte loting van. Gooi de slechtste voorstellen eruit, geef een wildcard aan de aller-allerbesten en laat de rest loten. Dat is minder werk en eerlijker.

Deze column verscheen op 17 april 2026 in de Volkskrant.

Ionica Smeets

Hoogleraar wetenschapscommunicatie – Universiteit Leiden

‘U heeft een 9,4. Of nee, toch een 6,3’: de bizarre schijnprecisie van beoordelingen