Direct naar artikelinhoud
InterviewPeter Grünwald

Amsterdamse wiskundige krijgt 2,5 miljoen euro om ‘lek’ in de wetenschap te dichten: ‘Weg met p, hier is e’

Amsterdamse wiskundige krijgt 2,5 miljoen euro om ‘lek’ in de wetenschap te dichten: ‘Weg met p, hier is e’
Beeld Charlotte Helmer - Studio Papernerd

De Amsterdamse wiskundige Peter Grünwald krijgt 2,5 miljoen euro Europese subsidie om een van de hardnekkigste hoofdpijndossiers van de wetenschap te repareren: de p-waarde, het getal waarmee onderzoekers werkelijkheid van toeval scheiden. Zijn ketterse idee: weg met p, hier is e.

Zweedse artsen wilden weten: wat is beter, als bij een hoogzwangere vrouw de baby maar niet komt? De bevalling opwekken in week 41, of nog even wachten? Dus ging men in veertien ziekenhuizen aan het werk, met enkele duizenden zwangere vrouwen. Bij sommigen werd de bevalling opgewekt in de 41ste week. Bij anderen wachtte men een week langer.

Na twee jaar werd het onderzoek vroegtijdig gestaakt. De onderzoekers waren geschrokken. In de ‘nog even afwachten’-groep waren vijf baby’s dood geboren en was er één kort na de geboorte overleden. Terwijl er bij de vrouwen waarbij men de bevalling snel had opgewekt, geen enkel sterfgeval was. ‘Opwekken van de bevalling zou niet later dan in week 41 moeten worden aangeboden’, concludeerde het team, in vakblad British Medical Journal.

Over de auteur
Maarten Keulemans is wetenschapsredacteur bij de Volkskrant, met als specialismen microleven, klimaat, archeologie en gentech.

Eigenlijk was er maar één probleem. Een getal, dat bij onderzoeken vaak als een soort formaliteit tussen haakjes staat, en waar iedereen met enige wetenschappelijke vooropleiding weleens van heeft gehoord: de ‘p-waarde’. Het p-getal dat in Zweden tussen haakjes stond, was 0,03. Daar staat: Daar staat: drie tegen honderd dat je in een van de twee groepen zes of nog meer overleden baby’s zou zien als er tussen beide groepen géén verschil in behandeling was geweest.

Maar pas op, zegt Peter Grünwald, senioronderzoeker aan het Centrum voor Wiskunde en Informatica in Amsterdam en hoogleraar statistisch leren aan de Universiteit Leiden. Doordat het onderzoek vroegtijdig is gestopt, had men helemaal geen p-waarde mogen berekenen. Net zoals de uitslag van een voetbalwedstrijd niet telt als de wedstrijd halverwege wordt gestaakt. ‘Dus weet niemand of wat er is gebeurd, niet toch gewoon toeval is’, zegt Grünwald.

Peter GrünwaldBeeld Minnie Middelberg/CWI

De p van p-waarde mag officieel dan staan voor probability (waarschijnlijkheid); de laatste vijftien jaar zou je haast gaan denken dat p voor ‘problemen’ staat. Soms werkt het getal dat werkelijkheid van toeval moet scheiden niet. Of leidt het tot blindgangers, misverstanden en verwarring, zoals in Zweden.

Zelfvertrouwen

Neem het ruim tien jaar oude onderzoek van de Amerikaanse psycholoog Dana Carney en twee collega’s, dat het schopte tot de zelfhulpboeken en de bedrijfscursussen. Wie voor de spiegel een open, stoere, rechtopstaande houding oefent – een ‘power pose’ – krijgt ook werkelijk meer zelfvertrouwen, toonde Carney wetenschappelijk aan. ‘Dit was een tijdje heel groot, met duizenden citaties en TED-talks’, zegt Grünwald.

Totdat Carneys onderzoek niet ‘repliceerbaar’ bleek: andere wetenschappers konden het niet met hetzelfde succes overdoen. Schoorvoetend erkende Carney wat er was gebeurd: ze had net zo lang plukjes onderzoeksresultaten vergaard, totdat haar p-waarde toevallig eventjes onder de 0,05 zakte. Dat is de heilig geachte grens die ruwweg aangeeft dat een effect ‘statistisch significant’ is, en geen toeval meer.

Ziezo, klaar, had Carney gedacht. Maar wat ze had gedaan, heet met een modieuze term ‘p-hacking’: snel de wedstrijd staken als je toevallig net op voorsprong staat. En ze is de enige niet. In vakblad Proceedings of the National Academy of Sciences onthulden methodologen een raar patroon: het gebeurt onevenredig vaak dat medische onderzoeken precies uitkomen op een p van 0,05. Dat kan helemaal niet. Kennelijk zetten wetenschappers de cijfers soms subtiel onder druk, om ze nog net op de grenswaarde te krijgen.

Te hoekig

Het balletje kwam zo’n vijftien jaar geleden aan het rollen, toen wetenschappers tot hun schrik ontdekten dat veel op het oog keurig uitgevoerde onderzoeken bij herhaling veel minder klinkende resultaten opleverden. Dat heeft meer dan één oorzaak. Maar p is wel een van de struikelblokken.

In zijn werkkamer in de Amsterdamse Watergraafsmeer werpt Grünwald de armen ten hemel. P is te hoekig, te bot en fraudegevoelig bovendien, verzucht hij. En eigenlijk alleen geschikt voor simpele, rechttoe-rechtaan onderzoeken. Want probeer de resultaten van meerdere onderzoeken bij elkaar op te tellen, en p wordt een soort pomp die steeds meer onzin overhevelt naar de kant van: ‘statistisch significant’, zo valt wiskundig aan te tonen.

En omgekeerd. Grünwald noemt het niermedicijn Kerendia, dat twee jaar geleden na onderzoek ‘niet statistisch significant’ bleek te beschermen tegen sterfte of ziekenhuisopname. Raar, want op allerlei losse onderdelen, zoals ‘opgenomen worden wegens hartfalen’ of ‘nierfalen’, scoorde Kerendia wél statistisch significant.

Maar bij elkaar geveegd, bleek de p-waarde van de bescherming tegen overlijden of ziekenhuisopname 0,051, nét boven de magische drempel van 0,05. Pijnlijk, want onder meer geneesmiddelenbeoordelaars hanteren als regel dat een medicijn dan geen effect heeft. ‘Terwijl iedereen aanvoelt dat zo’n medicijn waarschijnlijk heus wel werkt’, zegt Grunwald.

Steeds meer gemor

Het zijn ongelukken die tot steeds meer gemor leiden. In 2019 publiceerden honderden wetenschappers, onder wie ook zo’n dertig Nederlanders, zelfs een brandbrief in Nature, als een soort opstand tegen de terreur van de p-waarde. ‘Hoe kan statistiek er zo vaak toe leiden dat wetenschappers effecten ontkennen die mensen die níét in statistiek zijn opgeleid duidelijk kunnen zien?’, klaagden ze.

‘Als wiskundige doet p eigenlijk pijn aan mijn ogen’, zegt ook Grünwald. ‘We werken nu al tachtig jaar met die p-waarde, die gemaakt is voor simpel, one-shot-onderzoek, niet voor onderzoeken die je twee of drie keer wilt doen. Dat is eigenlijk vreselijk primitief.’ Daar komt nog eens bij dat wetenschappers die ermee moeten werken, vaak weinig van p snappen. ‘Voor de meeste mensen is p gewoon een knopje in hun statistiekprogramma. Je klikt erop en er komt een p-waarde uit. Dus het zal wel goed zijn.’

Hoog tijd dus om p aan te vullen – en zo’n aanvulling bestaat misschien al. Ziedaar e, overigens niet te verwarren met het irrationale getal van Euler e (2,71828…) De e waarop Grünwald zijn zinnen heeft gezet, staat voor evidence, bewijs, legt hij uit. Strikt genomen is het een maat die wiskundig uitdrukt hoe de zekerheid van een bepaald verband zich opstapelt. Hoe hoger e, des te zekerder je weet: dit is geen toeval meer, zette hij uiteen in een technisch vakartikel, samen met zijn collega’s Rianne de Heide (VU Amsterdam) en Wouter Koolen (Universiteit Twente).

Teller die meeloopt

Dat is ideaal om verschillende studies bij elkaar te voegen zonder dat de waarheid weglekt, denken e-aanhangers. En, nog een groot voordeel: waar p pas achteraf is te berekenen door twee situaties met elkaar te vergelijken, is e eerder een soort teller die meeloopt terwijl een onderzoek nog gaande is. Enigszins vergelijkbaar met de voetbalwedstrijd, waarbij het publiek bij 3-0 in de 80ste minuut heus wel aanvoelt dat langer doorspelen weinig zin meer heeft.

En dat scheelt nogal. Neem de Zweedse bevallingenstudie. ‘Als ze e-waardes hadden gebruikt, waren ze waarschijnlijk eerder met het experiment gestopt, en hadden ze vol overtuiging kunnen concluderen: het is slecht om geboorten een week later op te wekken’, becijferde Grünwald. ‘Dat had wellicht een of twee doodgeboren kinderen gescheeld. Én het had een statistisch geldige conclusie opgeleverd.’

Letterlijk een zaak van leven en dood dus, dat e-getal. Nu het alleen nog zien in te voeren. Want hoewel er de laatste jaren honderden artikelen over e verschenen, is p overal ingeburgerd. ‘In mijn wereld weet bijna niemand nog van e-waardes’, constateert experimenteel psycholoog Daniël Lakens (TU Eindhoven), zelf niet betrokken bij Grünwalds onderzoek. ‘Maar dat komt vooral omdat mensen bijna niks weten van nieuwe technieken – dat zegt niet dat ze niet nuttig kunnen zijn.’

A/B-testen

Opvallende bondgenoot in de slag om e is de technologiewereld. Zo gebruikt streamingdienst Netflix het getal al om twee varianten van hun site te testen, het zogeheten A/B-testen. Razendsnel helpt e daarbij aan te geven wanneer het geen toeval meer is dat mensen vaker op de ene dan op de andere variant klikken, legt Grünwald uit.

‘Techbedrijven zitten van nature al met situaties waarbij data als een stroom opeenvolgende gegevens binnenkomt. En er zitten natuurlijk veel techneuten. Die zijn sowieso al meer dan bijvoorbeeld artsen gewend om hier wat wiskundiger naar te kijken.’

In de medische wereld ligt het lastiger, ontdekte Grünwald toen zijn promovendus Judith ter Schure afgelopen jaren samen met het UMC Utrecht onderzocht of het zogeheten ‘BCG-vaccin’ tegen turberculose ook werkt tegen corona. Al snel werd duidelijk dat dit niet het geval is. Maar achter de schermen liepen de statistici aan tegen hobbels: de data kwam niet als keurige stroom cijfers, maar met horten en stoten, in verschillende formats, en afgeremd door bureaucratie en privacyregels.

Doorbraak

‘Dat geeft wel aan: de obstakels komen uit onverwachte hoek’, vertelt Grünwald. ‘Het is uiteindelijk gelukt, maar tegen de tijd dat we genoeg resultaten binnen hadden, waren er al coronavaccins en was ons onderzoek irrelevant geworden’.

E-waardes hebben ‘zeker potentie’, vindt ook Lakens. ‘Wat e-waardes goed kunnen, is data combineren. Ik denk dat elk onderzoeksveld even moet kijken waarvoor ze nuttig zijn. Er zullen zeker toepassingen voor zijn. Maar we zullen ook p-waardes blijven gebruiken, voorspel ik.’

Grünwald is er realistisch over. Eerst maar eens zorgen dat e ook beter toepasbaar wordt op ingewikkeldere analyses, inzet van zijn onderzoek komende jaren. ‘Ik heb niet de illusie dat het mij gaat lukken om e overal te laten doorbreken’, erkent hij. ‘Maar als ik zie hoe hard het de afgelopen vijf jaar is gegaan, denk ik wel dat het mogelijk is om dit zo groot te maken dat het niet meer weggaat.’