‘Sorry prof, uw onderzoek is niet reproduceerbaar’

02 sep 2015

Ga er maar aan staan, een Duitse prof vertellen dat zijn onderzoek bij herhaling tot andere resultaten leidt. Masterstudent Koen Neijenhuijs (25) deed mee aan het internationale project waarbij honderd psychologische experimenten werden herhaald – en grotendeels niet reproduceerbaar bleken.

Foto: creative commons
Foto: creative commons

Stel, je bent student en je moet een gerenommeerde Duitse professor vertellen dat je zijn onderzoek hebt herhaald en dat er andere resultaten uit zijn gekomen. Dat je kortweg een veel kleiner effect hebt gevonden dan dat waarover de professor in het wetenschappelijk tijdschrift heeft gepubliceerd.

Het overkwam Koen Neijenhuijs (25), tot voor kort student bij de researchmaster Behavioural Science. Hij nam in 2013 het initiatief om mee te doen aan het wereldwijde project om honderd psychologische experimenten over te doen. Afgelopen vrijdag verscheen het resultaat van dit onderzoek met de opvallende conclusie dat de meeste psychologische experimenten bij herhaling andere resultaten opleveren.

Vrije tijd
‘We hoorden onze hele studie al dat het belangrijk is om onderzoek te herhalen, maar niemand deed er wat mee. Toen ik las over dit project heb ik er voor een werkcollege een Powerpoint-presentatie over gemaakt en tegen de andere studenten gezegd dat ze me konden mailen als ze ook mee wilden doen.’ Meer dan een dozijn masterstudenten reageerden, veel meer dan hij had verwacht. Er waren immers geen studiepunten of geld mee te verdienen, alles moest in de vrije tijd gedaan worden.

Koen Neijenhuijs
Koen Neijenhuijs

De coördinatoren van het project, wetenschappers van de Universiteit van Virginia, hadden een voorselectie gemaakt van tijdschriften met psychologisch onderzoek. Neijenhuijs en zijn medestudenten kozen daaruit twee onderzoeken verdeelden vervolgens de taken. Hijzelf was betrokken bij een artikel over een experiment van de Duitse psycholoog Klaus Oberauer.

In dat onderzoek moesten proefpersonen een reactietaak uitvoeren, een bekende onderzoeksmethode voor de studenten. ‘Wij hadden tijdens onze studie al geleerd hoe we zo’n reactietaak moesten afnemen en analyseren.’ Daarbij: Oberauer had zijn proefpersonen geselecteerd uit een groep Duitse studenten en dat leek de studenten eenvoudig na te doen op de Nijmeegse campus.

Significant
De Duitse hoogleraar had in zijn onderzoek een duidelijk effect gevonden. Dat konden Neijenhuijs en de andere studenten niet vinden. ‘Onze conclusie was dat het effect er wel was, maar minstens twee keer zo zwak. Wat bij hem een significant effect was, was bij ons net niet significant.’

Het mailtje dat volgde aan Oberauer was zenuwslopend, herinnert Neijenhuijs. En de Duitse psycholoog reageerde een beetje kribbig. ‘Hij wees ons op het feit dat we volgens hem de cijfers niet hadden geïnterpreteerd zoals dat zou moeten. En daar bleek hij ook wel gelijk in te hebben: we hebben onze conclusie later aangepast. Maar aan onze cijfers kon hij natuurlijk niets veranderen.’

Het was veel werk, veel meer dan de studenten hadden ingeschat. ‘Er zijn zeker momenten geweest dat we ons afvroegen waar we aan waren begonnen. Maar achteraf is het een fijn gevoel dat we hieraan mee hebben kunnen doen.’ Neijenhuijs werkt inmiddels als onderzoeker bij klinische psychologie aan de VU in Amsterdam. Hij is vast van plan om zijn experimenten straks zelf te herhalen. ‘In de natuurkunde hebben ze de dingen ook driehonderd keer moeten meten voordat ze iets met zekerheid konden zeggen. In de sociale wetenschappen is dat nog niet zo gangbaar, maar ik constateer wel een trend in die richting. En ik ben van plan om die trend te volgen.’/ Martine Zuidweg

In de groep studenten die het experiment van Oberauer heeft overgedaan zaten verder: Marije van der Hulst, Joanneke Weerdmeester, Ilse Luteijn, Mathijs van de Ven, Anniek te Dorsthorst en Annick Bosch. In de tweede groep zaten: Larissa Seibel, Linda Cillessen, Marieke Vermue, Roel van Dooren, Franziska Kolorz en Robert Krause.

 

7 reacties

  1. Anneke schreef op 2 september 2015 om 20:56

    Koen Neijenhuis, ik ken je niet persoonlijk maar ben wel trots op jou. Een jonge landgenoot die onderzoeken weerlegd vind ik geweldig!! Mijn complimenten voor al de energie die in de onderzoeken zijn gestoken en het eindresultaat mag er zijn. Succes met de volgende uitdaging.

  2. Jeroen schreef op 3 september 2015 om 15:17

    En Koen: als je de data van Oberauer nu eens interpreteert op jouw manier, komt er dan iets significants uit?
    Dit klinkt meer als of jij het paper niet goed gelezen hebt en gewoon je eigen analyse op de data hebt uitgevoerd.

    • Koen Neijenhuijs schreef op 7 september 2015 om 13:15

  3. Piet schreef op 7 september 2015 om 13:01

    “‘Onze conclusie was dat het effect er wel was, maar minstens twee keer zo zwak. Wat bij hem een significant effect was, was bij ons net niet significant.’”
    Waar gaat dit over? Er is geen directe relatie tussen effect en significantie.
    “net niet significant’ Nou en?
    Koen kennende is hij verkeerd aangehaald…

  4. Koen Neijenhuijs schreef op 7 september 2015 om 13:14

    Er is zeer zeker een directe relatie tussen effect size en significantie. De nulhypothese stelt dat de effect size nul is. Hoe groter de effect size, hoe onwaarschijnlijker dat de nulhypothese waar is, en hoe kleiner de p-waarde (dit is eerste-jaars statistiek).

    Ik stel voor dat jullie het paper van Science lezen voor de methodiek die aangehouden is: http://www.sciencemag.org/content/349/6251/aac4716

    Het protocol hield in dat we het laatste experiment in het paper gingen repliceren. Van dit experiment, werd de meest relevante analyse en effect size bepaald (in samenwerking met de coordinatoren van het project en onafhankelijke lezers). Deze analyse is herhaald (precies zoals in het originele paper). Bij ons kwam uit deze analyse, dat de effect size een stuk kleiner was, waardoor hij niet significant was.

    De interpretatie die wij verkeerd hadden gemaakt betrof theorie. Wij hadden de kleinere effect size geïnterpreteerd als bewijs voor de ene kant van de theorie, terwijl hij volgens Oberauer juist bewijs zou zijn voor de andere kant van de theorie. En hij had gelijk, en zo heb je altijd baas boven baas. Maar zoals in het artikel staat: De effect size was nu eenmaal zo. Als je het artikel doorleest zie je trouwens ook dat de analyses naderhand nogmaals door een onafhankelijk statisticus zijn uitgevoerd. Alles is heel zorgvoldig getriplechecked.

  5. Piet schreef op 7 september 2015 om 16:32

    “Hoe groter de effect size, hoe onwaarschijnlijker dat de nulhypothese waar is, en hoe kleiner de p-waarde”.
    Zeker. Maar sample size speelt daar ook in mee…
    Dus de relatie is niet direct; een-op-een had ik misschien moeten zeggen…

    • Koen Neijenhuijs schreef op 8 september 2015 om 10:47

      Dat klopt! Het hele project ging er vanuit dat aan een power van .80 moest voldoen, die we aan de hand van power analyses hadden moeten behalen.

      Uiteindelijk zijn er veel maten gebruikt om te beoordelen of het gereproduceerd is, waarvan er slechts één was of de p-waardes van het origineel en de replicatie vergelijkbaar waren. Er zijn ook vergelijkingen met effect sizes gemaakt (wat ik persoonlijk meer vind zeggen, ook al is de betrouwbaarheid van de schatting van de effect size ook gelinked aan de sample size).

      In ons geval was de effect size een heel stuk gekrompen. De partial eta squared die wij vonden was .162 (op zich nog best respectabel, maar voor ons dus net niet significant), versus de partial eta squared van .38 van het origineel. Het origineel was dus spectaculair hoog, dat van ons was gematigd.

Geef een reactie

Vox Magazine

Het onafhankelijke magazine van de Radboud Universiteit

lees de laatste Vox online!

Vox Update

Een directe, dagelijkse of wekelijkse update met onze artikelen in je mailbox!

Wekelijks
Nederlands
Verzonden!