Een reden waarom sommige wetenschappelijke studies verkeerd zijn

Er is een repliceerbaarheid crisis in de wetenschap - niet-geïdentificeerde "valse positieven" zijn zelfs onze toponderzoeksjournaals doordringend.

Een vals positief is een claim dat er een effect bestaat wanneer het in werkelijkheid niet bestaat. Niemand weet welk deel van de gepubliceerde artikelen dergelijke onjuiste of overdreven resultaten bevat, maar er zijn er wel tekenen dat de verhouding niet klein is.

De epidemioloog John Ioannidis gaf de beste verklaring voor dit fenomeen in een beroemde krant in 2005, met de provocerende titel "Waarom de meeste gepubliceerde onderzoeksresultaten onjuist zijn”. Een van de redenen die Ioannidis voor zoveel valse resultaten gaf, is nu "p hacking ", die voortkomt uit de druk die onderzoekers hebben om statistische significantie te bereiken.

Wat is statistische significantie?

Om conclusies uit gegevens te trekken, vertrouwen onderzoekers meestal op significantie testen. In eenvoudige bewoordingen betekent dit het berekenen van de "p waarde ", wat de kans is op resultaten zoals die van ons als er echt geen effect is. Als het p waarde is voldoende klein, het resultaat wordt verklaard statistisch significant te zijn.

Traditioneel, een p waarde van minder dan .05 is het criterium voor significantie. Als u een rapport meldt p<.05, zullen lezers waarschijnlijk denken dat u een echt effect heeft gevonden. Wellicht is er echter eigenlijk geen effect en heeft u een vals positief gerapporteerd.


innerlijk abonneren grafisch


Veel tijdschriften publiceren alleen studies die een of meer statistisch significante effecten kunnen melden. Afgestudeerde studenten leren snel dat het bereiken van de mythische p

Deze druk om te bereiken pp hacking.

De aantrekkingskracht van p hacking

Illustreren p hacking, hier is een hypothetisch voorbeeld.

Bruce is onlangs gepromoveerd en heeft een prestigieuze beurs gekregen om lid te worden van een van de beste onderzoeksteams in zijn vakgebied. Zijn eerste experiment komt niet goed uit, maar Bruce verfijnt snel de procedures en voert een tweede onderzoek uit. Dit lijkt veelbelovend, maar geeft nog steeds geen p waarde van minder dan .05.

Ervan overtuigd dat hij iets leuk vindt, verzamelt Bruce meer gegevens. Hij besluit een paar resultaten te laten vallen, die er ver weg uitzien.

Hij merkt vervolgens op dat een van zijn maten een duidelijker beeld geeft, dus daar concentreert hij zich op. Een paar meer tweaks en uiteindelijk identificeert Bruce een enigszins verrassend maar echt interessant effect dat wordt bereikt p

Bruce deed zijn best om het effect te vinden dat hij had wist lag ergens op de loer. Hij voelde ook de druk om te slaan p

Er is maar één vangst: er was eigenlijk geen effect. Ondanks het statistisch significante resultaat heeft Bruce een vals-positief bericht gepubliceerd.

Bruce vond dat hij zijn wetenschappelijke inzicht gebruikte om het sluimerende effect te onthullen toen hij verschillende stappen nam na het starten van zijn studie:

  • Hij verzamelde verdere gegevens.
  • Hij liet enkele gegevens vallen die afwijkend leken.
  • Hij liet enkele van zijn maatregelen vallen en concentreerde zich op de meest veelbelovende.
  • Hij analyseerde de gegevens een beetje anders en maakte een paar verdere aanpassingen.

Het probleem is dat al deze keuzes zijn gemaakt na de gegevens bekijken. Bruce kan, onbewust, cherrypicking - selecteren en tweaken totdat hij het ongrijpbare heeft verkregen pp

Statistici hebben een gezegde: als je de gegevens genoeg martelt, zullen ze bekennen. Keuzes en tweaks gemaakt na het zien van de gegevens zijn dubieuze onderzoekspraktijken. Het gebruik hiervan, opzettelijk of niet, om het juiste statistische resultaat te bereiken is p hacking, wat een belangrijke reden is dat gepubliceerde, statistisch significante resultaten mogelijk valse positieven zijn.

Welk deel van de gepubliceerde resultaten is fout?

Dit is een goede vraag en een duivels lastige vraag. Niemand kent het antwoord, dat waarschijnlijk verschillend is in verschillende onderzoeksgebieden.

Een grote en indrukwekkende poging om de vraag voor sociale en cognitieve psychologie te beantwoorden, werd gepubliceerd in 2015. Geleid door Brian Nosek en zijn collega 's van het Center for Open Science, de Replicability Project: Psychology (RP: P) hadden 100 onderzoeksgroepen over de hele wereld elk een zorgvuldige replicatie van een van 100 gepubliceerde resultaten uitvoeren. Over het geheel genomen ongeveer 40 repliceerde redelijk goed, terwijl in ongeveer 60-gevallen de replicatieonderzoeken kleinere of veel kleinere effecten opleverden.

De 100 RP: P-replicatiestudies meldden effecten die gemiddeld slechts de helft waren van de effecten gerapporteerd door de oorspronkelijke onderzoeken. De zorgvuldig uitgevoerde replicaties geven waarschijnlijk meer accurate schattingen dan mogelijk p gehackte originele studies, zodat we konden concluderen dat de oorspronkelijke studies de werkelijke effecten overschatten met gemiddeld een factor twee. Dat is alarmerend!

Hoe te vermijden p hacking

De beste manier om te vermijden p hacking is om te voorkomen dat u een selectie maakt of tweaks na het zien van de gegevens. Met andere woorden: vermijd dubieuze onderzoekspraktijken. In de meeste gevallen is de beste manier om dit te doen, te gebruiken voorinschrijving.

Preregistratie vereist dat u vooraf een gedetailleerd onderzoeksplan voorbereidt, inclusief de statistische analyse die op de gegevens moet worden toegepast. Vervolgens schrijft u het abonnement met datumstempel vooraf in bij Open Science Framework of een ander online register.

Dan Voer de studie uit, analyseer de gegevens in overeenstemming met het plan en rapporteer de resultaten, wat ze ook zijn. Lezers kunnen het vooraf geregistreerde plan controleren en zijn er dus zeker van dat de analyse vooraf is gespecificeerd en niet p gehackt. Voorregistratie is voor veel onderzoekers een uitdagend nieuw idee, maar is waarschijnlijk de weg van de toekomst.

Schatting in plaats van p waarden

De verleiding om p hack is een van de grootste nadelen van vertrouwen op p waarden. Een andere is dat de pin plaats van zeggen dat er een effect bestaat of niet.

Maar de wereld is niet zwart en wit. Om de vele grijstinten te herkennen, is het veel beter om te gebruiken schatting dan p waarden. Het doel met schatting is het schatten van de grootte van een effect - dat klein of groot kan zijn, nul of zelfs negatief. Qua schatting is een vals-positief resultaat een schatting die groter of veel groter is dan de werkelijke waarde van een effect.

Laten we een hypothetisch onderzoek doen naar de impact van therapie. De studie kan bijvoorbeeld schatten dat de therapie gemiddeld een 7-punt afname van angst geeft. Stel dat we uit onze gegevens berekenen a Betrouwbaarheidsinterval - een reeks onzekerheden aan weerszijden van onze beste schatting - van [4, 10]. Dit vertelt ons dat onze schatting van 7 waarschijnlijk binnen ongeveer 3-punten ligt op de angstschaal van het ware effect - het werkelijke gemiddelde voordeel van de therapie.

Met andere woorden, het betrouwbaarheidsinterval geeft aan hoe nauwkeurig onze schatting is. Het kennen van een dergelijke schatting en het betrouwbaarheidsinterval is veel informatiever dan welke dan ook p waarde.

Ik verwijs naar schatting als een van de 'nieuwe statistieken'. De technieken zelf zijn niet nieuw, maar het gebruik ervan als de belangrijkste manier om conclusies te trekken uit gegevens zou voor veel onderzoekers nieuw zijn en een grote stap vooruit betekenen. Het zou ook helpen om de vervormingen veroorzaakt door te voorkomen p hacken.

Over de auteur

Geoff Cumming, emeritus hoogleraar, La Trobe University

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Related Books:

at InnerSelf Market en Amazon