Hoe de zeven dodelijke zonden van statistische misinterpretatie te vermijden

Statistieken zijn een handig hulpmiddel om de patronen in de wereld om ons heen te begrijpen. Maar onze intuïtie laat ons vaak in de steek als het gaat om het interpreteren van die patronen. In deze serie bekijken we enkele van de veelgemaakte fouten die we maken en hoe we ze kunnen vermijden als we denken aan statistieken, kansen en risico's.The Conversation

1. Ervan uitgaande dat kleine verschillen zinvol zijn

Veel van de dagelijkse schommelingen op de aandelenmarkt vertegenwoordigen eerder kans dan betekenis. Verschillen in peilingen wanneer een partij een punt of twee vooruit is, zijn vaak gewoon statistische ruis.

U kunt vermijden verkeerde conclusies te trekken over de oorzaken van dergelijke fluctuaties door te eisen dat de "foutmarge" met betrekking tot de cijfers wordt weergegeven.

Als het verschil kleiner is dan de foutenmarge, is er waarschijnlijk geen zinvol verschil, en de variatie is waarschijnlijk slechts te wijten aan willekeurige fluctuaties.

Hoe de zeven dodelijke zonden van statistische misinterpretatie te vermijdenFoutbalken illustreren de mate van onzekerheid in een score. Wanneer dergelijke foutenmarges elkaar overlappen, is het verschil waarschijnlijk te wijten aan statistische ruis.


innerlijk abonneren grafisch



2. Vergelijking van statistische significantie met real-world significantie

We horen vaak generalisaties over hoe twee groepen op de een of andere manier van elkaar verschillen, zoals dat vrouwen meer koesteren terwijl mannen fysiek sterker zijn.

Deze verschillen zijn vaak gebaseerd op stereotypen en volkswijsheid, maar negeren vaak de overeenkomsten in mensen tussen de twee groepen en de variatie in mensen binnen de groepen.

Als je willekeurig twee mannen kiest, is er waarschijnlijk een groot verschil in hun fysieke kracht. En als je één man en één vrouw kiest, kan het zijn dat ze erg op elkaar lijken qua verzorging, of dat de man misschien meer koestert dan de vrouw.

U kunt deze fout vermijden door te vragen naar de "effectgrootte" van de verschillen tussen groepen. Dit is een maat voor hoeveel het gemiddelde van een groep verschilt van het gemiddelde van een andere.

Als de effectgrootte klein is, lijken de twee groepen erg op elkaar. Zelfs als de effectgrootte groot is, hebben de twee groepen waarschijnlijk nog steeds veel variatie binnen hen, dus niet alle leden van een groep zullen verschillen van alle leden van een andere groep.


3. Veronachtzaming om naar uitersten te kijken

De keerzijde van de effectgrootte is relevant als het ding waarop je focust, volgt op een "normale verdeling"(Soms een" belcurve "genoemd). Dit is waar de meeste mensen dichtbij de gemiddelde score zijn en slechts een kleine groep is ver boven of ver beneden het gemiddelde.

Wanneer dat gebeurt, produceert een kleine verandering in de prestaties voor de groep een verschil dat niets betekent voor de gemiddelde persoon (zie punt 2), maar dat verandert het karakter van de extremen radicaler.

Vermijd deze fout door na te gaan of je te maken hebt met extremen of niet. Wanneer je te maken hebt met gemiddelde mensen, doen kleine groepsverschillen er vaak niet toe. Wanneer je veel om de extremen geeft, kunnen kleine groepsverschillen er enorm toe doen.

Hoe de zeven dodelijke zonden van statistische misinterpretatie te vermijdenWanneer twee populaties een normale verdeling volgen, zullen de verschillen daartussen duidelijker zijn dan in de gemiddelden.


4. Vertrouwen op toeval

Wist je dat er een is correlatie tussen het aantal mensen dat elk jaar in de Verenigde Staten is verdronken door in een zwembad te vallen en het aantal films waarin Nicholas Cage is verschenen?

Hoe de zeven dodelijke zonden van statistische misinterpretatie te vermijdenMaar is er een oorzakelijk verband? tylervigen.com

Als je goed genoeg kijkt, kun je interessante patronen en correlaties vinden die alleen maar te wijten zijn aan toeval.

Alleen omdat twee dingen tegelijkertijd of in vergelijkbare patronen veranderen, betekent niet dat ze gerelateerd zijn.

Vermijd deze fout door te vragen hoe betrouwbaar de waargenomen associatie is. Is het een eenmalige actie of is het meerdere keren gebeurd? Kunnen toekomstige associaties worden voorspeld? Als je het maar één keer hebt gezien, is het waarschijnlijk te wijten aan willekeurige toeval.


5. Oorzaak achterwaarts krijgen

Wanneer twee dingen met elkaar in verband staan ​​- bijvoorbeeld werkloosheid en geestelijke gezondheidsproblemen - kan het verleidelijk zijn om een ​​"duidelijk" causaal pad te zien - stel dat psychische problemen tot werkloosheid leiden.

Maar soms gaat het causale pad de andere kant op, zoals werkloosheid die geestelijke gezondheidsproblemen veroorzaakt.

U kunt deze fout vermijden door te onthouden om na te denken over omgekeerde causaliteit wanneer u een verband ziet. Zou de invloed in de andere richting kunnen gaan? Of kan het beide kanten op, een feedbackloop creëren?


6. Vergeten om externe oorzaken te overwegen

Mensen evalueren vaak niet mogelijke "derde factoren", of oorzaken van buitenaf, die een verband tussen twee dingen kunnen creëren, omdat beide feitelijk uitkomsten zijn van de derde factor.

Er kan bijvoorbeeld een verband zijn tussen eten in restaurants en een betere cardiovasculaire gezondheid. Dat kan ertoe leiden dat je gelooft dat er een oorzakelijk verband bestaat tussen de twee.

Het kan echter blijken dat diegenen die het zich kunnen veroorloven om regelmatig in restaurants te eten zich in een hoge sociaaleconomische hoek bevinden, en ook betere gezondheidszorg kunnen veroorloven, en het is de gezondheidszorg die zorgt voor een betere cardiovasculaire gezondheid.

U kunt deze fout voorkomen door te denken aan derde factoren wanneer u een correlatie ziet. Als je één ding als mogelijke oorzaak volgt, vraag jezelf dan af wat, op zijn beurt, dat ding veroorzaakt? Kan die derde factor beide waargenomen uitkomsten veroorzaken?


7. Misleidende grafieken

Er is veel onheil bij het schalen en labellen van de verticale as op grafieken. De labels moeten het volledige zinvolle bereik tonen van alles waar u naar kijkt.

Maar soms kiest de graafmachine een smaller bereik om een ​​klein verschil of associatie er meer indrukwekkend uit te laten zien. Op een schaal van 0 tot 100 kunnen twee kolommen op dezelfde hoogte lijken. Maar als u dezelfde gegevens weergeeft die alleen worden weergegeven van 52.5 naar 56.5, zien ze er mogelijk heel anders uit.

U kunt deze fout vermijden door ervoor te zorgen dat u de labels van de grafiek langs de assen noteert. Wees vooral sceptisch over grafieken zonder label.

Hoe de zeven dodelijke zonden van statistische misinterpretatie te vermijdenGrafieken kunnen een verhaal vertellen - waardoor verschillen groter of kleiner lijken, afhankelijk van de schaal.

Over de auteur

Winnifred Louis, universitair hoofddocent, sociale psychologie, De universiteit van Queensland en Cassandra Chapman, PhD Candidate in Social Psychology, De universiteit van Queensland

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Related Books:

at InnerSelf Market en Amazon