Gratis verzending vanaf 30 euro
Digitaal te lezen in de app
Laten we zeggen dat je samen met een vriend een weddenschap aangaat. Je beweert daarbij dat mensen uit 5 havo langer zijn dan mensen uit 5 vwo, waarna je vriend beweert dat dat niet zo is omdat Siem uit 5 vwo 1.95m is en Aaron uit 5 havo 1.74m. Natuurlijk kun je op basis van de lengtes van Siem en Aaron niet zeggen dat mensen uit 5 vwo langer zijn. Hoe je met meer zekerheid kunt zeggen dat een bepaalde stelling waar of onwaar is, doe je aan de hand van significatieniveaus. In dit artikel leggen we alles uit dat jij moeten weten over significantie in de statistiek!
Significantie in de statistiek laat zien of je een bepaalde hypothese wel of niet kan aannemen met een bepaalde zekerheid. Een hypothese is een onbewezen stelling die je wil onderzoeken. Uiteindelijk wil je kunnen zeggen of deze stelling bewezen is of niet. Hierbij werk je met twee hypothesen: de nulhypothese (H0) en de alternatieve hypothese (H1). Je zegt dat de nulhypothese (H0) aannemelijk is
Het lukt in de praktijk nooit om met 100% zekerheid te zeggen dat iets bewezen is. Daarom werken we vaak met significantieniveaus van 1%, 5% of 10%. Hiermee kun je dus respectievelijk 99%, 95% of 90% zekerheid zeggen dat een bepaalde hypothese bewezen is. De gegevens waarmee je werkt zijn meestal twee verschillende set aan gegevens. Denk hierbij aan de lengtes van mensen uit 5 havo klas en lengtes van mensen uit de 5 vwo klas. Deze gegevens ga je vervolgens met elkaar vergelijken.
Stel, je onderzoekt het shopgedrag van mannen enerzijds en vrouwen anderszijds. De nulhypothese (H0) zal dan luiden dat deze sets niet statistisch van elkaar zullen verschillen en dus mannen en vrouwen evenveel shoppen. Echter, het doel van de meeste onderzoeken die worden uitgevoerd, is om de nulhypothese (H0) te verwerpen. Als onderzoeker hoop je dat er wél een verschil is tussen de twee vergeleken datasets en ze niet aan elkaar gelijk zijn. In ons voorbeeld zou het dus gaan om een effect van het geslacht op het shopgedrag. De hypothese die er wél van uit gaat dat er een verschil zit tussen de datasets, wordt de alternatieve hypothese (H1) genoemd. Hier zou de alternatieve hypothese bijvoorbeeld kunnen luiden dat vrouwen meer shoppen dan mannen.
In de praktijk acht men de nulhypothese (H0) aannemelijk, totdat er zeer sterke aanwijzingen zijn dat de alternatieve hypothese (H1) waarschijnlijker is. Dit kan worden nagegaan met behulp van het betrouwbaarheidsinterval (BI) en de populatiewaarde. De populatiewaarde kan bijvoorbeeld het gemiddelde bedrag zijn waarvoor mannen per maand shoppen of de gemiddelde lengte van de mensen uit 5 havo.
Als de populatiewaarde uit de nulhypothese (H0) NIET in het betrouwbaarheidsinterval voorkomt, dan verwerp je de nulhypothese (H0). Je zegt dan dus eigenlijk dat de nulhypothese (H0) niet aannemelijk is.
Aangezien je natuurlijk de nulhypothese (H0) pas wil verwerpen als dat statistisch gezien overduidelijk is, kies je dus altijd een betrouwbaarheidsinterval (BI) van minstens 90%. Vaak is dit 90%, 95% of 99%. Als er dus om een significantieniveau van 5% gevraagd wordt, gebruik je dus een 95%-betrouwbaarheidsinterval. Echter, een betrouwbaarheidsinterval wordt in de praktijk bijna niet gebruikt om hypothesen te testen. In plaats daarvan wordt vaker gebruik gemaakt van een significantieniveau (α).
Bij een significantieniveau (α) ontstaat een zogenaamd verwerpingsgebied. Veelgebruikte significantieniveaus zijn 1%, 5% en 10%.
In het verwerpingsgebied wordt de nulhypothese (H0) verworpen als de steekproefuitkomst zich in dat gebied bevindt.
In dat geval is het te onwaarschijnlijk dat de steekproefuitkomst afkomstig is uit de steekproevenverdeling met als gemiddelde de waarde uit de nulhypothese.
Let op dat het voor de uitkomst niet uitmaakt welke methode je gebruikt. De methode van de betrouwbaarheidsintervallen als de methode van significantieniveaus leveren namelijk allebei hetzelfde resultaat op, want het significantieniveau (α) = 100% - het betrouwbaarheidsniveau.
Om te bepalen of de steekproefuitkomst onwaarschijnlijk genoeg is onder de nulhypothese (H0), moet de overschrijdingskans (notatie: p) worden berekend. Deze p kan enkelzijdig of dubbelzijdig zijn.
Om p te bepalen, moet worden uitgerekend hoeveel standaardfouten het steekproefgemiddelde H1 verwijderd ligt van het steekproefgemiddelde H0.
Daarmee is te bepalen wat het relatieve aandeel is van de steekproefgemiddelden die groter of gelijk zijn aan H1. Er wordt dan ook wel gezegd dat de gevonden steekproefuitkomst bij H1 significant groter is dan de steekproefuitkomst bij H0.
Het significantieniveau (alfa/ α) geeft ook op voorhand aan hoe groot de kans is dat men onterecht de nulhypothese H0 verwerpt. Deze kans staat bekend als ‘type 1 fout’.
Als in de populatie de alternatieve hypothese waar is, maar vanwege een ongelukkige steekproef de de nulhypothese H0 (onterecht) niet verworpen wordt, dan wordt dat een fout van de tweede soort genoemd (bèta / ß).
4 opmerkingen die dienen worden gemaakt van praktische aard:
Al met al, binnen de statistiek betekent significantie dat de bevindingen (waarschijnlijk) niet op toeval waren gebaseerd. Bij het testen van significantie beginnen we met de nulhypothese (H0) op te stellen. Deze stelt dat het gevonden verband of het gevonden verschil op toeval berust, met andere woorden, er is eigenlijk geen verband of verschil. De nulhypothese (H0) kan worden getoetst door statistische toetsing. Als de gevonden waarde significant verschilt van de verwachte waarde onder de nulhypothese, kunnen we de nulhypothese verwerpen. De nauwkeurigheid van statistisch significante resultaten worden doorgaans weergegeven door de p-waarde. De limiet van statistische significantie wordt meestal gesteld op p = 0,05, maar het kan ook voorkomen dat er andere p-waardes worden gekozen. Let hierop.