Data Science - Regressietabel: P-waarde
De "Statistieken van het coëfficiëntendeel" in de regressietabel
Nu willen we testen of de coëfficiënten van de lineaire regressiefunctie een significante impact hebben op de afhankelijke variabele (Calorie_Burnage).
Dit betekent dat we willen bewijzen dat er een verband bestaat tussen Average_Pulse en Calorie_Burnage, met behulp van statistische tests.
Er zijn vier componenten die de statistieken van de coëfficiënten verklaren:
- std err staat voor Standard Error
- t is de "t-waarde" van de coëfficiënten
- P>|t| heet de "P-waarde"
- [0.025 0.975] vertegenwoordigt het betrouwbaarheidsinterval van de coëfficiënten
We zullen ons in deze module concentreren op het begrijpen van de "P-waarde".
De P-waarde
De P-waarde is een statistisch getal om te concluderen of er een verband is tussen Average_Pulse en Calorie_Burnage.
We testen of de werkelijke waarde van de coëfficiënt gelijk is aan nul (geen relatie). De statistische test hiervoor wordt Hypothesetesten genoemd.
- Een lage P-waarde (< 0,05) betekent dat de coëfficiënt waarschijnlijk niet gelijk is aan nul.
- Een hoge P-waarde (> 0,05) betekent dat we niet kunnen concluderen dat de verklarende variabele de afhankelijke variabele beïnvloedt (hier: als Average_Pulse Calorie_Burnage beïnvloedt).
- Een hoge P-waarde wordt ook wel een onbeduidende P-waarde genoemd.
Hypothese testen
Hypothesetesten is een statistische procedure om te testen of uw resultaten geldig zijn.
In ons voorbeeld testen we of de werkelijke coëfficiënt van Average_Pulse en het snijpunt gelijk is aan nul.
Hypothesetest heeft twee uitspraken. De nulhypothese en de alternatieve hypothese.
- De nulhypothese kan kort worden geschreven als H0
- De alternatieve hypothese kan kort worden geschreven als HA
Wiskundig geschreven:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Het teken betekent "niet gelijk aan"
Hypothese testen en P-waarde
De nulhypothese kan al dan niet worden verworpen.
Als we de nulhypothese verwerpen, concluderen we dat er een verband bestaat tussen Average_Pulse en Calorie_Burnage. Voor deze conclusie wordt de P-waarde gebruikt.
Een gebruikelijke drempel van de P-waarde is 0,05.
Opmerking: een P-waarde van 0,05 betekent dat we in 5% van de gevallen de nulhypothese ten onrechte zullen verwerpen. Het betekent dat we accepteren dat we in 5% van de gevallen ten onrechte een relatie hebben gesloten.
Als de P-waarde lager is dan 0,05, kunnen we de nulhypothese verwerpen en concluderen dat er een verband bestaat tussen de variabelen.
De P-waarde van Average_Pulse is echter 0,824. We kunnen dus geen relatie tussen Average_Pulse en Calorie_Burnage concluderen.
Het betekent dat er een kans van 82,4% is dat de werkelijke coëfficiënt van Average_Pulse nul is.
Het intercept wordt gebruikt om het vermogen van de regressiefunctie om nauwkeuriger te voorspellen aan te passen. Het is daarom ongebruikelijk om de P-waarde van het snijpunt te interpreteren.