Data Science - Regressietabel: P-waarde


De "Statistieken van het coëfficiëntendeel" in de regressietabel

Regressietabel - Statistieken van coëfficiënten

Nu willen we testen of de coëfficiënten van de lineaire regressiefunctie een significante impact hebben op de afhankelijke variabele (Calorie_Burnage).

Dit betekent dat we willen bewijzen dat er een verband bestaat tussen Average_Pulse en Calorie_Burnage, met behulp van statistische tests.

Er zijn vier componenten die de statistieken van de coëfficiënten verklaren:

  • std err staat voor Standard Error
  • t is de "t-waarde" van de coëfficiënten
  • P>|t| heet de "P-waarde"
  •  [0.025 0.975] vertegenwoordigt het betrouwbaarheidsinterval van de coëfficiënten

We zullen ons in deze module concentreren op het begrijpen van de "P-waarde".


De P-waarde

De P-waarde is een statistisch getal om te concluderen of er een verband is tussen Average_Pulse en Calorie_Burnage.

We testen of de werkelijke waarde van de coëfficiënt gelijk is aan nul (geen relatie). De statistische test hiervoor wordt Hypothesetesten genoemd.

  • Een lage P-waarde (< 0,05) betekent dat de coëfficiënt waarschijnlijk niet gelijk is aan nul.
  • Een hoge P-waarde (> 0,05) betekent dat we niet kunnen concluderen dat de verklarende variabele de afhankelijke variabele beïnvloedt (hier: als Average_Pulse Calorie_Burnage beïnvloedt).
  • Een hoge P-waarde wordt ook wel een onbeduidende P-waarde genoemd.

Hypothese testen

Hypothesetesten is een statistische procedure om te testen of uw resultaten geldig zijn.

In ons voorbeeld testen we of de werkelijke coëfficiënt van Average_Pulse en het snijpunt gelijk is aan nul.

Hypothesetest heeft twee uitspraken. De nulhypothese en de alternatieve hypothese.

  • De nulhypothese kan kort worden geschreven als H0
  • De alternatieve hypothese kan kort worden geschreven als HA

Wiskundig geschreven:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Het teken betekent "niet gelijk aan"


Hypothese testen en P-waarde

De nulhypothese kan al dan niet worden verworpen.

Als we de nulhypothese verwerpen, concluderen we dat er een verband bestaat tussen Average_Pulse en Calorie_Burnage. Voor deze conclusie wordt de P-waarde gebruikt.

Een gebruikelijke drempel van de P-waarde is 0,05.

Opmerking: een P-waarde van 0,05 betekent dat we in 5% van de gevallen de nulhypothese ten onrechte zullen verwerpen. Het betekent dat we accepteren dat we in 5% van de gevallen ten onrechte een relatie hebben gesloten.

Als de P-waarde lager is dan 0,05, kunnen we de nulhypothese verwerpen en concluderen dat er een verband bestaat tussen de variabelen.

De P-waarde van Average_Pulse is echter 0,824. We kunnen dus geen relatie tussen Average_Pulse en Calorie_Burnage concluderen.

Het betekent dat er een kans van 82,4% is dat de werkelijke coëfficiënt van Average_Pulse nul is.

Het intercept wordt gebruikt om het vermogen van de regressiefunctie om nauwkeuriger te voorspellen aan te passen. Het is daarom ongebruikelijk om de P-waarde van het snijpunt te interpreteren.