Data Science - Regressietabel: R-kwadraat


R - Kwadraat

R-kwadraat en aangepast R-kwadraat beschrijft hoe goed het lineaire regressiemodel past bij de gegevenspunten:

Regressietabel - Statistieken van coëfficiënten

De waarde van R-kwadraat ligt altijd tussen 0 en 1 (0% tot 100%).

  • Een hoge R-kwadraatwaarde betekent dat veel gegevenspunten dicht bij de lineaire regressiefunctielijn liggen.
  • Een lage R-kwadraatwaarde betekent dat de lineaire regressiefunctielijn niet goed bij de gegevens past.

Visueel voorbeeld van een lage R - kwadraatwaarde (0,00)

Ons regressiemodel toont een R-kwadraatwaarde van nul, wat betekent dat de lineaire regressiefunctielijn niet goed bij de gegevens past.

Dit kan worden gevisualiseerd wanneer we de lineaire regressiefunctie plotten via de gegevenspunten van Average_Pulse en Calorie_Burnage.

Lage R - Kwadraatwaarde (0,00)

Visueel voorbeeld van een hoge R - kwadraatwaarde (0,79)

Als we echter Duration en Calorie_Burnage plotten , neemt het R-kwadraat toe. Hier zien we dat de gegevenspunten dicht bij de lineaire regressiefunctielijn liggen:

Lage R - Kwadraatwaarde (0,00)

Hier is de code in Python:

Voorbeeld

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Samenvatting - Calorie_Burnage voorspellen met Average_Pulse

Hoe kunnen we de lineaire regressiefunctie samenvatten met Average_Pulse als verklarende variabele?

  • Coëfficiënt van 0,3296, wat betekent dat Average_Pulse een zeer klein effect heeft op Calorie_Burnage.
  • Hoge P-waarde (0,824), wat betekent dat we geen relatie kunnen concluderen tussen Average_Pulse en Calorie_Burnage.
  • R-kwadraatwaarde van 0, wat betekent dat de lineaire regressiefunctielijn niet goed bij de gegevens past.