Je « suis vraiment confus sur la différence de sens concernant le contexte de régression linéaire des termes suivants:
- F statistique
- R au carré
- Erreur standard résiduelle
Jai trouvé ce site Web ce qui ma donné un bon aperçu des différents termes impliqués dans la régression linéaire, mais les termes mentionnés ci-dessus ressemblent beaucoup (pour autant que je sache). Je vais citer ce que jai lu et ce qui ma dérouté:
Lerreur standard résiduelle est la mesure de la qualité dun ajustement de régression linéaire ……. Lerreur standard résiduelle est le montant moyen que la réponse (dist ) sécartera de la vraie ligne de régression.
1. Cest donc en fait la distance moyenne des valeurs observées à partir de la ligne lm?
La statistique R-carré fournit un me une vérification de ladéquation du modèle avec les données réelles.
2. Maintenant, je suis confus parce que si RSE nous dit à quel point nos points observés sécartent de la droite de régression, un RSE bas nous dit en fait » votre modèle est bien ajusté sur la base des points de données observés « – > Alors, quelle est la qualité de nos modèles, alors quelle est la différence entre R au carré et RSE?
La statistique F est un bon indicateur de lexistence dune relation entre notre prédicteur et les variables de réponse.
3. Est-il vrai que nous pouvons avoir une valeur F indiquant un relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible
Commentaires
- Q 3 Fvalue nindique pas de relation non linéaire . Cest un rapport qui indique sil existe une relation substantielle (constante) entre les deux variables – dépendante et indépendante.
- Il ne nous dit pas la nature de la relation – non linéaire ou linéaire.
Réponse
La meilleure façon de comprendre ces termes est de faire un calcul de régression à la main. Jai écrit deux réponses étroitement liées ( ici et ici ), mais elles peuvent ne pas aider complètement vous comprenez votre cas particulier. Mais lisez-les néanmoins. Peut-être quils vous aideront également à mieux conceptualiser ces termes.
Dans une régression (ou ANOVA), nous construisons un modèle basé sur un échantillon de données qui nous permet de prédire les résultats dune population dintérêt. Pour ce faire, les trois composantes suivantes sont calculées dans une régression linéaire simple à partir de laquelle les autres composantes peuvent être calculées, par ex. les carrés moyens, la valeur F, le $ R ^ 2 $ (également le $ R ^ 2 $ ), et lerreur standard résiduelle ( $ RSE $ ):
- sommes totales des carrés ( $ SS_ {total} $ )
- sommes résiduelles de carrés ( $ SS_ {résiduel} $ )
- somme des carrés du modèle ( $ SS_ {model} $ )
Chacun deux évalue dans quelle mesure le model décrit les données et représente la somme des carrés des distances entre les points de données et le modèle ajusté (illustré par des lignes rouges dans le graphique ci-dessous).
Le $ SS_ {total} $ évalue ladéquation de la moyenne aux données. Pourquoi ça veut dire? Parce que la moyenne est le modèle le plus simple que nous pouvons ajuster et sert donc de modèle auquel la droite de régression des moindres carrés est comparée. Ce graphique utilisant le jeu de données cars
illustre que:
Le $ SS_ {résiduel} $ évalue ladéquation de la droite de régression aux données.
Les mathématiques de $ SS_ {model} $ compare à quel point la droite de régression est meilleure par rapport à la moyenne (cest-à-dire la différence entre le $ SS_ {total} $ et le $ SS_ {résiduel} $ ).
Pour répondre à vos questions , calculons dabord les termes que vous voulez comprendre en commençant par le modèle et en sortie comme référence:
# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares
Les sommes des carrés sont les distances au carré de les données individuelles pointent vers le modèle:
# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model
Les carrés moyens sont les sommes des carrés moyennés par les degrés de liberté:
# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model
Mes réponses à vos questions:
Q1:
- Cest donc en fait la distance moyenne des valeurs observées par rapport à la ligne lm?
L erreur standard résiduelle ( $ RSE $ ) est la racine carrée du carré moyen résiduel ( $ MS_ {r esidual} $ ):
# Calculate residual standard error res.se <- sqrt(ms.residual) res.se
Si vous vous souvenez que le $ SS_ {résiduel} $ étaient les distances au carré des points de données observés et du modèle (ligne de régression dans le deuxième graphique ci-dessus), et $ MS_ {résiduel} $ était juste le moyenné $ SS_ {résiduel} $ , la réponse à votre premier La question est, oui: Le $ RSE $ représente la distance moyenne des données observées depuis le modèle. Intuitivement, cela est également parfaitement logique car si la distance est plus petite, lajustement de votre modèle est également meilleur.
Q2:
- Maintenant, je suis confus parce que si RSE nous dit à quel point nos points observés sécartent du la droite de régression un RSE bas nous indique en fait « votre modèle est bien ajusté en fonction des points de données observés » -> donc à quel point nos modèles sajustent bien, alors quelle est la différence entre R au carré et RSE?
Maintenant, le $ R ^ 2 $ est le ratio du $ SS_ {model} $ et le $ SS_ {total} $ :
# R squared r.sq <- ss.model/ss.total r.sq
Le $ R ^ 2 $ exprime dans quelle mesure la variation totale des données peut être expliquée par le modèle (la régression Noubliez pas que la variation totale était la variation des données lorsque nous avons ajusté le modèle le plus simple aux données, cest-à-dire la moyenne. Comparez le graphique $ SS_ {total} $ avec le graphique $ SS_ {model} $ .
Donc, pour répondre à votre deuxième question, la différence entre le $ RSE $ et le $ R ^ 2 $ est que le $ RSE $ vous dit quelque chose sur linexactitude du modèle (dans ce cas la droite de régression) étant donné les données observées.
Le $ R ^ 2 $ dautre part vous indique combien de variation est expliquée par le modèle (cest-à-dire la droite de régression) par rapport à la variation qui a été expliquée par le signifie seul (cest-à-dire le modèle le plus simple).
Q3:
- Est-il vrai que nous pouvons avoir une valeur F indiquant une relation forte qui est NON LINÉAIRE de sorte que notre RSE est élevé et notre R au carré est faible
So t la $ F $ -value sur lautre est calculée comme le carré moyen du modèle $ MS_ {model} $ (ou le signal) divisé par le $ MS_ {résiduel} $ (bruit):
# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F
Ou en dautres termes, la valeur $ F $ exprime dans quelle mesure le modèle sest amélioré (par rapport à la moyenne) étant donné linexactitude du modèle.
Votre troisième question est un peu difficile à comprendre mais je suis daccord avec la citation que vous avez fournie.
Réponse
(2 ) Vous le comprenez correctement, vous avez juste du mal avec le concept.
La valeur $ R ^ 2 $ représente la façon dont le modèle tient compte de toutes les données. Il ne peut prendre que des valeurs comprises entre 0 et 1. Cest le pourcentage de lécart des points de lensemble de données que le modèle peut expliquer.
Le RSE est plus un descripteur de ce que lécart par rapport au modéliser les données dorigine. Ainsi, le $ R ^ 2 $ dit, « le modèle fait bien cela pour expliquer les données présentées. » Le RSE dit: «une fois mappés, nous nous attendions à ce que les données soient ici, mais voici où elles se trouvaient réellement». Ils sont très similaires mais sont utilisés pour valider de différentes manières.
Réponse
Juste pour compléter ce que Chris a répondu ci-dessus:
La statistique F est la division de le carré moyen du modèle et le carré moyen résiduel. Un logiciel comme Stata, après avoir ajusté un modèle de régression, fournit également la valeur p associée à la statistique F. Cela vous permet de tester lhypothèse nulle selon laquelle les coefficients de votre modèle sont nuls. Vous pouvez le considérer comme la « signification statistique du modèle dans son ensemble ».
Réponse
Comme je le souligne dans cette autre réponse , $ F $ , $ RSS $ et $ R ^ 2 $ sont tous interdépendants. Voici le extrait pertinent:
La statistique F entre deux modèles, le modèle nul (interception uniquement) $ m_0 $ et le modèle alternatif $ m_1 $ ( $ m_0 $ est imbriqué dans $ m_1 $ ) est:
$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$
$ R ^ 2 $ dautre part, est défini comme:
$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$
Réorganisation de $ F $ nous pouvons voir que:
$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ gauche ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$