Estoy realmente confundido acerca de la diferencia de significado con respecto al contexto de regresión lineal de los siguientes términos:

  • F estadística
  • R cuadrado
  • Error estándar residual

Encontré esta webstie lo que me dio una gran comprensión de los diferentes términos involucrados en la regresión lineal, sin embargo, los términos mencionados anteriormente se parecen mucho (hasta donde tengo entendido). Citaré lo que leí y lo que me confundió:

El error estándar residual es una medida de la calidad de un ajuste de regresión lineal ……. El error estándar residual es la cantidad promedio que la respuesta (dist ) se desviará de la línea de regresión verdadera.

1. ¿Ésta es en realidad la distancia promedio de los valores observados desde la línea lm?

La estadística R-cuadrada proporciona una Asegúrese de qué tan bien se ajusta el modelo a los datos reales.

2. Ahora estoy confundido porque si RSE nos dice qué tan lejos se desvían nuestros puntos observados de la línea de regresión, un RSE bajo en realidad nos dice» su modelo se ajusta bien en función de los puntos de datos observados «- > por lo tanto, ¿qué tan bien se ajustan nuestros modelos, entonces, cuál es la diferencia entre R cuadrado y RSE?

La estadística F es un buen indicador de si existe una relación entre nuestro predictor y las variables de respuesta.

3. ¿Es cierto que podemos tener un valor F que indique un relación fuerte que es NO LINEAL, por lo que nuestro RSE es alto y nuestro R cuadrado es bajo

Comentarios

  • Q 3 Fvalue no indica relación no lineal . Es una razón que indica si existe una relación sustancial (constante) entre las dos variables – dependiente e independiente.
  • No nos dice la naturaleza de la relación – lineal o no lineal.

Respuesta

La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), sin embargo, es posible que no sean de mucha ayuda. que entienda su caso particular. Pero léalos de todos modos. Quizás también le ayuden a conceptualizar mejor estos términos.

En una regresión (o ANOVA), construimos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para hacerlo, los siguientes tres componentes se calculan en una regresión lineal simple a partir de la cual se pueden calcular los otros componentes, p. Ej. los cuadrados medios, el valor F, el $ R ^ 2 $ (también el $ R ^ 2 $ ) y el error estándar residual ( $ RSE $ ):

  1. sumas totales de cuadrados ( $ SS_ {total} $ )
  2. sumas residuales de cuadrados ( $ SS_ {residual} $ )
  3. modelar sumas de cuadrados ( $ SS_ {model} $ )

Cada uno de ellos está evaluando qué tan bien modelo describe los datos y son la suma de las distancias cuadradas desde los puntos de datos hasta el modelo ajustado (ilustrado como líneas rojas en el gráfico a continuación).

El $ SS_ {total} $ evalúa qué tan bien se ajusta la media a los datos. ¿Por qué la media? Debido a que la media es el modelo más simple que podemos ajustar y, por lo tanto, sirve como modelo con el que se compara la línea de regresión de mínimos cuadrados. Este gráfico que utiliza el conjunto de datos cars ilustra que:

ingrese la descripción de la imagen aquí

El $ SS_ {residual} $ evalúa qué tan bien la línea de regresión se ajusta a los datos.

ingrese la descripción de la imagen aquí

La $ SS_ {model} $ compara cuánto mejor se compara la línea de regresión con la media (es decir, la diferencia entre $ SS_ {total} $ y $ SS_ {residual} $ ).

ingrese la descripción de la imagen aquí

Para responder a sus preguntas , primero calculemos los términos que desea comprender comenzando con el modelo y la salida como referencia:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

Las sumas de cuadrados son las distancias al cuadrado de los datos individuales apuntan al modelo:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Los cuadrados medios son las sumas de cuadrados promediados por los grados de libertad:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Mis respuestas a sus preguntas:

Q1:

  1. Esto es en realidad la distancia promedio de los valores observados desde la línea lm?

El error estándar residual ( $ RSE $ ) es la raíz cuadrada del cuadrado medio residual ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Si recuerda que el $ SS_ {residual} $ eran las distancias al cuadrado de los puntos de datos observados y el modelo (línea de regresión en el segundo gráfico anterior), y $ MS_ {residual} $ era solo el promedió $ SS_ {residual} $ , la respuesta a su primera La pregunta es, sí: $ RSE $ representa la distancia promedio de los datos observados desde el modelo. Intuitivamente, esto también tiene mucho sentido porque si la distancia es menor, el ajuste de su modelo también es mejor.

Q2:

  1. Ahora me estoy confundiendo porque si RSE nos dice qué tan lejos se desvían nuestros puntos observados del línea de regresión un RSE bajo en realidad nos dice «su modelo se ajusta bien en función de los puntos de datos observados» -> por lo tanto, ¿qué tan bien se ajustan nuestros modelos, entonces cuál es la diferencia entre R cuadrado y RSE? >

Ahora el $ R ^ 2 $ es la proporción del $ SS_ {model} $ y $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

El $ R ^ 2 $ expresa qué parte de la variación total de los datos puede explicarse mediante el modelo (la regresión línea). Recuerde que la variación total fue la variación en los datos cuando ajustamos el modelo más simple a los datos, es decir, la media. Compare el gráfico $ SS_ {total} $ con el gráfico $ SS_ {model} $ .

Entonces, para responder a su segunda pregunta, la diferencia entre $ RSE $ y $ R ^ 2 $ es que el $ RSE $ le dice algo sobre la inexactitud del modelo (en este caso la línea de regresión) dados los datos observados.

El $ R ^ 2 $ por otro lado le dice cuánta variación es explicada por el modelo (es decir, la línea de regresión) relativa a la variación que fue explicada por el significa solo (es decir, el modelo más simple).

Q3:

  1. ¿Es cierto que podemos tener un valor F que indique una relación fuerte que no es LINEAL, de modo que nuestro RSE es alto y nuestro R cuadrado es bajo?

Entonces t El $ F $ -valor en el otro se calcula como el cuadrado medio del modelo $ MS_ {model} $ (o la señal) dividida por $ MS_ {residual} $ (ruido):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

O en otras palabras, el $ F $ -valor expresa cuánto ha mejorado el modelo (en comparación con la media) dada la inexactitud del modelo.

Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que proporcionó.

Respuesta

(2 ) Lo está entendiendo correctamente, simplemente está teniendo dificultades con el concepto.

El valor $ R ^ 2 $ representa qué tan bien el modelo tiene en cuenta todos los datos. Solo puede tomar valores entre 0 y 1. Es el porcentaje de la desviación de los puntos en el conjunto de datos que el modelo puede explicar.

El RSE es más un descriptor de cuál es la desviación de la modelo que representan los datos originales. Entonces, el $ R ^ 2 $ dice, «el modelo hace esto bien al explicar los datos presentados». El RSE dice, «cuando se mapearon, esperábamos que los datos estuvieran aquí, pero aquí es donde realmente estaban». Son muy similares pero se utilizan para validar de diferentes formas.

Respuesta

Solo para complementar lo que Chris respondió anteriormente:

La estadística F es la división de el cuadrado medio del modelo y el cuadrado medio residual. Software como Stata, después de ajustar un modelo de regresión, también proporciona el valor p asociado con el estadístico F. Esto le permite probar la hipótesis nula de que los coeficientes de su modelo son cero. Puede considerarlo como la «significación estadística del modelo en su conjunto».

Respuesta

Como señalo en esta otra respuesta , $ F $ , $ RSS $ y $ R ^ 2 $ están todos interrelacionados. Aquí » extracto relevante:

La estadística F entre dos modelos, el modelo nulo (solo interceptar) $ m_0 $ y el modelo alternativo $ m_1 $ ( $ m_0 $ está anidado dentro de $ m_1 $ ) es:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ por otro lado, se define como:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Reorganizando $ F $ podemos ver que:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ right) = \ left (\ frac {RSS_0} {RSS_1} -1 \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) = \ left ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *