¿Qué significa la afirmación «X e Y explicaron una mayor proporción de varianza en Z que en X solo»
De manera más general, ¿qué significa cuando el modelo «explica más variación» en la variable dependiente? Ciertamente, esto no equivale a «esto explica la variable» más.
Gracias por la información sobre este pregunta.
Comentarios
- » Explicando la varianza » es tan vago como » que me explica una variable «, así que no ‘ t excluye la posibilidad de que ‘ estén relacionados (semánticamente). No prefiero esta forma de interpretar el resultado de ANOVA / regresión porque ‘ es engañoso y » inútil » información. Supongamos que dije » que el ejercicio explica la variación en la presión arterial » … ¿eso significa que si hago ejercicio mi presión arterial se volverá menos variable? De hecho, mi PA se vuelve más variable ya que los episodios aumentan mi PA y mi presión en reposo tenderá a ser normotensiva, lo cual es deseable. Hay mejores formas de describir los resultados.
- He reemplazado la etiqueta generalized-linear-model (glm) con la regresión múltiple. La pregunta podría posiblemente generalizarse a glms por referencia a desviaciones en lugar de variaciones y sumas de cuadrados, pero esa no parece ser la intención del OP ‘.
Respuesta
En un par de palabras (¡cuanto más corto, mejor!) cuando agrega una variable a un modelo, si la variable agregada agrega algún poder explicativo, entonces la adición aumenta el ajuste del modelo (es decir, la capacidad del modelo en su conjunto de predecir la variable dependiente en la muestra donde se estima el modelo). Sin embargo, tenga en cuenta que agregar más variables también implica un mayor riesgo de sobreajuste (es decir, construir un modelo con un alto ajuste dentro de la muestra en la que se estima y un rendimiento de predicción degradado cuando se usa en otras muestras). Entonces, con el tiempo, se han introducido algunos criterios de especificación que equilibran el número de parámetros a estimar con el ajuste del modelo, de modo que la adición de variables (y por lo tanto los parámetros a estimar) puede desalentarse cuando el aumento resultante en el ajuste de modo no es lo suficientemente alto en comparación con la penalización del parámetro.
Con respecto a su pregunta «De manera más general, ¿qué significa cuando el modelo» explica más variación «en la variable dependiente? Ciertamente, esto no es equivalente a «esto explica la variable» más? » en modelos básicos como la regresión, cuanto más varianza de la variable dependiente se explica por el modelo, menos se explica por los residuos, mejor es el modelo porque (para usar sus palabras) “explica más la variable dependiente”
Respuesta
Tenemos que pensar en un modelo para responder a su pregunta, así que supongamos un modelo lineal. Por conveniencia, use sumas de desviaciones cuadradas en lugar de varianzas; para traducir las variaciones, divida las sumas de cuadrados por $ N – 1 $ .
Sea $ Z = (z_1, …, z_N) $ sean sus datos; tiene una suma de desviaciones cuadradas $ \ sum_ {i = 1} ^ N (z_i – \ bar {z}) ^ 2 $ . Si decide estimar $ Z $ como $ \ hat {Z} = \ beta_0 + \ beta_1 X + \ beta_2Y + \ varepsilon $ , luego obtiene estimaciones $ \ hat {Z} = (\ hat {z} _1, …, \ hat {z} _N) $ para $ Z $ ; su media es la misma que la media de $ Z $ «.
Es un hecho que la varianza muestral de $ \ hat {Z} $ es menor que el de $ Z $ , intuitivamente porque lo hemos restringido para que esté en una línea. la varianza es solo la misma si los datos son exactamente lineales; por lo tanto, la idea es que al intentar capturar $ Z $ con esta estimación, está intentando capturar el variación de $ Z $ . Entonces, cuanto mayor sea la variación $ \ hat {Z} $ capturas, cuanto más cerca estén los datos de ser exactamente lineales.
Se cumple la siguiente identidad (llamada descomposición ANOVA):
$$ \ underbrace {\ sum_ {i = 1} ^ N ( z_i – \ bar {z}) ^ 2} _ {\ text {TSS}} = \ underbrace {\ sum_ {i = 1} ^ N (z_i – \ hat {z} _i) ^ 2} _ {\ text { RSS}} + \ underbrace {\ sum_ {i = 1} ^ N (\ hat {z} _i – \ bar {z}) ^ 2} _ {ESS} $$
Entonces, la suma total de cuadrados (TSS) de $ Z $ se divide en la suma explicada de cuadrados (ESS), que es la varianza (no normalizada) de los datos ajustados . Esta es la «varianza explicada». La suma de cuadrados residual (RSS) es cuánto difieren los datos reales de sus datos ajustados, la «varianza inexplicable». Para obtener una proporción de varianza explicada o inexplicable, puede dividir entre TSS. La proporción de varianza explicada, $ ESS / TSS $ se denomina valor y medidas de $ R ^ 2 $ la calidad del ajuste.
El lenguaje de la varianza explicada / inexplicada no siempre es útil; en realidad, solo lo veo con regresión lineal y PCA. Además, explicar la mayor cantidad de varianza posible no es la mejor idea si quiere hacer predicción, ya que esto es sobreajuste. Cuando haces algo como una regresión de crestas, obtienes una estimación sesgada que «explicaría menos varianza» — el $ R ^ 2 $ en los datos será peor- –pero la razón por la que hace la regresión de crestas es porque el error de prueba generalmente será mejor.
(Para la predicción, más importante que la descomposición ANOVA es la descomposición de la varianza-sesgo).