Esta es una pregunta para principiantes, pero ¿cómo se interpreta un resultado de exp (B) de 6.012? en un modelo de regresión logística multinomial?
1) ¿Es 6.012-1.0 = 5.012 = 5012% de aumento en el riesgo?
o
2) 6.012 / ( 1 + 6.012) = 0.857 = 85.7% de aumento en el riesgo?
En caso de que ambas alternativas sean incorrectas, ¿alguien puede mencionar la forma correcta?
He buscado muchos recursos en Internet y Llego a estas dos alternativas, y no estoy completamente seguro de cuál es la correcta.
Responder
Nos llevará un mientras que para llegar allí, pero en resumen, un cambio de una unidad en la variable correspondiente a B multiplicará el riesgo relativo del resultado (en comparación con el resultado base) por 6.012.
Se podría expresar esto como un aumento del «5012%» en el riesgo relativo , pero eso «es confuso y potente Una forma inicialmente engañosa de hacerlo, porque sugiere que deberíamos pensar en los cambios de forma aditiva, cuando de hecho el modelo logístico multinomial nos anima fuertemente a pensar de forma multiplicativa. El modificador «relativo» es esencial, porque un cambio en una variable está cambiando simultáneamente las probabilidades predichas de todos resultados, no solo el en cuestión, por lo que tenemos que comparar probabilidades (por medio de proporciones, no diferencias).
El resto de esta respuesta desarrolla la terminología y la intuición necesarias para interpretar estas declaraciones correctamente.
Antecedentes
Comencemos con la regresión logística ordinaria antes de pasar al caso multinomial.
Para la variable dependiente (binaria) $ Y $ y las variables independientes $ X_i $, el modelo es
$ $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$
de manera equivalente, asumiendo $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,
$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$
(Esto simplemente define $ \ rho $, que son las probabilidades en función de $ X_i $.)
Sin ninguna pérdida de generalidad, inde x el $ X_i $ de modo que $ X_m $ es la variable y $ \ beta_m $ es la «B» en la pregunta (de modo que $ \ exp (\ beta_m) = 6.012 $). Fijando los valores de $ X_i, 1 \ le i \ lt m $, y variando $ X_m $ en una pequeña cantidad $ \ delta $ produce
$$ \ log (\ rho (\ cdots, X_m + \ delta)) – \ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$
Por lo tanto, $ \ beta_m $ es el cambio marginal en las probabilidades logarítmicas con respecto a $ X_m $.
Para recuperar $ \ exp (\ beta_m) $, evidentemente debemos establecer $ \ delta = 1 $ y exponenciar el lado izquierdo:
$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ times 1) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1)) – \ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$
Esto muestra $ \ exp (\ beta_m) $ como la razón de probabilidades para un aumento de una unidad en $ X_m $. Para desarrollar una intuición de lo que esto podría significar, tabule algunos valores para un rango de probabilidades iniciales, redondeando fuertemente para que los patrones se destaquen:
Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1.
Para probabilidades muy pequeñas , que corresponden a probabilidades realmente pequeñas , el efecto de un aumento de una unidad en $ X_m $ es multiplicar las probabilidades o la probabilidad alrededor de 6.012. El factor multiplicativo disminuye a medida que las probabilidades (y la probabilidad) aumentan, y esencialmente se desvanece una vez que las probabilidades superan 10 (la probabilidad supera 0,9).
Como cambio aditivo , no hay mucha diferencia entre una probabilidad de 0.0001 y 0.0006 (es solo 0.05%), ni hay mucha diferencia entre 0.99 y 1. (solo 1%). El mayor efecto aditivo ocurre cuando las probabilidades son iguales a $ 1 / \ sqrt {6.012} \ sim 0.408 $, donde la probabilidad cambia de 29% a 71%: un cambio de + 42%.
Vemos, entonces, que si expresamos «riesgo» como una razón de probabilidades, $ \ beta_m $ = «B» tiene una interpretación simple: la razón de probabilidades es igual a $ \ beta_m $ para un aumento unitario en $ X_m $, pero cuando expresamos el riesgo de alguna otra manera, como un cambio en las probabilidades, la interpretación requiere cuidado para especificar la probabilidad inicial.
Regresión logística multinomial
(Esto se agregó como una edición posterior.)
Habiendo reconocido el valor de usar log odds para expresar probabilidades, Pasamos al caso multinomial. Ahora la variable dependiente $ Y $ puede ser igual a una de las categorías $ k \ ge 2 $, indexada por $ i = 1, 2, \ ldots, k $. El relativo la probabilidad de que esté en la categoría $ i $ es
$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ right) $ $
con los parámetros $ \ beta_j ^ {(i)} $ por determinar y escribiendo $ Y_i $ para $ \ Pr [Y = \ text {categoría} i] $.Como abreviatura, escribamos la expresión de la derecha como $ p_i (X, \ beta) $ o, donde $ X $ y $ \ beta $ son claros en el contexto, simplemente $ p_i $. Normalizando para hacer todos estos la suma de probabilidades relativas a la unidad da
$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$
(Existe una ambigüedad en los parámetros: hay demasiados de ellos. Convencionalmente, uno elige una categoría «base» para la comparación y obliga a todos sus coeficientes a ser cero. Sin embargo, aunque esto es necesario para informar estimaciones únicas de las betas, no es necesario para interpretar los coeficientes. Para mantener la simetría, es decir, para evitar cualquier distinción artificial entre las categorías, dejemos » no aplicar ninguna restricción de este tipo a menos que tengamos que hacerlo).
Una forma de interpretar este modelo es preguntar la tasa marginal de cambio de las probabilidades logarítmicas para cualquier categoría (digamos categoría $ i $) con respecto cualquiera de las variables independientes (digamos $ X_j $). Es decir, cuando cambiamos $ X_j $ un poco, eso induce un cambio en las probabilidades de registro de $ Y_i $. Nos interesa la constante de proporcionalidad que relaciona estos dos cambios. La regla de la cadena del cálculo, junto con un poco de álgebra, nos dice que esta tasa de cambio es
$$ \ frac {\ partial \ \ text {log odds} (Y_i)} {\ partial \ X_j} = \ beta_j ^ {(i)} – \ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $
Esto tiene una interpretación relativamente simple como el coeficiente $ \ beta_j ^ {(i)} $ de $ X_j $ en la fórmula para la probabilidad de que $ Y $ esté en la categoría $ i $ menos an » ajustamiento.» El ajuste es el promedio ponderado por probabilidad de los coeficientes de $ X_j $ en todas las demás categorías . Los pesos se calculan utilizando probabilidades asociadas con los valores actuales de las variables independientes $ X $. Por lo tanto, el cambio marginal en los logs no es necesariamente constante: depende de las probabilidades de todas las demás categorías, no solo de la probabilidad de la categoría en cuestión (categoría $ i $).
Cuando solo hay $ k = 2 $ categorías, esto debería reducirse a una regresión logística ordinaria. De hecho, la ponderación de probabilidad no hace nada y (eligiendo $ i = 2 $) da simplemente la diferencia $ \ beta_j ^ {(2)} – \ beta_j ^ {(1)} $. Dejar que la categoría $ i $ sea el caso base reduce esto aún más a $ \ beta_j ^ {(2)} $, porque forzamos $ \ beta_j ^ {(1)} = 0 $. Por lo tanto, la nueva interpretación generaliza la anterior.
Para interpretar $ \ beta_j ^ {(i)} $ directamente, lo aislaremos en un lado de la fórmula anterior, lo que lleva a:
El coeficiente de $ X_j $ para la categoría $ i $ es igual al cambio marginal en las probabilidades logarítmicas de la categoría $ i $ con respecto a la variable $ X_j $, más el promedio ponderado por probabilidad de los coeficientes de todos los demás $ X_ {j «} $ para la categoría $ i $.
Otra interpretación, aunque un poco menos directa, se ofrece al establecer (temporalmente) la categoría $ i $ como el caso base, lo que hace que $ \ beta_j ^ {(i)} = 0 $ para todas las variables independientes $ X_j $:
La tasa marginal de cambio en las probabilidades logarítmicas del caso base para la variable $ X_j $ es el negativo del promedio ponderado por probabilidad de sus coeficientes para todos los otros casos.
En realidad, el uso de estas interpretaciones normalmente requiere extraer el betas y las probabilidades de la salida del software y realizando los cálculos como se muestra.
Finalmente, para los coeficientes exponenciados, tenga en cuenta que la razón de probabilidades entre dos resultados (a veces llamado el «riesgo relativo» de $ i $ comparado a $ i «$) es
$$ \ frac {Y_ {i}} {Y_ {i»}} = \ frac {p_ {i} (X, \ beta)} {p_ {i «} (X, \ beta)}. $$
Aumentemos $ X_j $ en una unidad a $ X_j + 1 $. Esto multiplica $ p_ {i} $ por $ \ exp (\ beta_j ^ {(i)}) $ y $ p_ {i «} $ por $ \ exp (\ beta_j ^ {(i»)}) $, de donde el riesgo relativo se multiplica por $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i «)}) $ = $ \ exp (\ beta_j ^ {(i)} – \ beta_j ^ {(i «)}) $. Tomar la categoría $ i «$ como el caso base reduce esto a $ \ exp (\ beta_j ^ {(i)}) $, lo que nos lleva a decir,
El coeficiente exponencial $ \ exp (\ beta_j ^ {(i)}) $ es la cantidad por la cual el riesgo relativo $ \ Pr [Y = \ text {categoría} i] / \ Pr [Y = \ text { categoría base}] $ se multiplica cuando la variable $ X_j $ se incrementa en una unidad.
Comentarios
- Excelentes explicaciones, pero el OP pidió explícitamente el modelo multinomial . Puede que esté leyendo más en la pregunta de lo que pretendía el OP, y la explicación del caso binario puede ser adecuada, pero Me encanta ver que esta respuesta también cubre el caso multinomial general.Aunque la parametrización es similar, las » log-odds » son en general con respecto a una categoría de referencia (arbitraria), y no son realmente log-odds, y un cambio de unidad en $ X_i $ da como resultado un cambio combinado de estos » log-odds «, y un » log-odds » creciente no implica una probabilidad creciente.
- @NRH Que ‘ es un punto excelente. De alguna manera había leído » multivariante » en lugar de » multinomial. » Si tengo la oportunidad de volver a esto, intentaré profundizar en esos detalles. Afortunadamente, el mismo modo de análisis es eficaz para encontrar la interpretación correcta.
- @NRH Done. Agradezco sus sugerencias (o cualquier otra ‘ s) sobre cómo hacer que la interpretación sea más clara, o para interpretaciones alternativas.
- Gracias por escribir esto. La respuesta completa es una muy buena referencia.
Respuesta
Intente considerar esta pequeña explicación además de lo @whuber ya ha escrito muy bien. Si exp (B) = 6, entonces la razón de probabilidades asociada con un aumento de 1 en el predictor en cuestión es 6. En un contexto multinomial, por «razón de probabilidades» nos referimos a la razón de estas dos cantidades: a) las probabilidades ( no probabilidad, sino p / [1-p]) de un caso tomando el valor de la variable dependiente indicada en la tabla de salida en cuestión, yb) las probabilidades de un caso tomando el valor de referencia de la variable dependiente.
Parece que busca cuantificar la probabilidad, en lugar de las probabilidades, de que un caso esté en una u otra categoría. Para hacer esto, necesitaría saber con qué probabilidades «comenzó» el caso, es decir, antes de asumir el aumento de 1 en el predictor en cuestión. Las proporciones de probabilidades variarán caso por caso, mientras que la proporción de probabilidades relacionadas con un aumento de 1 en el predictor permanece igual.
Comentarios
- » Si exp (B) = 6, la proporción de probabilidades asociada con un aumento de 1 en el predictor en cuestión es 6 «, si leo la respuesta de @whuber ‘ correctamente, dice que la razón de probabilidades se multiplicará por 6 con un aumento de 1 en el predictor. Es decir, la nueva razón de probabilidades no será 6. ¿O estoy interpretando las cosas incorrectamente?
- Donde dice » la nueva razón de probabilidades no será 6 » Yo diría que » las nuevas probabilidades no serán 6 … pero la relación entre las probabilidades nuevas y las antiguas será 6. »
- ¡Sí, estoy de acuerdo con eso! Pero pensé que » la razón de probabilidades asociada con un aumento de 1 en el predictor en cuestión es 6 » no dice realmente eso . Pero tal vez lo esté malinterpretando entonces. ¡Gracias por la aclaración!
Respuesta
También estaba buscando la misma respuesta, pero las anteriores eran no me satisface. Parecía complejo por lo que realmente es. Así que daré mi interpretación, corríjame si me equivoco.
Sin embargo, lea hasta el final, ya que es importante.
En primer lugar, los valores B y Exp ( B) son lo que buscas. Si la B es negativa, su Exp (B) será menor que uno, lo que significa que las probabilidades disminuyen. Si es mayor, la Exp (B) será mayor que 1, lo que significa que las probabilidades aumentan. Ya que está multiplicando por el factor Exp (B).
Desafortunadamente, todavía no ha llegado. Debido a que en una regresión multinominal su variable dependiente tiene múltiples categorías, llamemos a estas categorías D1, D2 y D3. De las cuales la última es la categoría de referencia. Y supongamos que su primera variable independiente es el sexo (hombres vs mujeres).
Digamos que la salida para D1 -> hombres es exp (B) = 1.21, esto significa que para los hombres las probabilidades aumentan en un factor de 1.21 por estar en la categoría D1 en lugar de D3 (categoría de referencia) en comparación con las mujeres (categoría de referencia).
Por lo tanto, siempre está comparando con su categoría de referencia de las variables dependientes pero también independientes. Esto no es cierto si tiene una variable covariable. En ese caso, significaría; un aumento de una unidad en X aumenta las probabilidades en un factor de 1.21 de estar en la categoría D1 en lugar de D3.
Para aquellos con una variable dependiente ordinal:
Si tiene una variable ordinal variable dependiente y no hizo una regresión ordinal debido a la suposición de probabilidades proporcionales, por ejemplo. Tenga en cuenta su mayor categoría es la categoría de referencia. Su resultado como el anterior es válido para informar. ¡Pero tenga en cuenta que un aumento en las probabilidades significa un aumento en las probabilidades de estar en la categoría más baja en lugar de en la más alta!Pero eso es solo si tiene una variable dependiente ordinal.
Si desea saber el aumento en el porcentaje, tomemos un número de probabilidades ficticio, digamos 100 y multiplíquelo por 1.21, que es 121? Comparado con 100, ¿cuánto cambió en porcentaje?
Respuesta
Digamos que exp (b) en un mlogit es 1.04. si multiplica un número por 1,04, aumentará en un 4%. Ese es el riesgo relativo de estar en la categoría a en lugar de b. Sospecho que parte de la confusión aquí podría tener que ver con un 4% (significado multiplicativo) y un 4% (significado aditivo). La interpretación de% es correcta si hablamos de un cambio porcentual, no de un cambio en un punto porcentual. (Esto último no tendría sentido de todos modos, ya que los riesgos relativos no se expresan en términos de porcentajes).