Questa è una domanda da principianti, ma come si interpreta un risultato exp (B) di 6.012 in un modello di regressione logistica multinomiale?

1) è 6.012-1.0 = 5.012 = 5012% di aumento del rischio?

o

2) 6.012 / ( 1 + 6.012) = 0,857 = 85,7% di aumento del rischio?

Nel caso in cui entrambe le alternative non siano corrette, qualcuno può menzionare il modo corretto?

Ho cercato molte risorse su Internet e Ottengo queste due alternative e non sono del tutto sicuro di quale sia corretta.

Risposta

Ci vorrà un mentre per arrivarci, ma in sintesi, una variazione di ununità nella variabile corrispondente a B moltiplicherà il rischio relativo del risultato (rispetto al risultato di base) per 6,012.

Si potrebbe esprimere questo come un aumento del “5012%” del rischio relativo , ma “è fonte di confusione e potrebbe Un modo sostanzialmente fuorviante di farlo, perché suggerisce che dovremmo pensare ai cambiamenti in modo additivo, quando in realtà il modello logistico multinomiale ci incoraggia fortemente a pensare in modo moltiplicativo. Il modificatore “relativo” è essenziale, perché un cambiamento in una variabile cambia simultaneamente le probabilità previste di tutti i risultati, non solo quello in questione, quindi dobbiamo confrontare le probabilità (per mezzo di rapporti, non differenze).

Il resto di questa risposta sviluppa la terminologia e lintuizione necessarie per interpretare correttamente queste affermazioni.

Background

Iniziamo con la regressione logistica ordinaria prima di passare al caso multinomiale.

Per la variabile dipendente (binaria) $ Y $ e le variabili indipendenti $ X_i $, il modello è

$ $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$

in modo equivalente, assumendo $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,

$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$

(Questo definisce semplicemente $ \ rho $, che è la quota in funzione di $ X_i $.)

Senza alcuna perdita di generalità, inde x $ X_i $ in modo che $ X_m $ sia la variabile e $ \ beta_m $ sia la “B” nella domanda (in modo che $ \ exp (\ beta_m) = 6.012 $). Correggendo i valori di $ X_i, 1 \ le i \ lt m $ e variando $ X_m $ di una piccola quantità $ \ delta $ si ottengono

$$ \ log (\ rho (\ cdots, X_m + \ delta)) – \ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$

Quindi, $ \ beta_m $ è la variazione marginale delle quote di log rispetto a $ X_m $.

Per recuperare $ \ exp (\ beta_m) $, evidentemente dobbiamo impostare $ \ delta = 1 $ ed esponenziare il lato sinistro:

$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ times 1) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1)) – \ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$

Mostra $ \ exp (\ beta_m) $ come rapporto di probabilità per un aumento di ununità di $ X_m $. Per sviluppare unintuizione di ciò che questo potrebbe significare, tabula alcuni valori per un intervallo di quote iniziali, arrotondando pesantemente per far risaltare gli schemi:

Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1. 

Per probabilità molto piccole , che corrispondono a probabilità davvero piccole , leffetto di un aumento di ununità in $ X_m $ è moltiplicare le probabilità o la probabilità di circa 6.012. Il fattore moltiplicativo diminuisce allaumentare delle probabilità (e della probabilità) ed è sostanzialmente svanito una volta che le probabilità superano 10 (la probabilità supera 0,9).

Rapporto di variazione della probabilità

Come cambiamento additivo , non cè molta differenza tra una probabilità di 0,0001 e 0,0006 (è solo 0,05%), né cè molta differenza tra 0,99 e 1. (solo 1%). Il maggiore effetto additivo si verifica quando le quote sono pari a $ 1 / \ sqrt {6.012} \ sim 0.408 $, dove la probabilità cambia dal 29% al 71%: una variazione del + 42%.

Modifica additiva della probabilità

Vediamo, quindi, che se esprimiamo “rischio” come rapporto di probabilità, $ \ beta_m $ = “B” ha una semplice interpretazione: lodds ratio è uguale a $ \ beta_m $ per un aumento di unità in $ X_m $ – ma quando esprimiamo il rischio in qualche altro modo, come un cambiamento nelle probabilità, linterpretazione richiede attenzione per specificare la probabilità iniziale.

Regressione logistica multinomiale

(Questo è stato aggiunto come una modifica successiva.)

Avendo riconosciuto il valore delluso delle probabilità logistiche per esprimere le probabilità, lascia “s passiamo al caso multinomiale. Ora la variabile dipendente $ Y $ può essere uguale a una delle categorie $ k \ ge 2 $, indicizzata da $ i = 1, 2, \ ldots, k $. Il relativo probabilità che sia nella categoria $ i $ è

$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ right) $ $

con i parametri $ \ beta_j ^ {(i)} $ da determinare e scrivendo $ Y_i $ per $ \ Pr [Y = \ text {category} i] $.Come abbreviazione, scriviamo lespressione a destra come $ p_i (X, \ beta) $ o, dove $ X $ e $ \ beta $ sono chiari dal contesto, semplicemente $ p_i $. Normalizzazione per fare tutti questi la somma delle probabilità relative allunità dà

$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$

(Cè unambiguità nei parametri: ce ne sono troppi. Convenzionalmente, si sceglie una categoria “base” per il confronto e si forza tutti i suoi coefficienti a zero. Tuttavia, sebbene ciò sia necessario per riportare stime univoche dei beta, non è necessario interpretare i coefficienti. Per mantenere la simmetria, cioè per evitare distinzioni artificiali tra le categorie, lascia “s non imporre alcun vincolo di questo tipo a meno che non sia necessario.)

Un modo per interpretare questo modello è chiedere il tasso di variazione marginale delle quote logaritmiche per qualsiasi categoria (diciamo categoria $ i $) rispetto a una qualsiasi delle variabili indipendenti (ad esempio $ X_j $). Cioè, quando cambiamo $ X_j $ di un po , ciò induce un cambiamento nelle probabilità di registro di $ Y_i $. Ci interessa la costante di proporzionalità che collega questi due cambiamenti. La regola a catena del calcolo, insieme a un po di algebra, ci dice che questo tasso di cambiamento è

$$ \ frac {\ partial \ \ text {log odds} (Y_i)} {\ partial \ X_j} = \ beta_j ^ {(i)} – \ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $

Ha uninterpretazione relativamente semplice come coefficiente $ \ beta_j ^ {(i)} $ di $ X_j $ nella formula per la possibilità che $ Y $ sia nella categoria $ i $ meno un ” regolazione. ” La rettifica è la media ponderata in base alla probabilità dei coefficienti di $ X_j $ in tutte le altre categorie . I pesi vengono calcolati utilizzando le probabilità associate ai valori correnti delle variabili indipendenti $ X $. Pertanto, la variazione marginale nei log non è necessariamente costante: dipende dalle probabilità di tutte le altre categorie, non solo dalla probabilità della categoria in questione (categoria $ i $).

Quando ci sono solo $ k = 2 $ categorie, questo dovrebbe ridursi alla normale regressione logistica. In effetti, la ponderazione di probabilità non fa nulla e (scegliendo $ i = 2 $) dà semplicemente la differenza $ \ beta_j ^ {(2)} – \ beta_j ^ {(1)} $. Se si lascia che la categoria $ i $ sia il caso base, si riduce ulteriormente a $ \ beta_j ^ {(2)} $, perché si forza $ \ beta_j ^ {(1)} = 0 $. Quindi la nuova interpretazione generalizza la vecchia.

Per interpretare $ \ beta_j ^ {(i)} $ direttamente, quindi, lo isoleremo su un lato della formula precedente, portando a:

Il coefficiente di $ X_j $ per la categoria $ i $ è uguale alla variazione marginale delle quote logaritmiche della categoria $ i $ rispetto alla variabile $ X_j $, più la media ponderata in base alla probabilità dei coefficienti di tutti gli altri $ X_ {j “} $ per la categoria $ i $.

Unaltra interpretazione, anche se un po meno diretta, è data dallimpostazione (temporaneamente) della categoria $ i $ come caso base, rendendo così $ \ beta_j ^ {(i)} = 0 $ per tutte le variabili indipendenti $ X_j $:

Il tasso di variazione marginale nelle quote logaritmiche del caso base per la variabile $ X_j $ è il negativo della media ponderata in base alla probabilità dei suoi coefficienti per tutte le altri casi.

In realtà lutilizzo di queste interpretazioni in genere richiede lestrazione del beta e le probabilità dalloutput del software e dallesecuzione dei calcoli come mostrato.

Infine, per i coefficienti esponenziati, si noti che il rapporto delle probabilità tra due risultati (a volte chiamato “rischio relativo” di $ i $ rispetto a $ i “$) è

$$ \ frac {Y_ {i}} {Y_ {i”}} = \ frac {p_ {i} (X, \ beta)} {p_ {i “} (X, \ beta)}. $$

Aumentiamo $ X_j $ di ununità a $ X_j + 1 $. Questo moltiplica $ p_ {i} $ per $ \ exp (\ beta_j ^ {(i)}) $ e $ p_ {i “} $ per $ \ exp (\ beta_j ^ {(i”)}) $, da cui il il rischio relativo viene moltiplicato per $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i “)}) $ = $ \ exp (\ beta_j ^ {(i)} – \ beta_j ^ {(i “)}) $. Considerare la categoria $ i “$ come caso di base lo riduce a $ \ exp (\ beta_j ^ {(i)}) $, portandoci a dire,

Il coefficiente esponenziale $ \ exp (\ beta_j ^ {(i)}) $ è limporto per il quale il rischio relativo $ \ Pr [Y = \ text {categoria} i] / \ Pr [Y = \ text { categoria base}] $ viene moltiplicato quando la variabile $ X_j $ viene aumentata di ununità.

Commenti

  • Ottime spiegazioni, ma lOP ha chiesto esplicitamente il modello multinomiale . Potrei leggere più nella domanda di quanto lOP intendesse, e la spiegazione per il caso binario potrebbe essere adeguata, ma lo farei mi piace vedere questa risposta coprire anche il caso multinomiale generale.Anche se la parametrizzazione è simile, i ” log-odds ” sono in generale rispetto a una categoria di riferimento (arbitraria) e non sono realmente log-odds e un cambio di unità in $ X_i $ si traduce in un cambiamento combinato di questi ” log-odds “, e un ” log-odds ” crescente non implica un aumento della probabilità.
  • @NRH That ‘ è un ottimo punto. In qualche modo avevo letto ” multivariato ” invece di ” multinomiale. ” Se ho la possibilità di tornare su questo, cercherò di rimpolpare questi dettagli. Fortunatamente la stessa modalità di analisi è efficace per trovare la corretta interpretazione.
  • @NRH Done. Accolgo con favore i tuoi suggerimenti (o chiunque altro ‘ s) su come rendere più chiara linterpretazione o per interpretazioni alternative.
  • grazie per aver scritto questo. La risposta completa è un ottimo riferimento.

Risposta

Prova a considerare questo frammento di spiegazione in aggiunta a quanto @whuber ha già scritto così bene. Se exp (B) = 6, allora lodds ratio associato ad un aumento di 1 sul predittore in questione è 6. In un contesto multinomiale, per “odds ratio” si intende il rapporto tra queste due quantità: a) gli odds ( non probabilità, ma piuttosto p / [1-p]) di un caso che assume il valore della variabile dipendente indicata nella tabella di output in questione, e b) le probabilità di un caso che assume il valore di riferimento della variabile dipendente.

Sembra che tu stia cercando di quantificare la probabilità, piuttosto che le probabilità, che un caso appartenga alluna o allaltra categoria. Per fare ciò, è necessario sapere con quali probabilità il caso “è iniziato”, ovvero prima di ipotizzare laumento di 1 sul predittore in questione. I rapporti delle probabilità varieranno caso per caso, mentre il rapporto delle quote connesse con un aumento di 1 sul predittore rimane lo stesso.

Commenti

  • ” Se exp (B) = 6, lodds ratio associato a un aumento di 1 sul predittore in questione è 6 “, se leggo correttamente la risposta di @whuber ‘ si dice che lodds ratio verrà moltiplicato per 6 con un aumento di 1 sul predittore. Cioè, il nuovo odds ratio non sarà 6. O sto interpretando le cose in modo errato?
  • Dove dici ” il nuovo odds ratio non sarà 6 ” Direi ” le nuove quote non saranno 6 … ma il rapporto tra il nuovo e il vecchio odds sarà 6. ”
  • Sì, sono daccordo! Ma ho solo pensato che ” lodds ratio associato a un aumento di 1 sul predittore in questione è 6 ” non lo dice davvero . Ma forse lo sto solo interpretando male allora. Grazie per il chiarimento!

Risposta

Anche io stavo cercando la stessa risposta, ma una volta sopra erano non soddisfacente per me. Sembrava complicato per quello che è veramente. Quindi darò la mia interpretazione, per favore correggimi se sbaglio.

Leggi comunque fino alla fine, poiché è importante.

Prima di tutto i valori B ed Exp ( B) sono la volta che stai cercando. Se la B è negativa, la tua Exp (B) sarà inferiore a uno, il che significa che le probabilità diminuiscono. Se maggiore, Exp (B) sarà maggiore di 1, il che significa che le probabilità aumentano. Dato che stai moltiplicando per il fattore Exp (B).

Sfortunatamente non ci sei ancora. Poiché in una regressione multinominale la tua variabile dipendente ha più categorie, chiamiamole D1, D2 e D3. Di cui lultima è la categoria di riferimento. E supponiamo che la tua prima variabile indipendente sia il sesso (maschi vs femmine).

Supponiamo che loutput per D1 -> maschi sia exp (B) = 1,21, questo significa che per i maschi le probabilità aumentano di un fattore 1,21 per essere nella categoria D1 piuttosto che D3 (categoria di riferimento) rispetto alle femmine (categoria di riferimento).

Quindi stai sempre confrontando con la tua categoria di riferimento delle variabili dipendenti ma anche indipendenti. Questo non è vero se hai una variabile covariata. In tal caso significherebbe; un aumento di ununità in X aumenta le probabilità di un fattore di 1,21 di essere nella categoria D1 anziché D3.

Per quelli con una variabile dipendente ordinale:

Se hai un ordinale variabile dipendente e non ha eseguito una regressione ordinale a causa dellipotesi di quote proporzionali, ad esempio. Tieni presente categoria è la categoria di riferimento. I tuoi risultati come sopra sono validi da segnalare. Ma tieni presente che un aumento delle probabilità di fatto significa un aumento delle probabilità di essere nella categoria inferiore piuttosto che nella più alta!Ma questo è solo se hai una variabile dipendente ordinale.

Se vuoi conoscere laumento in percentuale, prendi un numero di probabilità fittizio, diciamo 100 e moltiplicalo per 1,21 che è 121? Rispetto a 100, quanto è cambiato in percentuale in termini di percentuale?

Risposta

Supponi che exp (b) in un mlogit sia 1.04. se moltiplichi un numero per 1,04, aumenta del 4%. Questo è il rischio relativo di essere nella categoria a invece che b. Ho il sospetto che parte della confusione qui potrebbe avere a che fare con del 4% (significato moltiplicativo) e del 4% (significato additivo). Linterpretazione% è corretta se parliamo di una variazione percentuale e non di una variazione in punti percentuali. (Questultimo non avrebbe comunque senso in quanto i rischi relativi non sono espressi in termini di percentuali.)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *