Dit is een beetje een beginnersvraag, maar hoe interpreteer je een exp (B) resultaat van 6.012 in een multinominaal logistisch regressiemodel?
1) is het 6.012-1.0 = 5.012 = 5012% toename van het risico?
of
2) 6.012 / ( 1 + 6.012) = 0.857 = 85,7% toename van het risico?
Als beide alternatieven onjuist zijn, kan iemand dan de juiste manier noemen?
Ik heb veel bronnen op internet doorzocht en Ik kom bij deze twee alternatieven, en ik weet niet helemaal zeker welke de juiste is.
Antwoord
Het kost ons een terwijl om daar te komen, maar samengevat, zal een verandering van één eenheid in de variabele die overeenkomt met B het relatieve risico van de uitkomst (vergeleken met de basisuitkomst) vermenigvuldigen met 6,012.
Men zou dit kunnen uitdrukken als een “5012%” toename van het relatieve risico, maar dat is verwarrend en pote een typisch misleidende manier om het te doen, omdat het suggereert dat we additief aan de veranderingen moeten denken, terwijl het multinominale logistieke model ons in feite sterk aanmoedigt om multiplicatief te denken. De modifier “relatief” is essentieel, omdat een verandering in een variabele gelijktijdig de voorspelde kansen van alle uitkomsten verandert, niet alleen die in kwestie, dus we moeten kansen vergelijken (door middel van ratios, geen verschillen).
De rest van dit antwoord ontwikkelt de terminologie en intuïtie die nodig zijn om deze uitspraken correct te interpreteren.
Achtergrond
Laten we beginnen met gewone logistische regressie voordat we verder gaan met het multinominale geval.
Voor afhankelijke (binaire) variabele $ Y $ en onafhankelijke variabelen $ X_i $ is het model
$ $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$
equivalent, uitgaande van $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,
$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$
(Dit definieert eenvoudig $ \ rho $, wat is de odds als een functie van de $ X_i $.)
Zonder enig verlies van algemeenheid, inde x $ X_i $ zodat $ X_m $ de variabele is en $ \ beta_m $ de “B” in de vraag (zodat $ \ exp (\ beta_m) = 6.012 $). Door de waarden van $ X_i, 1 \ le i \ lt m $ vast te stellen en $ X_m $ met een klein bedrag te variëren $ \ delta $ levert
$$ \ log (\ rho (\ cdots, X_m + \ delta)) – \ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$
Dus $ \ beta_m $ is de marginale verandering in logkansen met betrekking tot $ X_m $.
Om $ \ exp (\ beta_m) $ te herstellen, moeten we klaarblijkelijk $ \ delta = 1 $ instellen en de linkerkant exponenteren:
$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ times 1) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1)) – \ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$
Dit toont $ \ exp (\ beta_m) $ als de odds ratio voor een verhoging van één eenheid in $ X_m $. Om een intuïtie te ontwikkelen voor wat dit zou kunnen betekenen, formuleert u enkele waarden voor een reeks startkansen, zwaar afgerond om de patronen te laten opvallen:
Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1.
Voor heel kleine odds, die overeenkomen met heel kleine kansen, het effect van een toename van één eenheid in $ X_m $ is het vermenigvuldigen van de odds of de waarschijnlijkheid met ongeveer 6,012. De vermenigvuldigingsfactor neemt af naarmate de kansen (en waarschijnlijkheid) groter worden, en is in wezen verdwenen zodra de kans groter is dan 10 (de kans groter is dan 0,9).
Als additieve verandering is er niet veel verschil tussen een kans van 0,0001 en 0,0006 (het is slechts 0,05%), en er is ook niet veel verschil tussen 0,99 en 1 (slechts 1%). Het grootste additieve effect treedt op wanneer de kans gelijk is aan $ 1 / \ sqrt {6.012} \ sim 0.408 $, waarbij de kans verandert van 29% naar 71%: een verandering van + 42%.
We zien dus dat als we “risico” uitdrukken als een odds ratio, $ \ beta_m $ = “B” een eenvoudige interpretatie heeft – de odds ratio is gelijk aan $ \ beta_m $ voor een eenheidstoename in $ X_m $ – maar wanneer we risico op een andere manier uitdrukken, zoals een verandering in waarschijnlijkheden, vereist de interpretatie zorgvuldigheid om de startkans te specificeren.
Multinominale logistische regressie
(Dit is toegevoegd als een latere bewerking.)
Nu we de waarde hebben ingezien van het gebruik van logkansen om kansen uit te drukken, laten we “s gaan verder met het multinominale geval. Nu kan de afhankelijke variabele $ Y $ gelijk zijn aan een van $ k \ ge 2 $ categorieën, geïndexeerd door $ i = 1, 2, \ ldots, k $. De relatieve waarschijnlijkheid dat het in categorie $ i $ is
$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ right) $ $
met parameters $ \ beta_j ^ {(i)} $ te bepalen en $ Y_i $ te schrijven voor $ \ Pr [Y = \ text {category} i] $.Laten we als afkorting de uitdrukking aan de rechterkant schrijven als $ p_i (X, \ beta) $ of, waar $ X $ en $ \ beta $ duidelijk zijn uit de context, gewoon $ p_i $. Normaliseren om al deze relatieve kansen som tot eenheid geeft
$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$
(Er is een dubbelzinnigheid in de parameters: er zijn er te veel. Conventioneel kiest men een “basis” -categorie om te vergelijken en dwingt al zijn coëfficiënten tot nul. hoewel dit nodig is om unieke schattingen van de bètas te rapporteren, is het niet nodig om de coëfficiënten te interpreteren. Om de symmetrie te behouden – dat wil zeggen, om kunstmatige verschillen tussen de categorieën te vermijden – laten we een dergelijke beperking niet afdwingen tenzij het moet.)
Een manier om dit model te interpreteren is door te vragen naar de marginale mate van verandering van de logkansen voor elke categorie (zeg categorie $ i $) met betrekking tot een van de onafhankelijke variabelen (zeg $ X_j $). Dat wil zeggen, als we $ X_j $ een klein beetje veranderen, leidt dat tot een verandering in de logkansen van $ Y_i $. We zijn geïnteresseerd in de evenredigheidsconstante met betrekking tot deze twee veranderingen. De kettingregel van Calculus, samen met een beetje algebra, vertelt ons dat deze veranderingssnelheid is
$$ \ frac {\ partiële \ \ text {log odds} (Y_i)} {\ partiële \ X_j} = \ beta_j ^ {(i)} – \ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $
Dit heeft een relatief eenvoudige interpretatie als de coëfficiënt $ \ beta_j ^ {(i)} $ van $ X_j $ in de formule voor de kans dat $ Y $ in categorie $ i $ minus an “valt” aanpassing.” De aanpassing is het waarschijnlijkheidsgewogen gemiddelde van de coëfficiënten van $ X_j $ in alle andere categorieën . De gewichten worden berekend met behulp van waarschijnlijkheden die zijn gekoppeld aan de huidige waarden van de onafhankelijke variabelen $ X $. De marginale verandering in logboeken is dus niet noodzakelijk constant: het hangt af van de waarschijnlijkheden van alle andere categorieën, niet alleen van de waarschijnlijkheid van de categorie in kwestie (categorie $ i $).
Als er maar $ k = 2 $ categorieën, dit zou moeten worden gereduceerd tot gewone logistische regressie. De kansweging doet inderdaad niets en (door $ i = 2 $ te kiezen) geeft eenvoudig het verschil $ \ beta_j ^ {(2)} – \ beta_j ^ {(1)} $. Door categorie $ i $ het basisscenario te laten zijn, wordt dit verder verlaagd tot $ \ beta_j ^ {(2)} $, omdat we $ \ beta_j ^ {(1)} = 0 $ forceren. Dus generaliseert de nieuwe interpretatie de oude.
Om $ \ beta_j ^ {(i)} $ rechtstreeks te interpreteren, isoleren we het aan één kant van de voorgaande formule, wat leidt tot:
De coëfficiënt van $ X_j $ voor categorie $ i $ is gelijk aan de marginale verandering in de logkansen van categorie $ i $ met betrekking tot de variabele $ X_j $, plus het waarschijnlijkheidsgewogen gemiddelde van de coëfficiënten van alle andere $ X_ {j “} $ voor categorie $ i $.
Een andere interpretatie, zij het iets minder direct, wordt mogelijk gemaakt door categorie $ i $ (tijdelijk) in te stellen als het basisscenario, waardoor $ \ beta_j ^ {(i)} = 0 $ voor alle onafhankelijke variabelen $ X_j $:
De marginale verandering in de log-odds van het basisscenario voor variabele $ X_j $ is het negatief van het waarschijnlijkheidsgewogen gemiddelde van zijn coëfficiënten voor alle andere gevallen.
Om deze interpretaties daadwerkelijk te kunnen gebruiken, moet de bètas en de waarschijnlijkheden van software-uitvoer en het uitvoeren van de berekeningen zoals weergegeven.
Merk tot slot op dat voor de exponentiërende coëfficiënten de verhouding tussen de waarschijnlijkheden tussen twee uitkomsten (soms het relatieve risico van $ i $ vergeleken to $ i “$) is
$$ \ frac {Y_ {i}} {Y_ {i”}} = \ frac {p_ {i} (X, \ beta)} {p_ {i “} (X, \ beta)}. $$
Laten we $ X_j $ met één eenheid verhogen tot $ X_j + 1 $. Dit vermenigvuldigt $ p_ {i} $ met $ \ exp (\ beta_j ^ {(i)}) $ en $ p_ {i “} $ met $ \ exp (\ beta_j ^ {(i”)}) $, vanwaar de relatief risico wordt vermenigvuldigd met $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i “)}) $ = $ \ exp (\ beta_j ^ {(i)} – \ beta_j ^ {(i “)}) $. Door categorie $ i “$ als basisscenario te nemen, wordt dit teruggebracht tot $ \ exp (\ beta_j ^ {(i)}) $, waardoor we zeggen:
De exponentiërende coëfficiënt $ \ exp (\ beta_j ^ {(i)}) $ is het bedrag waarmee het relatieve risico $ \ Pr [Y = \ text {category} i] / \ Pr [Y = \ text { basiscategorie}] $ wordt vermenigvuldigd als variabele $ X_j $ met één eenheid wordt verhoogd.
Reacties
- Goede verklaringen, maar het OP vroeg expliciet om het multinominale -model. Misschien lees ik meer in de vraag dan het OP bedoelde, en de verklaring voor het binaire geval kan voldoende zijn, maar ik zou graag zien dat dit antwoord ook de algemene multinominale zaak beslaat.Hoewel de parametrisatie vergelijkbaar is, zijn de ” log-odds ” in het algemeen met betrekking tot een (willekeurige) referentiecategorie, en ze zijn niet echt log-odds, en een eenheidswijziging in $ X_i $ resulteert in een gecombineerde verandering van deze ” log-odds “, en een toenemende ” log-odds ” impliceert geen toenemende waarschijnlijkheid.
- @NRH That ‘ is een uitstekend punt. Ik had op de een of andere manier ” multivariate ” gelezen in plaats van ” multinominaal. ” Als ik de kans krijg hier op terug te komen, zal ik proberen die details nader uit te werken. Gelukkig is dezelfde analysemethode effectief bij het vinden van de juiste interpretatie.
- @NRH Klaar. Ik verwelkom uw suggesties (of iemand anders ‘ s) over hoe u de interpretatie duidelijker kunt maken, of voor alternatieve interpretaties.
- bedankt voor het opschrijven van dit. Het volledige antwoord is een zeer goede referentie.
Antwoord
Probeer dit stukje uitleg te overwegen naast wat @whuber heeft al zo goed geschreven. Als exp (B) = 6, dan is de odds ratio geassocieerd met een toename van 1 op de voorspeller in kwestie 6. In een multinominale context bedoelen we met “odds ratio” de verhouding van deze twee grootheden: a) de odds ( niet waarschijnlijkheid, maar eerder p / [1-p]) dat een geval de waarde van de afhankelijke variabele neemt die in de betreffende uitvoertabel wordt aangegeven, en b) de kans dat een geval de referentiewaarde van de afhankelijke variabele neemt.
Het lijkt erop dat u de waarschijnlijkheid wilt kwantificeren – in plaats van de kansen – dat een geval in de ene of de andere categorie valt. Om dit te doen, zou u moeten weten met welke waarschijnlijkheden de casus “begon” – d.w.z. voordat we uitgingen van de toename van 1 op de voorspeller in kwestie. Kansenverhoudingen zullen van geval tot geval verschillen, terwijl de kansverhouding die verband houdt met een toename van 1 op de voorspeller hetzelfde blijft.
Opmerkingen
- ” Als exp (B) = 6, dan is de odds ratio die is gekoppeld aan een toename van 1 op de voorspeller in kwestie 6 “, als ik het juiste antwoord van @whuber ‘ lees, staat er dat de odds ratio zal worden vermenigvuldigd met 6 met een toename van 1 op de voorspeller. Dat wil zeggen, de nieuwe odds ratio zal niet 6 zijn. Of interpreteer ik dingen verkeerd?
- Waar je ” zegt, is de nieuwe odds ratio zal niet 6 zijn ” Ik zou zeggen ” de nieuwe odds zullen niet 6 zijn … maar de verhouding tussen de nieuwe en de oude odds zal 6 zijn. ”
- Ja, daar ben ik het mee eens! Maar ik dacht gewoon dat ” de odds ratio geassocieerd met een toename van 1 op de voorspeller in kwestie 6 is ” zegt dat niet echt . Maar misschien interpreteer ik het dan gewoon verkeerd. Bedankt voor de verduidelijking!
Antwoord
Ik was ook op zoek naar hetzelfde antwoord, maar het bovenstaande was niet bevredigend voor mij. Het leek te ingewikkeld voor wat het werkelijk is. Dus ik zal mijn interpretatie geven, corrigeer me als ik het mis heb.
Lees echter tot het einde, want het is belangrijk.
Allereerst de waarden B en Exp ( B) zijn degene die u zoekt. Als de B negatief is, zal uw Exp (B) lager zijn dan één, wat betekent dat de kansen afnemen. Indien hoger, zal de Exp (B) hoger zijn dan 1, wat betekent dat de kansen toenemen. Omdat je vermenigvuldigt met de factor Exp (B).
Helaas ben je er nog niet. Omdat in een multinominale regressie uw afhankelijke variabele meerdere categorieën heeft, noemen we deze categorieën D1, D2 en D3. Waarvan uw laatste de referentiecategorie is. En laten we aannemen dat uw eerste onafhankelijke variabele geslacht is (mannen versus vrouwen).
Laten we zeggen dat de output voor D1 -> mannen exp (B) = 1,21 is, dit betekent dat voor mannen de kans met een factor 1,21 toeneemt om in de categorie D1 te zitten in plaats van D3 (referentiecategorie) vergeleken met vrouwen (referentiecategorie).
Dus je vergelijkt altijd met je referentiecategorie van de afhankelijke maar ook onafhankelijke variabelen. Dit is niet waar als je een covariabele variabele hebt. In dat geval zou het betekenen; een toename van één eenheid in X verhoogt de kans met een factor 1,21 om in categorie D1 te vallen in plaats van D3.
Voor degenen met een rangschikkingsafhankelijke variabele:
Als je een rangtelwoord hebt afhankelijke variabele en heeft geen ordinale regressie uitgevoerd vanwege bijvoorbeeld de aanname van proportionele odds. Onthoud uw hoogste categorie is de referentiecategorie. Uw resultaat zoals hierboven is geldig om te rapporteren. Maar onthoud dat een toename van de kansen dan in feite een toename van de kans betekent om in de lagere categorie te vallen in plaats van in de hogere!Maar dat is alleen als je een ordinale afhankelijke variabele hebt.
Als je de toename in percentage wilt weten, neem dan een fictief odds-getal, laten we zeggen 100 en vermenigvuldig dit met 1,21, wat is 121? In vergelijking met 100, hoeveel is het procentueel veranderd?
Antwoord
Stel dat exp (b) in een mlogit 1.04 is. als je een getal vermenigvuldigt met 1,04, dan wordt het verhoogd met 4%. Dat is het relatieve risico om in categorie a te zitten in plaats van b. Ik vermoed dat een deel van de verwarring hier mogelijk te maken heeft met 4% (multiplicatieve betekenis) en 4 procentpunten (additieve betekenis). De% -interpretatie is correct als we het hebben over een procentuele verandering en niet over een procentpuntverandering. (Dat laatste zou sowieso niet kloppen, aangezien relatieve risicos niet in percentages worden uitgedrukt.)