Ez kissé kezdő kérdés, de hogyan értelmezzük a 6.012 exp (B) eredményét egy multinomiális logisztikai regressziós modellben?

1) 6.012-1.0 = 5.012 = 5012% -kal nő a kockázat?

vagy

2) 6.012 / ( 1 + 6,012) = 0,857 = 85,7% -os kockázatnövekedés?

Abban az esetben, ha mindkét alternatíva hibás, kérem, valaki említse meg a helyes utat?

Sok forrást kerestem az interneten, és Eljutok ehhez a két alternatívához, és nem vagyok teljesen biztos abban, hogy melyik a helyes.

Válasz

Ehhez egy míg eljutni, de összefoglalva: a B-nek megfelelő változó egy egységnyi változása megsokszorozza az eredmény relatív kockázatát (az alapkimenetellel összehasonlítva) 6.012-vel.

Ezt kifejezhetjük a relatív kockázat “5012% -os” növekedéseként, de ez zavaró és kedvelt általában félrevezető módon, mert azt sugallja, hogy additív módon kell gondolkodnunk a változásokon, holott a többnemzetiségű logisztikai modell erőteljesen szorgalmazza a multiplikatív gondolkodást. A “relatív” módosító elengedhetetlen, mert egy változó változása egyidejűleg megváltoztatja az összes kimenet előrejelzett valószínűségét, nemcsak a kérdésesét, ezért össze kell hasonlítanunk a valószínűségeket ( arányok, és nem különbségek).

A válasz további része kifejti az ezen állítások helyes értelmezéséhez szükséges terminológiát és intuíciót.

Háttér

Kezdjük a szokásos logisztikai regresszióval, mielőtt továbblépnénk a multinomiális esetre.

A függő (bináris) $ Y $ és a $ X_i $ független változók esetében a modell

$ $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$

ekvivalensen, feltételezve $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,

$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$

(Ez egyszerűen meghatározza a $ \ rho $ értéket, amely a odds a $ X_i $ függvényében.)

Az általános jellegű veszteség nélkül x a $ X_i $ értéket úgy, hogy a $ X_m $ a változó, az $ \ beta_m $ pedig a “B” legyen a kérdésben (tehát $ \ exp (\ beta_m) = 6.012 $). A $ X_i, 1 \ le i \ lt m $ értékeinek javítása, és a $ X_m $ változtatása kis összeggel $ \ delta $ hozamokhoz jönnek

$$ \ log (\ rho (\ cdots, X_m + \ delta)) – \ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$

Így a $ \ beta_m $ a naplószorzók marginális változása a $ X_m $.

A $ \ exp (\ beta_m) $ helyreállításához nyilvánvalóan be kell állítanunk a $ \ delta = 1 $ értéket, és a bal oldalt meg kell hatványozni:

$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ 1-szeres) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1)) – \ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$

Ez a $ \ exp (\ beta_m) $ értéket jeleníti meg a esélyhányad ként, ami egy egységnyi növekedést jelent a $ X_m $ értékben. Intuíció kialakításához, hogy ez mit jelenthet, táblázzon be néhány értéket a kezdő esélyek tartományára, erősen kerekítve, hogy kiemelje a mintákat:

Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1. 

For igazán kicsi esélyek, amelyek nagyon kicsi valószínűségeknek felelnek meg, az egy egységnyi $ X_m $ növekedés hatása az esélyek vagy a valószínűség szorzása körülbelül 6.012-re. A szorzótényező csökken az esélyek (és a valószínűség) növekedésével, és lényegében eltűnt, ha az esély meghaladja a 10-et (a valószínűség meghaladja a 0,9-et).

A valószínűség arányának változása

additív változásként nincs sok különbség 0,0001 és 0,0006 valószínűség között (ez csak 0,05%), és 0,99 és 1 között sincs sok különbség (csak 1%). A legnagyobb additív hatás akkor következik be, ha az esély $ 1 / \ sqrt {6.012} \ sim 0.408 $ egyenlő, ahol a valószínűség 29% -ról 71% -ra változik: + 42% -os változás.

A valószínűség additív változása

Tehát azt látjuk, hogy ha a “kockázatot” odds arányként fejezzük ki, akkor a $ \ beta_m $ = “B” értelmezése egyszerű – az esélyhányados megegyezik $ \ beta_m $ -val, ha egységnövekedést mutatnak a $ X_m $ -ban – de ha valamilyen más módon fejezzük ki a kockázatot, például a valószínűség változásában, akkor az értelmezés gondosan megköveteli a kezdő valószínűség megadását.

Multinomiális logisztikai regresszió

(Ezt későbbi szerkesztésként adtuk hozzá.)

Miután felismerte a log odds kifejezés esélyeinek kifejezésére vonatkozó értékét, “s továbbhalad a multinomiális esetre. Most a függő $ Y $ változó megegyezhet a $ k \ ge 2 $ kategóriák egyikével, indexelve: $ i = 1, 2, \ ldots, k $. A relatív annak valószínűsége, hogy a $ i $ kategóriába tartozik,

$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ jobbra) $ $

a $ \ beta_j ^ {(i)} $ paraméterekkel megadandó, és $ Y_i $ értéket ír a $ \ Pr [Y = \ text {category} i] $ értékre.Rövidítésként írjuk a jobb oldali kifejezést $ p_i (X, \ beta) $ formátumba, vagy ahol a $ X $ és $ \ beta $ egyértelmű a szövegkörnyezetből, egyszerűen $ p_i $. Normalizálás mindezek eléréséhez a relatív valószínűségek összege az egységhez

$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$

(A paraméterekben kétértelműség van: túl sok van belőlük. Hagyományosan az egyik az “alap” kategóriát választja az összehasonlításhoz, és minden együtthatóját nulla értékre kényszeríti. bár erre a béták egyedi becsléseinek jelentéséhez van szükség, az együtthatók értelmezéséhez nem szükséges. A szimmetria fenntartása – vagyis a kategóriák közötti mesterséges megkülönböztetés elkerülése érdekében – ne hajtson végre semmilyen ilyen korlátozást, hacsak nem muszáj.)

A modell értelmezésének egyik módja az, ha bármely kategóriára (mondjuk $ i $ kategóriára) kérjük a napló szorzók változásának marginális sebességét. bármelyik független változó (mondjuk $ X_j $). Azaz, ha kicsit megváltoztatjuk a $ X_j $ értéket, az megváltoztatja a $ Y_i $ napló esélyét. Érdekel a két változás összefüggése az állandósággal. A számítási láncszabály egy kis algebrával együtt elmondja, hogy ez a változás mértéke

$$ \ frac {\ részleges \ \ text {log odds} (Y_i)} {\ részleges \ X_j} = \ beta_j ^ {(i)} – \ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $

Ennek viszonylag egyszerű értelmezése van, mivel a $ X_j $ $ \ beta_j ^ {(i)} $ együtthatója a képletben annak esélyére, hogy $ Y $ a $ i $ kategóriába kerül, mínusz an ” beállítás.” A kiigazítás a $ X_j $ együtthatók valószínűséggel súlyozott átlaga az összes többi kategóriában . A súlyokat a $ X $ független változók aktuális értékeihez társított valószínűségek felhasználásával számítják ki. Így a naplók marginális változása nem feltétlenül állandó: az összes többi kategória valószínűségétől függ, nem csak a kérdéses kategória valószínűségétől ($ i $ kategória).

Amikor éppen vannak $ k = 2 $ kategória, ennek a szokásos logisztikai regresszióra kell redukálódnia. Valójában a valószínűségi súlyozás nem tesz semmit, és ($ i = 2 $ választása) egyszerűen megadja a különbséget $ \ beta_j ^ {(2)} – \ beta_j ^ {(1)} $. Ha a $ i $ kategóriát vesszük alapesetnek, akkor ez tovább csökken $ \ beta_j ^ {(2)} $ -ra, mert a $ \ beta_j ^ {(1)} = 0 $ -ra kényszerítjük. Így az új értelmezés általánosítja a régit.

A $ \ beta_j ^ {(i)} $ közvetlen értelmezéséhez ezt követően az előző képlet egyik oldalán elkülönítjük, ami a következőkhöz vezet:

A $ X_j $ együttható a (z) $ i $ kategóriában megegyezik a $ i $ kategória naplószorzóinak marginális változásával az $ X_j $, plusz az összes többi $ X_ {j “} $ együtthatóinak valószínűséggel súlyozott átlaga a $ i $ kategóriában.

Egy másik, bár kicsit kevésbé közvetlen értelmezést az ad, hogy (ideiglenesen) a $ i $ kategóriát állítja be alapesetként, ezáltal a $ \ beta_j ^ {(i)} = 0 $ értéket az összes független változóra $ X_j $:

A $ X_j $ változó alapesetének log szorzókban bekövetkező változásának határértéke negatív az összes tényező együtthatóinak valószínűséggel súlyozott átlagának negatívja. egyéb esetek.

Ezen értelmezések valójában általában a béták és a szoftveres kimenet valószínűségei, valamint az ábrán látható számítások elvégzése.

Végül a hatványozott együtthatók esetében vegye figyelembe, hogy a két eredmény közötti valószínűség aránya (néha $ i $ “relatív kockázatnak” nevezik) a $ i “$) értékre

$$ \ frac {Y_ {i}} {Y_ {i”}} = \ frac {p_ {i} (X, \ beta)} {p_ {i “} (X, \ beta)}. $$

Növeljük a $ X_j $ értéket egy egységgel $ X_j + 1 $ értékre. Ez megszorozza $ p_ {i} $ -ot $ \ exp (\ beta_j ^ {(i)}) $ -val és $ p_ {i “} $ -t $ \ exp (\ beta_j ^ {(i”)}) $ -val, ahonnan a a relatív kockázatot megszorozzuk $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i “)}) $ = $ \ exp (\ beta_j ^ {(i)} – \ beta_j ^ {(i “)}) $. Ha a $ i “$ kategóriát vesszük alapesetnek, ezt $ \ exp (\ beta_j ^ {(i)}) $ értékre csökkentjük, ami arra késztet bennünket, hogy ezt mondjuk:

A hatványozott együttható $ \ exp (\ beta_j ^ {(i)}) $ az az összeg, amellyel a relatív kockázat $ \ Pr [Y = \ text {category} i] / \ Pr [Y = \ text { alap kategória}] $ megszorzódik, ha a $ X_j $ változót egy egységgel megnöveljük.

Megjegyzések

  • Remek magyarázatok, de az OP kifejezetten a multinomiális modellt kérte. Lehet, hogy többet olvasok a kérdésben, mint amennyit az OP szánt, és a bináris eset magyarázata megfelelő lehet, de szeretem látni, hogy ez a válasz az általános többnemzeti esetre is kiterjed.Annak ellenére, hogy a paraméterezés hasonló, a ” log-odds ” általában egy (önkényes) referencia-kategória vonatkozásában vannak, és valójában nem log-szorzók, és az $ X_i $ egységbeli változása ezeknek a ” log-odds ” változásoknak a kombinált változását eredményezi, és a növekvő ” log-odds ” nem jelenti és nem valószínűsíti.
  • @NRH Ez ‘ s kiváló pont. Valahogy olvastam ” többváltozós ” -t a ” többnemű helyett. ” Ha alkalmam nyílik erre visszatérni, megpróbálom részletezni ezeket a részleteket. Szerencsére ugyanaz az elemzési mód hatékony a helyes értelmezés megtalálásában.
  • @NRH Done. Örömmel fogadom javaslatait (vagy bárki más ‘ s) az értelmezés világosabbá tételével vagy az alternatív értelmezésekkel kapcsolatban.
  • köszönöm, hogy ezt leírtátok. A teljes válasz nagyon jó referencia.

Válasz

Próbálja meg figyelembe venni ezt a kis magyarázatot a @whuber már olyan jól írt. Ha exp (B) = 6, akkor a szóban forgó prediktor 1-es növekedésével járó szorzó arány 6. A többszörös kontextusban az “odds ratio” alatt e két mennyiség arányát értjük: a) az odds ( nem valószínűség, hanem inkább p / [1-p]), ha a kérdéses kimeneti táblázatban feltüntetett függő változó értékét veszik fel, és b) a függő változó referenciaértékét felvevő eset esélyei. p>

Úgy tűnik, hogy az esetek egyik vagy másik kategóriába esésének valószínűségét kívánja számszerűsíteni. Ehhez tudnia kell, hogy az eset milyen valószínűségekkel “kezdődött” – vagyis mielőtt feltételeznénk az 1-es növekedését a szóban forgó prediktoron. A valószínűségek aránya esetenként változik, míg a prediktor 1-es növekedésével járó esélyek aránya ugyanaz marad.

Megjegyzések

  • ” Ha exp (B) = 6, akkor a szóban forgó prediktor 1-es növekedésével járó szorzó arány 6 “, Ha helyesen olvasom a @whuber ‘ válaszokat, akkor azt mondja, hogy az esély szorzószámát 6-ra szorozzuk, 1-gyel növelve a prediktort. Vagyis az új esélyhányados nem lesz 6. Vagy rosszul értelmezem a dolgokat?
  • Ahol azt mondja, hogy ” az új esély arány nem lesz 6 ” Azt mondanám, hogy ” az új esélyek nem lesznek 6 … de az új és a régi esélyek aránya 6 lesz. ”
  • Igen, ezzel egyetértek! De csak azt gondoltam, hogy ” az esélynövekedés, amely az adott előrejelző 1-es növekedésével jár, 6 ” nem igazán mondja ezt . De talán csak akkor értelmezem rosszul. Köszönöm a pontosítást!

Válasz

Én is ugyanazt a választ kerestem, de a fentiek egyszer nem kielégítő számomra. Úgy tűnt, összetett, hogy mi is valójában. Tehát megadom az értelmezésemet, kérem, javítson ki, ha tévedek.

Olvassa el azonban a végéig, mivel ez fontos. B) az egyszer keresett. Ha a B negatív, akkor az Exp (B) alacsonyabb lesz, mint egy, ami az esély csökkenését jelenti. Ha ennél magasabb, akkor az Exp (B) értéke nagyobb lesz, mint 1, vagyis az esélyek növekednek. Mivel szorozod az Exp (B) faktorral.

Sajnos még nem vagy ott. Mivel egy multinominális regresszióban a függő változónak több kategóriája van, hívjuk ezeket a kategóriákat D1, D2 és D3 kategóriáknak. Ebből az utolsó az ön referencia kategóriája. És tegyük fel, hogy az első független változó a nem (hímek és nők).

Mondjuk azt, hogy a D1 -> hímek kimenete exp (B) = 1,21, ez azt jelenti, hogy a férfiak esetében az esély 1,21-szeresére nő, ha D1 kategóriába tartoznak, nem pedig D3 kategóriába (referencia kategória) a nőkhöz képest (referencia kategória).

Tehát mindig összehasonlítja a függő, de független változók referenciakategóriájával is. Ez nem igaz, ha kovariáns változója van. Ebben az esetben ez azt jelentené; az X egy egységnyi növekedése 1,21-szeresére növeli az esélyeket, hogy D1 kategóriába tartozol, nem pedig D3 kategóriába.

Azok számára, akik sorszámfüggő változóval rendelkeznek:

Ha sorszámod van függő változó, és nem végzett soros regressziót, például az arányos esélyek feltételezése miatt. kategória a referencia kategória. A fenti eredményei érvényesek a jelentésre. De ne felejtsük el, hogy az esélyek növekedése a ténylegesnél azt jelenti, hogy nő az esély az alacsonyabb kategóriába, mint a magasabb kategóriába kerülésre!De ez csak akkor van, ha van egy sorszámfüggő változó.

Ha tudni szeretné a százalékos növekedést, vegyen be egy fiktív odds-számot, mondjuk 100-at és szorozzuk meg 1,21-gyel, ami 121? 100-hoz képest mennyire változott százalékosan?

Válasz

Mondjuk, hogy az ml (g) exp (b) értéke 1,04. ha egy számot megszoroz 1,04-gyel, akkor az 4% -kal növekszik. Ez a relatív kockázat, ha a b kategóriába kerülünk. Gyanítom, hogy az itteni zavartság egy részének 4% -kal (multiplikatív jelentés) és 4 százalék ponttal (additív jelentés) lehet köze. A% értelmezés akkor helyes, ha százalékos változásról beszélünk, nem pedig százalékpontos változásról. (Ez utóbbinak egyébként sem lenne értelme, mivel a relatív kockázatokat% -ban nem fejezik ki.)

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük