Tämä on jonkin verran aloittelijan kysymys, mutta miten tulkitaan exp (B) -tulos arvosta 6.012 monikokoisessa logistisessa regressiomallissa?
1) Onko riski 6.012-1.0 = 5.012 = 5012% suurempi?
vai
2) 6.012 / ( 1 + 6.012) = 0.857 = 85.7% riskin kasvu?
Jos molemmat vaihtoehdot ovat virheellisiä, voisiko joku mainita oikean tavan?
Olen etsinyt monia Internet-lähteitä ja Pääsen näihin kahteen vaihtoehtoon, enkä ole täysin varma, mikä niistä on oikea.
Vastaa
Se vie meille kun taas päästäkseen sinne, mutta yhteenvetona, B: tä vastaavan muuttujan yhden yksikön muutos kertoo tuloksen suhteellisen riskin (perustulokseen verrattuna) 6,012: lla.
Voidaan ilmaista tämä suhteellisen riskin ”5012%” kasvuna, mutta se ”sekoittaa” yleensä harhaanjohtava tapa tehdä se, koska se ehdottaa, että meidän pitäisi ajatella muutoksia additiivisesti, vaikka itse asiassa monikokoinen logistinen malli rohkaisee meitä voimakkaasti ajattelemaan moninkertaisesti. ”Suhteellinen” -muunnos on välttämätön, koska muuttujan muutos muuttaa samanaikaisesti kaikkien tulosten ennustettuja todennäköisyyksiä, ei vain kyseessä olevaa, joten meidän on vertailtava todennäköisyyksiä (
Tämän vastauksen loppuosa kehittää terminologiaa ja intuitiota, jota tarvitaan näiden lauseiden oikeaan tulkintaan.
Tausta
Aloitetaan s tavallisella logistisella regressiolla, ennen kuin siirrytään monikokoiseen tapaukseen.
Riippuvalle (binaariselle) muuttujalle $ Y $ ja itsenäisille muuttujille $ X_i $ malli on
$ $ \ Pr [Y = 1] = \ frac {\ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)} {1+ \ exp (\ beta_1 X_1 + \ cdots + \ beta_m X_m)}; $$
vastaavasti olettaen $ 0 \ ne \ Pr [Y = 1] \ ne 1 $,
$$ \ log (\ rho (X_1, \ cdots, X_m)) = \ log \ frac {\ Pr [Y = 1]} {\ Pr [Y = 0]} = \ beta_1 X_1 + \ cdots + \ beta_m X_m. $$
(Tämä yksinkertaisesti määrittää $ \ rho $, joka on kertoimet funktiona $ X_i $.)
Menettämättä yleisyyttä, inde x $ X_i $ niin, että $ X_m $ on muuttuja ja $ \ beta_m $ on ”B” kysymyksessä (niin että $ \ exp (\ beta_m) = 6.012 $). Korjaamalla $ X_i, 1 \ le i \ lt m $ arvot ja vaihtelemalla $ X_m $ pienellä määrällä $ \ delta $ tuottaa
$$ \ log (\ rho (\ cdots, X_m + \ delta)) – \ log (\ rho (\ cdots, X_m)) = \ beta_m \ delta. $$
Täten $ \ beta_m $ on marginaalinen muutos lokikertoimissa $ X_m $.
Jos haluat palauttaa $ \ exp (\ beta_m) $, meidän on ilmeisesti asetettava $ \ delta = 1 $ ja eksponentoitava vasen puoli:
$$ \ eqalign {\ exp (\ beta_m) & = \ exp (\ beta_m \ kertaa 1) \\ & = \ exp (\ log (\ rho (\ cdots, X_m + 1)) – \ log (\ rho (\ cdots, X_m))) \\ & = \ frac {\ rho ( \ cdots, X_m + 1)} {\ rho (\ cdots, X_m)}. } $$
Tässä $ $ exp (\ beta_m) $ näkyy kerroinsuhteena yhden yksikön lisäyksessä $ X_m $. Jos haluat kehittää intuition siitä, mitä tämä voi tarkoittaa, tauluta joitain arvoja aloituskertoimien alueelle pyöristämällä voimakkaasti, jotta kuviot erottuvat:
Starting odds Ending odds Starting Pr[Y=1] Ending Pr[Y=1] 0.0001 0.0006 0.0001 0.0006 0.001 0.006 0.001 0.006 0.01 0.06 0.01 0.057 0.1 0.6 0.091 0.38 1. 6. 0.5 0.9 10. 60. 0.91 1. 100. 600. 0.99 1.
For todella pienet kertoimet, jotka vastaavat todella pieniä todennäköisyyksiä, $ X_m $: n yhden yksikön lisäyksen vaikutus on kerrottava kertoimet tai todennäköisyys noin 6.012. Kerroin pienenee kertoimien (ja todennäköisyyden) kasvaessa, ja on olennaisesti hävinnyt, kun kerroin ylittää 10 (todennäköisyys ylittää 0,9).
lisäaineen muutoksena ei ole paljon eroa todennäköisyyden välillä 0,0001 ja 0,0006 (se on vain 0,05%), eikä 0,99: n ja 1: n välillä ole suurta eroa (vain 1%). Suurin lisävaikutus tapahtuu, kun kertoimet ovat yhtä suuret kuin $ 1 / \ sqrt {6.012} \ sim 0,408 $, missä todennäköisyys muuttuu 29%: sta 71%: iin: muutos + 42%.
Näemme siis, että jos ilmaisemme ”riski” kertoimena, $ \ beta_m $ = ”B” on yksinkertainen tulkinta– kertoimien suhde on $ \ beta_m $, kun yksikkökerroin on $ X_m $ – mutta kun ilmaisemme riskiä jollakin muulla tavalla, kuten todennäköisyyksien muutoksena, tulkinta vaatii huolellista alkutodennäköisyyden määrittämistä.
Monikokoinen logistinen regressio
(Tämä on lisätty myöhempänä muokkauksena.)
Kun olet tunnistanut log-kertoimien käytön mahdollisuuksien ilmaisemisen arvon, anna siirtyvät monikokoiseen tapaukseen. Nyt riippuva muuttuja $ Y $ voi olla yhtä luokkaa $ k \ ge 2 $, indeksoitu $ i = 1, 2, \ ldots, k $. suhteellinen todennäköisyys, että se kuuluu luokkaan $ i $, on
$$ \ Pr [Y_i] \ sim \ exp \ left (\ beta_1 ^ {(i)} X_1 + \ cdots + \ beta_m ^ { (i)} X_m \ oikea) $ $
parametreilla $ \ beta_j ^ {(i)} $ määritetään ja kirjoitetaan $ Y_i $ arvolle $ \ Pr [Y = \ text {category} i] $.Kirjoitetaan lyhenteenä oikeanpuoleinen lauseke muodossa $ p_i (X, \ beta) $ tai jos $ X $ ja $ \ beta $ ovat selviä kontekstista, yksinkertaisesti $ p_i $. Normalisoimalla kaikki nämä tehdään suhteelliset todennäköisyydet summa yhtenäisyydeksi antaa
$$ \ Pr [Y_i] = \ frac {p_i (X, \ beta)} {p_1 (X, \ beta) + \ cdots + p_m (X, \ beta )}. $$
(Parametreissa on epäselvyyksiä: niitä on liikaa. Perinteisesti valitaan vertailuksi ”perus” -luokka ja pakotetaan kaikki sen kertoimet nollaksi. Kuitenkin, vaikka tämä on välttämätöntä ainutlaatuisten beeta-estimaattien raportoimiseksi, sitä ei tarvita tulkita kertoimia. Symmetrian säilyttämiseksi – eli keinotekoisten erojen välttämiseksi luokkien välillä – olkoon ”s” älä pakota mitään tällaisia rajoituksia, ellei meidän tarvitse.)
Yksi tapa tulkita tätä mallia on pyytää log-kertoimien marginaalimuutosnopeutta mille tahansa luokalle (esimerkiksi kategorialle $ i $) suhteessa mikä tahansa riippumattomista muuttujista (esimerkiksi $ X_j $). Eli kun muutamme $ X_j $ vähän, se aiheuttaa muutoksen $ Y_i $ -lokikertoimissa. Olemme kiinnostuneita näiden kahden muutoksen suhteellisuudesta. Laskennan ketjusääntö yhdessä pienen algebran kanssa kertoo meille, että muutosnopeus on
$$ \ frac {\ osittainen \ \ teksti {lokikertoimet} (Y_i)} {\ osittainen X_j} = \ beta_j ^ {(i)} – \ frac {\ beta_j ^ {(1)} p_1 + \ cdots + \ beta_j ^ {(i-1)} p_ {i-1} + \ beta_j ^ {(i + 1)} p_ {i + 1} + \ cdots + \ beta_j ^ {(k)} p_k} {p_1 + \ cdots + p_ {i-1} + p_ {i + 1} + \ cdots + p_k}. $ $
Tällä on suhteellisen yksinkertainen tulkinta, koska kaavan $ X_j $ kerroin $ \ beta_j ^ {(i)} $ on mahdollisuus, että $ Y $ kuuluu luokkaan $ i $ miinus an ” säätö.” Oikaisu on $ X_j $ -kertoimien todennäköisyyspainotettu keskiarvo kaikissa muissa luokissa . Painot lasketaan käyttämällä riippumattomien muuttujien $ X $ nykyisiin arvoihin liittyviä todennäköisyyksiä. Lokien marginaalimuutos ei siis ole välttämättä vakio: se riippuu kaikkien muiden luokkien todennäköisyydestä, ei vain kyseisen luokan (luokka $ i $) todennäköisyydestä.
Kun on vain $ k = 2 $ -luokkaa, tämän pitäisi supistua tavalliseen logistiseen regressioon. Todennäköisyyspainotus ei todellakaan tee mitään ja (valitset $ i = 2 $) antaa yksinkertaisesti eron $ \ beta_j ^ {(2)} – \ beta_j ^ {(1)} $. Kun luokka $ i $ on perustapaus, tämä pienenee edelleen arvoon $ \ beta_j ^ {(2)} $, koska pakotamme $ \ beta_j ^ {(1)} = 0 $. Siten uusi tulkinta yleistää vanhan.
Jos haluat tulkita $ \ beta_j ^ {(i)} $ suoraan, eristämme sen sitten edellisen kaavan toiselle puolelle, mikä johtaa:
Luokan $ i $ kerroin $ X_j $ on yhtä suuri kuin luokan $ i $ lokikertoimien marginaalimuutos muuttujan $ X_j $,
plus kaikkien muiden $ X_ {j ”} $ -kerrointen todennäköisyyspainotettu keskiarvo luokassa $ i $.
Toinen tulkinta, vaikkakin hieman vähemmän suora, saadaan (väliaikaisesti) asettamalla luokka $ i $ perustapaukseksi, jolloin $ \ beta_j ^ {(i)} = 0 $ kaikille itsenäisille muuttujille $ X_j $:
Muuttujan $ X_j $ peruskohteen lokikertoimien marginaali muutosnopeus on negatiivinen sen kertoimien todennäköisyyspainotetusta keskiarvosta kaikille muut tapaukset.
Näiden tulkintojen käyttäminen edellyttää tyypillisesti beetat ja todennäköisyydet ohjelmistolähdöstä ja laskelmien suorittamisesta kuvan mukaisesti.
Lopuksi, eksponentoitujen kertoimien osalta huomaa, että todennäköisyyksien suhde kahden lopputuloksen välillä (toisinaan kutsutaan $ i $: n ”suhteelliseksi riskiksi” verrattuna arvoon $ i ”$) on
$$ \ frac {Y_ {i}} {Y_ {i”}} = \ frac {p_ {i} (X, \ beta)} {p_ {i ”} (X, \ beta)}. $$
Lisätkäämme $ X_j $ yhdellä yksiköllä arvoon $ X_j + 1 $. Tämä kertoo $ p_ {i} $ luvulla $ \ exp (\ beta_j ^ {(i)}) $ ja $ p_ {i ”} $ luvulla $ \ exp (\ beta_j ^ {(i”)}) $, mistä suhteellinen riski kerrotaan luvulla $ \ exp (\ beta_j ^ {(i)}) / \ exp (\ beta_j ^ {(i ”)}) $ = $ \ exp (\ beta_j ^ {(i)} – \ beta_j ^ {(i ”)}) $. Luokan $ i ”$ ottaminen perustapaukseksi vähentää tämän arvoksi $ \ exp (\ beta_j ^ {(i)}) $, mikä saa meidät sanomaan:
Eksponenttikerroin $ \ exp (\ beta_j ^ {(i)}) $ on summa, jolla suhteellinen riski $ \ Pr [Y = \ text {category} i] / \ Pr [Y = \ text { perusluokka}] $ kerrotaan, kun muuttujaa $ X_j $ korotetaan yhdellä yksiköllä.
Kommentit
- Hyviä selityksiä, mutta OP pyysi nimenomaisesti multinomial -mallia. Saatan lukea kysymykseen enemmän kuin OP tarkoitti, ja binaaritapauksen selitys voi olla riittävä, mutta haluaisin rakastan nähdä tämän vastauksen kattavan myös yleisen monikokoisen tapauksen.Vaikka parametrisointi on samanlainen, ” log-kertoimet ” ovat yleensä suhteessa (mielivaltaiseen) viiteluokkaan, ja ne eivät ole oikeastaan log-kertoimia, ja yksikön muutos $ X_i $: ssa johtaa näiden ” log-kertoimien ” yhdistettyyn muutokseen, ja kasvava ” log-kerroin ” ei tarkoita ja lisää todennäköisyyttä.
- @NRH Että ’ on erinomainen asia. Olin jotenkin lukenut ” monimuuttujan ” ” -monikuvan sijaan. ” Jos saan mahdollisuuden palata tähän, yritän täsmentää nämä yksityiskohdat. Onneksi sama analyysitapa on tehokas oikean tulkinnan löytämisessä.
- @NRH Valmis. Olen tyytyväinen ehdotuksiisi (tai kenenkään muun ’ s) tulkintasi selkeyttämiseen tai vaihtoehtoisiin tulkintoihin.
- kiitos tämän kirjoittamisesta. Täydellinen vastaus on erittäin hyvä viite.
Vastaa
Yritä harkita tätä selitysosaa sen lisäksi, mitä @whuber on jo kirjoittanut niin hyvin. Jos exp (B) = 6, niin kertoimen suhde, joka liittyy 1: n nousuun kyseisessä ennustimessa, on 6. Monikokoisessa kontekstissa ”kerroinsuhteella” tarkoitamme näiden kahden suureen suhdetta: a) kertoimet ( ei todennäköisyyttä vaan pikemminkin p / [1-p]) tapauksesta, jossa otetaan kyseessä olevassa lähtötaulukossa ilmoitetun riippuvan muuttujan arvo, ja b) tapauksen kertoimet, jotka ottavat riippuvan muuttujan viitearvon. p>
Näytät siltä, että etsit kvantifioida todennäköisyyttä – eikä kertoimia -, että tapaus kuuluu yhteen tai toiseen luokkaan. Tätä varten sinun on tiedettävä, millä todennäköisyydellä tapaus ”alkoi” – ts. Ennen kuin oletimme, että kyseessä olevan ennustajan kasvu on 1. Todennäköisyyksien suhteet vaihtelevat tapauskohtaisesti, kun taas ennustimen 1: n korotukseen liittyvien kertoimien suhde pysyy samana.
Kommentit
- ” Jos exp (B) = 6, kertoimen suhde, joka liittyy 1: n nousuun kyseisessä ennustimessa, on 6 ”, jos luen @whuber ’ -vastauksen oikein, se kertoo, että kertoimien suhde kerrotaan 6: lla ja ennustajalla on 1: n kasvu. Eli uusi kerroinsuhde ei ole 6. Vai aionko ajatella asioita väärin?
- Missä sanot ” uusi kerroin suhde ei ole 6 ” sanoisin, että ” uudet kertoimet eivät ole 6 … mutta uuden ja vanhan kertoimen suhde on 6. ”
- Kyllä, olen samaa mieltä! Ajattelin vain, että ” kertoimen suhde, joka liittyy 1: n nousuun kyseisessä ennustimessa, on 6 ” ei todellakaan sano sitä . Mutta ehkä tulkitsen sitä vain väärin silloin. Kiitos selvennyksestä!
Vastaus
Etsin myös samaa vastausta, mutta yllä mainitut olivat ei tyydytä minua. Se näytti monimutkaiselta, mitä se todella on. Joten annan tulkintani, korjaa minut, jos olen väärässä.
Lue kuitenkin loppuun asti, koska se on tärkeää.
Ensinnäkin arvot B ja Exp ( B) ovat kerran etsimäsi. Jos B on negatiivinen, Exp (B) on pienempi kuin yksi, mikä tarkoittaa kertoimien laskua. Jos korkeampi, Exp (B) on suurempi kuin 1, mikä tarkoittaa kertoimien kasvua. Koska kerrot kertoimella Exp (B).
Valitettavasti et ole vielä siellä. Koska moninimellisessä regressiossa riippuvalla muuttujalla on useita luokkia, kutsukaa näitä luokkia D1, D2 ja D3. Joista viimeisin on viiteluokka. Oletetaan, että ensimmäinen itsenäinen muuttujasi on sukupuoli (miehet vs. naiset).
Sanotaan, että D1 -> urosten tulos on exp (B) = 1,21, mikä tarkoittaa, että miehille kertoimet kasvavat kertoimella 1,21, jos he ovat luokassa D1 eikä D3 (viiteluokka) verrattuna naisiin (vertailuluokka).
Joten verrataan aina riippuvien mutta myös itsenäisten muuttujien vertailuluokkaan. Tämä ei ole totta, jos sinulla on kovariaattimuuttuja. Siinä tapauksessa se tarkoittaisi; X: n yhden yksikön lisäys kasvattaa kertoimia kertoimella 1,21 kuulumisesta D1-luokkaan D3: n sijasta.
Niille, joilla on järjestyskohtainen muuttuja:
Jos sinulla on järjestysnumero riippuvainen muuttuja, eikä tehnyt järjestysregressiota esimerkiksi suhteellisten kertoimien oletuksen vuoksi. luokka on viiteluokka. Yllä oleva tulos on kelvollinen ilmoittamaan. Mutta pidä mielessä, että kertoimien kasvu kuin itse asiassa tarkoittaa todennäköisyyksien kasvua kuulumisesta alempaan luokkaan eikä korkeammalle!Mutta se on vain, jos sinulla on järjestysriippuva muuttuja.
Jos haluat tietää prosentuaalisen kasvun, ota hyvin fiktiivinen kerroin-luku, sanokaamme ”s” ja kerro se 1,21: llä, joka on 121? Verrattuna 100: een, kuinka paljon se muuttui prosentuaalisesti?
Vastaus
Sano, että millogitissä exp (b) on 1,04. jos kerrot luvun 1,04, se kasvaa 4%. Tämä on suhteellinen riski olla kategoriassa a eikä b. Epäilen, että osa hämmennystä saattaa liittyä 4 prosenttiin (kertova merkitys) ja 4 prosenttiyksikköön (additiivinen merkitys). % Tulkinta on oikea, jos puhumme prosenttimuutoksesta eikä prosenttiyksikön muutoksesta. (Jälkimmäisellä ei olisi mitään järkeä, koska suhteellisia riskejä ei ilmaista prosentteina.)