I logistisk regression betyder ett oddsförhållande 2 att händelsen är två gånger mer sannolikt med tanke på en enhetsökning i prediktorn. I Cox-regression betyder ett riskförhållande på 2 att händelsen inträffar dubbelt så ofta vid varje tidpunkt med tanke på en enhetsökning i prediktorn. Är dessa inte praktiskt taget samma sak?
Vad är då fördelen med att göra en Cox-regression och få riskförhållanden om vi kan få samma information funktionellt från oddsförhållandena för logistisk regression?
Svar
ett oddsförhållande på 2 betyder att händelsen är två gånger mer sannolikt med en en enhets ökning av prediktorn
Det betyder att oddsen skulle fördubblas, vilket inte är detsamma som sannolikhetsdubblingen.
I Cox-regression betyder ett riskförhållande på 2 att händelsen inträffar dubbelt så ofta vid varje tidpunkt med tanke på en enhetsökning i prediktorn.
Bortsett från lite handsvängning, ja – förekomsthastigheten fördubblas. Det är som en skalad omedelbar sannolikhet.
Är det inte praktiskt taget samma sak?
De är nästan samma sak när dubbla händelsens odds är nästan samma som att fördubbla risken för händelsen. De liknar inte automatiskt, men under vissa (ganska vanliga) omständigheter kan de överensstämma mycket nära.
Du kanske vill överväga skillnaden mellan odds och sannolikhet mer noggrant.
Se till exempel den första meningen här , vilket gör det klart att odds är förhållandet mellan en sannolikhet och dess komplement. Så till exempel att öka oddsen (i favorit) från 1 till 2 är samma som sannolikheten ökar från $ \ frac {1} {2} $ till $ \ frac {2} {3} $ . Oddsen ökar snabbare än sannolikheten ökar. För mycket små sannolikheter är oddsen i favör och sannolikheten mycket lika, medan oddsen mot blir alltmer lika (i den meningen att förhållandet kommer att gå till 1) ömsesidiga sannolikheter eftersom sannolikheten blir liten. Ett oddsförhållande är helt enkelt förhållandet mellan två uppsättningar odds. Att öka oddsförhållandet medan du håller en basodds konstant motsvarar att öka den andra odds, men kanske eller inte kan likna den relativa förändringen i sannolikhet.
Du kanske också vill fundera över skillnaden mellan risk och sannolikhet (se min tidigare diskussion där jag nämner handvinkning; nu glänsar vi inte över skillnaden. Om till exempel en sannolikhet är 0,6 kan du inte dubbla den – men en omedelbar fara på 0,6 kan fördubblas till 1,2. De ”är inte samma sak, på samma sätt som sannolikhetstätheten inte är sannolikhet.
Kommentarer
- +1 Kommenterar bara för att nämna att vissa former av analys av händelseshistorik använder en annan definition av riskfunktionen (t.ex. $ h (t) $ i diskreta händelseshistorikmodeller är sannolikheten för att en händelse inträffar vid tiden $ t $ förutsatt att den inte har inträffat före den tiden , och som sådan $ 2 \ gånger 0,6 $ vore ingen mening i sådana modeller).
- Tack, att ' är definitivt relevant. Detta är kopplat till det faktum att en diskret pmf kan ' överallt överstiger 1 medan en densitet definitivt kan.
Svar
Detta är en bra fråga. Men det du verkligen frågar borde inte vara hur statistiken tolkas utan vilka antaganden som ligger till grund för var och en av dina respektive modeller (fara eller logistik). En logistisk modell är en statisk modell som effektivt förutspår li risken för att en händelse inträffar vid en viss tidpunkt ges observerbar information. En riskmodell eller Cox-modell är dock en varaktighetsmodell som modellerar överlevnadsgraden över tid. Du kan ställa en fråga som ”vad är sannolikheten för att en cigarettanvändare överlever till 75 års ålder i förhållande till den som en icke-användare med din logistiska regression” (med tanke på att du har information om dödlighet för en kohort upp till 75 år) . Men om du istället vill dra nytta av tidsdimensionen för dina data kommer det att vara mer lämpligt att använda en riskmodell.
I slutändan kommer det verkligen ner på vad du vill modellera. Tror du att det du modellerar är en engångshändelse? Använd logistik. Om du tror att ditt evenemang har en fast eller proportionell chans att inträffa varje period under ett observerbart tidsspektrum? Använd en riskmodell.
Att välja metoder ska inte baseras på hur du tolkar statistiken. Om så vore fallet skulle det inte finnas någon skillnad mellan OLS, LAD, Tobit, Heckit, IV, 2SLS eller en mängd andra regressionsmetoder.Det ska istället baseras på vilken form du tror att den underliggande modellen du försöker uppskatta tar.
Kommentarer
- -1 (Blandade) Logistikmodeller kan säkert modellera överlevnadsgraden över tid. Se till exempel Allison, P. D. (1982). Diskreta tidsmetoder för analys av händelseshistorier . Sociologisk metodik , 13 (1982), 61–98, eller Allison, P. D. (1984). Analys av händelseshistorik: Regression för longitudinella händelsedata (Vol. 12). Sage Beverly Hills, Kalifornien.