Bij logistieke regressie betekent een odds ratio van 2 dat de gebeurtenis 2 keer zo waarschijnlijk is bij een toename van één eenheid van de voorspeller. In Cox-regressie betekent een hazard ratio van 2 dat de gebeurtenis tweemaal zo vaak zal voorkomen op elk tijdstip, gegeven een toename van één eenheid van de voorspeller. Zijn deze niet praktisch hetzelfde?
Wat is dan het voordeel van het uitvoeren van een Cox-regressie en het verkrijgen van hazard-ratios als we functioneel dezelfde informatie kunnen krijgen uit de odds-ratios van logistieke regressie?
Answer
een odds ratio van 2 betekent dat de gebeurtenis 2 keer waarschijnlijker is gegeven een toename van één eenheid in de voorspeller
Het betekent dat de kansen verdubbelen, wat niet hetzelfde is als de kansverdubbeling.
Bij Cox-regressie betekent een risicoverhouding van 2 dat de gebeurtenis tweemaal zo vaak zal voorkomen op elk tijdstip bij een toename van één eenheid van de voorspeller.
Afgezien van een beetje handzwaaien, ja – de frequentie van voorkomen verdubbelt. Het is als een geschaalde onmiddellijke kans.
Zijn deze niet praktisch hetzelfde?
Ze zijn bijna hetzelfde als het verdubbelen van de kansen van het evenement bijna hetzelfde is als het verdubbelen van het risico van het evenement. Ze lijken niet automatisch op elkaar, maar onder sommige (vrij veel voorkomende) omstandigheden kunnen ze zeer nauw overeenkomen.
Misschien wilt u het verschil tussen kansen en waarschijnlijkheid nauwkeuriger bekijken.
Zie , bijvoorbeeld de eerste zin hier , die duidelijk maakt dat odds de verhouding zijn tussen een kans en zijn complement. Dus het vergroten van de odds (in gunst) van 1 naar 2 is hetzelfde als een kans die toeneemt van $ \ frac {1} {2} $ naar $ \ frac {2} {3} $ . Odds nemen sneller toe dan de waarschijnlijkheid toeneemt. Voor zeer kleine waarschijnlijkheden lijken odds-in-favor en probability sterk op elkaar, terwijl odds-against steeds meer lijken op (in de zin dat de ratio gaat naar 1) wederkerige kansen als de kans klein wordt. Een odds ratio is simpelweg de verhouding van twee sets odds. Het verhogen van de odds ratio terwijl een basis odds constant wordt gehouden, komt overeen met het verhogen van de andere kansen, maar kan al dan niet vergelijkbaar zijn met de relatieve verandering in waarschijnlijkheid.
Misschien wil je ook nadenken over het verschil tussen gevaar en waarschijnlijkheid (zie mijn eerdere bespreking waar ik het hebben over handzwaaien; nu verdoezelen we het verschil niet). Als een kans bijvoorbeeld 0,6 is, kun je deze niet verdubbelen – maar een onmiddellijk gevaar van 0,6 kan worden verdubbeld tot 1,2. Ze “zijn niet hetzelfde, net zoals waarschijnlijkheidsdichtheid niet waarschijnlijkheid is.
Opmerkingen
- +1 Gewoon een opmerking maken om te vermelden dat sommige vormen van gebeurtenisgeschiedenisanalyse gebruiken een andere definitie van de gevarenfunctie (bijv. $ h (t) $ in discrete tijdgebeurtenismodellen is de waarschijnlijkheid dat een gebeurtenis plaatsvindt op tijdstip $ t $, op voorwaarde dat het niet vóór die tijd heeft plaatsgevonden , en als zodanig zou $ 2 \ maal 0,6 $ geen zin hebben in dergelijke modellen).
- Bedankt, dat ' is zeker relevant. Dit houdt verband met het feit dat een discrete pmf ' n overal groter kan zijn dan 1, terwijl een dichtheid dat zeker kan.
Antwoord
Dit is een goede vraag. Maar wat u eigenlijk vraagt, moet niet zijn hoe de statistiek wordt geïnterpreteerd, maar welke aannames ten grondslag liggen aan elk van uw respectieve modellen (gevaar of logistiek). Een logistiek model is een statisch model die effectief de li voorspelt betrouwbaarheid van een gebeurtenis die op een bepaald tijdstip plaatsvindt, gegeven waarneembare informatie. Een gevarenmodel of Cox-model is echter een duurmodel dat overlevingskansen in de tijd modelleert. U zou een vraag kunnen stellen als wat is de kans dat een sigarettengebruiker overleeft tot de leeftijd van 75 jaar in vergelijking met die van een niet-gebruiker met uw logistische regressie (aangezien u informatie heeft over mortaliteit voor een cohort tot 75 jaar) . Maar als u in plaats daarvan wilt profiteren van de volheid van de tijdsdimensie van uw gegevens, dan is het gebruik van een gevarenmodel geschikter.
Uiteindelijk komt het echter neer op wat u wilt modelleren. Gelooft u dat wat u aan het modelleren bent een eenmalige gebeurtenis is? Gebruik logistiek. Als u denkt dat uw evenement een vaste of proportionele kans heeft om elke periode binnen een waarneembaar tijdsspectrum te laten plaatsvinden? Gebruik een gevarenmodel.
Het kiezen van methoden mag niet gebaseerd zijn op hoe u de statistiek interpreteert. Als dit het geval was, zou er geen verschil zijn tussen OLS, LAD, Tobit, Heckit, IV, 2SLS of een groot aantal andere regressiemethoden.Het moet in plaats daarvan gebaseerd zijn op de vorm waarvan u denkt dat het onderliggende model dat u probeert in te schatten aanneemt.
Opmerkingen
- -1 (Gemengde) Logistieke modellen kan zeker de overlevingskansen in de tijd modelleren. Zie bijvoorbeeld Allison, P. D. (1982). Discrete-time methoden voor de analyse van gebeurtenisgeschiedenissen . Sociological Methodology , 13 (1982), 61-98, of Allison, P. D. (1984). Gebeurtenisgeschiedenisanalyse: regressie voor longitudinale gebeurtenisgegevens (deel 12). Sage Beverly Hills, CA.