I logistisk regresjon betyr et oddsforhold på 2 at hendelsen er 2 ganger mer sannsynlig gitt en økning i prediktoren med en enhet. I Cox-regresjon betyr et fareforhold på 2 at hendelsen vil forekomme dobbelt så ofte på hvert tidspunkt gitt en enhetsøkning i prediktoren. Er disse ikke praktisk talt det samme?

Hva er da fordelen med å gjøre en Cox-regresjon og få fareforhold hvis vi funksjonelt kan få den samme informasjonen fra oddsforholdene for logistisk regresjon?

Svar

et oddsforhold på 2 betyr at hendelsen er 2 ganger mer sannsynlig gitt en en enhets økning i prediktoren

Det betyr at oddsen vil dobles, noe som ikke er det samme som sannsynligheten dobler.

I Cox-regresjon betyr et fareforhold på 2 at hendelsen vil forekomme dobbelt så ofte på hvert tidspunkt gitt en enhetsøkning i prediktoren.

Bortsett fra litt håndbølging, ja – forekomsten fordobles. Det er som en skalert øyeblikkelig sannsynlighet.

Er dette ikke praktisk talt det samme?

De er nesten det samme når dobling av oddsen for arrangementet er nesten det samme som å doble faren for arrangementet. De ligner ikke automatisk, men under noen (ganske vanlige omstendigheter) samsvarer de veldig nøye.

Det kan være lurt å vurdere forskjellen mellom odds og sannsynlighet nøyere.

Se for eksempel første setning her , som gjør det klart at odds er forholdet mellom sannsynlighet og komplement. Så for eksempel å øke oddsen (i favoritt) fra 1 til 2 er det samme som sannsynligheten øker fra $ \ frac {1} {2} $ til $ \ frac {2} {3} $ . Odds øker raskere enn sannsynlighet øker. For svært små sannsynligheter er odds i favør og sannsynlighet veldig like, mens odds mot blir stadig mer like (i den forstand at forholdet vil gå til 1) gjensidige sannsynlighet ettersom sannsynligheten blir liten. Et oddsforhold er ganske enkelt forholdet mellom to sett med odds. Å øke oddsforholdet mens du holder en basisodds konstant tilsvarer å øke det andre odds, men kan eller ikke kan være lik den relative endringen i sannsynlighet.

Det kan også være lurt å tenke på forskjellen mellom fare og sannsynlighet (se min tidligere diskusjon der jeg nevner håndsvinking; nå gloser vi ikke over forskjellen). Hvis for eksempel en sannsynlighet er 0,6, kan du ikke doble den – men en øyeblikkelig fare på 0,6 kan dobles til 1,2. De er ikke det samme, på samme måte som sannsynlighetstetthet ikke er sannsynlighet.

Kommentarer

  • +1 Bare kommenterer for å nevne at noen former for analyse av hendelseshistorikk bruker en annen definisjon av farefunksjonen (f.eks. $ h (t) $ i diskrete tidsbegivenhetshistorikkmodeller er sannsynligheten for at en hendelse skjer på tidspunktet $ t $ betinget av at den ikke har skjedd før den tiden , og som sådan ville $ 2 \ ganger 0,6 $ ikke gi mening i slike modeller).
  • Takk, at ' er absolutt relevant. Dette er knyttet til det faktum at en diskret pmf kan ' t hvor som helst overstige 1 mens en tetthet definitivt kan.

Svar

Dette er et godt spørsmål. Men det du egentlig spør, bør ikke være hvordan statistikken tolkes, men hvilke forutsetninger som ligger til grunn for hver av dine respektive modeller (fare eller logistikk). En logistisk modell er en statisk modell som effektivt forutsier li sannsynligheten for at en hendelse inntreffer på et bestemt tidspunkt gitt observerbar informasjon. Imidlertid er en faremodell eller Cox-modell en varighetsmodell som modellerer overlevelsesratene over tid. Du kan stille et spørsmål som «hva er sannsynligheten for at en sigarettbruker overlever til 75 år i forhold til en ikke-bruker med din logistiske regresjon» (gitt at du har informasjon om dødelighet for en kohorte opp til 75 år) . Men hvis du i stedet ønsker å dra nytte av fylden med datadimensjonen til dataene dine, vil det være mer hensiktsmessig å bruke en faremodell.

Til slutt skjønner det virkelig hva du vil modellere. Tror du det du modellerer er en engangshendelse? Bruk logistikk. Hvis du mener at arrangementet ditt har en fast eller proporsjonal sjanse for å forekomme hver periode over et observerbart tidsspektrum? Bruk en faremodell.

Å velge metoder skal ikke være basert på hvordan du tolker statistikken. Hvis dette var tilfelle, ville det ikke være noen forskjell mellom OLS, LAD, Tobit, Heckit, IV, 2SLS eller en rekke andre regresjonsmetoder.Det bør i stedet være basert på hvilken form du mener den underliggende modellen du prøver å estimere tar.

Kommentarer

  • -1 (Mixed) Logistiske modeller kan absolutt modellere overlevelsesrater over tid. Se for eksempel Allison, P. D. (1982). Diskrete tidsmetoder for analyse av hendelseshistorier . Sosiologisk metodikk , 13 (1982), 61–98, eller Allison, P. D. (1984). Analyse av hendelseshistorikk: Regresjon for data om langsgående hendelser (Vol. 12). Sage Beverly Hills, CA.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *