I logistisk regression betyder et oddsforhold på 2, at begivenheden er 2 gange mere sandsynlig givet en stigning i forudsigelsen med en enhed. I Cox-regression betyder et fareforhold på 2, at begivenheden vil forekomme dobbelt så ofte på hvert tidspunkt givet en enhedsforøgelse i forudsigeren. Er disse ikke praktisk talt den samme ting?

Hvad er så fordelen ved at lave en Cox-regression og få fareforhold, hvis vi funktionelt kan få de samme oplysninger fra oddsforholdet mellem logistisk regression?

Svar

et oddsforhold på 2 betyder, at begivenheden er 2 gange mere sandsynlig givet en en enheds stigning i forudsigeren

Det betyder, at oddsene vil fordobles, hvilket ikke er det samme som sandsynligheden for at fordoble.

I Cox-regression betyder et fareforhold på 2, at begivenheden vil forekomme dobbelt så ofte på hvert tidspunkt givet en enhedsforøgelse i forudsigeren.

Bortset fra lidt håndbølgning, ja – forekomsten fordobles. Det er som en skaleret øjeblikkelig sandsynlighed.

Er disse ikke praktisk talt den samme ting?

De “er næsten det samme, når en fordobling af oddsene for begivenheden er næsten det samme som at fordoble risikoen for begivenheden. De ligner ikke automatisk, men under nogle (temmelig almindelige) omstændigheder svarer de muligvis meget nøje.

Du vil måske overveje forskellen mellem odds og sandsynlighed nøjere.

Se for eksempel den første sætning her , hvilket gør det klart, at odds er forholdet mellem en sandsynlighed og dets komplement. Så for eksempel at øge oddsene (i favor) fra 1 til 2 er det samme som sandsynligheden stiger fra $ \ frac {1} {2} $ til $ \ frac {2} {3} $ . Odds stiger hurtigere end sandsynligheden stiger. For meget små sandsynligheder er odds-in-favør og sandsynlighed meget ens, mens odds-mod bliver mere og mere ens (i den forstand at forholdet går til 1) gensidighed af sandsynligheden, da sandsynligheden bliver lille. Et oddsforhold er simpelthen forholdet mellem to sæt odds. At øge oddsforholdet, mens du holder en basisodds konstant, svarer til at øge det andet odds, men måske eller måske ikke ligner den relative ændring i sandsynlighed.

Du vil muligvis også overveje forskellen mellem fare og sandsynlighed (se min tidligere diskussion, hvor jeg nævner håndsvinkning; nu gloser vi ikke forskellen). Hvis en sandsynlighed f.eks. er 0,6, kan du ikke fordoble den – men en øjeblikkelig fare på 0,6 kan til 1,2. De “er ikke det samme, på samme måde som sandsynlighedstæthed ikke er sandsynlighed.

Kommentarer

  • +1 Kommenterer bare for at nævne, at nogle former for analyse af begivenhedshistorik bruger en anden definition af farefunktionen (f.eks. $ h (t) $ i diskrete tidsbegivenhedsmodeller er sandsynligheden for, at en begivenhed finder sted på tidspunktet $ t $ betinget af, at den ikke har fundet sted før det tidspunkt , og som sådan $ 2 \ gange 0,6 $ giver ingen mening i sådanne modeller).
  • Tak, at ' er bestemt relevant. Dette hænger sammen med det faktum at en diskret pmf kan ' t overstiger 1, mens en densitet bestemt kan.

Svar

Dette er et godt spørgsmål. Men hvad du virkelig spørger, bør ikke være, hvordan statistikken fortolkes, men hvilke antagelser der ligger til grund for hver af dine respektive modeller (fare eller logistisk). En logistisk model er en statisk model som effektivt forudsiger li sandsynlighed for, at en begivenhed finder sted på et bestemt tidspunkt givet observerbar information. En faremodel eller Cox-model er dog en varighedsmodel, der modellerer overlevelsesrater over tid. Du kan stille et spørgsmål som “hvad er sandsynligheden for, at en cigaretbruger overlever i en alder af 75 i forhold til en ikke-brugeres med din logistiske regression” (givet at du har oplysninger om dødelighed for en kohorte op til 75 år) . Men hvis du i stedet ønsker at drage fordel af den fulde tidsdimension for dine data, vil det være mere hensigtsmæssigt at bruge en faremodel.

I sidste ende kommer det virkelig ned til, hvad du vil modellere. Tror du, hvad du modellerer er en engangshændelse? Brug logistik. Hvis du mener, at din begivenhed har en fast eller proportional chance for at forekomme hver periode over et observerbart tidsspektrum? Brug en faremodel.

Valg af metoder bør ikke baseres på, hvordan du fortolker statistikken. Hvis dette var tilfældet, ville der ikke være nogen forskel mellem OLS, LAD, Tobit, Heckit, IV, 2SLS eller en række andre regressionsmetoder.Det skal i stedet være baseret på, hvilken form du mener, at den underliggende model, du prøver at estimere, tager.

Kommentarer

  • -1 (Blandede) Logistiske modeller kan bestemt modellere overlevelsesrater over tid. Se for eksempel Allison, P. D. (1982). Diskrete tidsmetoder til analyse af begivenhedshistorikker . Sociologisk metode , 13 (1982), 61–98, eller Allison, P. D. (1984). Analyse af begivenhedshistorik: Regression for data i længderetningen (bind 12). Sage Beverly Hills, CA.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *