V logistické regrese poměr šancí 2 znamená, že vzhledem k jednojednotkovému zvýšení prediktoru je událost dvakrát pravděpodobnější. V Coxově regresi poměr rizik 2 znamená, že k události dojde v každém časovém bodě dvakrát častěji, a to při zvýšení prediktoru o jednu jednotku. Nejsou to prakticky to samé?
Jaká je potom výhoda Coxovy regrese a získání poměrů rizika, pokud můžeme z funkčních poměrů logistické regrese získat funkčně stejné informace?
Odpověď
poměr šancí 2 znamená, že událost je dvakrát pravděpodobnější vzhledem k nárůst jedné jednotky v prediktoru
Znamená to, že šance by se zdvojnásobila, což není stejné jako zdvojnásobení pravděpodobnosti.
V Coxově regrese poměr rizika 2 znamená, že k události dojde v každém časovém bodě dvakrát častěji, protože se prediktor zvýší o jednu jednotku.
Až na trochu ručního mávání, ano – míra výskytu se zdvojnásobuje. Je to jako škálovaná okamžitá pravděpodobnost.
Nejsou to prakticky to samé?
Jsou téměř totéž, když zdvojnásobení pravděpodobnosti události je téměř stejné jako zdvojnásobení nebezpečnosti události. Nejsou si automaticky podobné, ale za určitých (poměrně běžných) okolností si mohou velmi úzce odpovídat.
Možná budete chtít pečlivě zvážit rozdíl mezi pravděpodobností a pravděpodobností.
Viz například první věta zde , která jasně ukazuje, že šance jsou poměrem pravděpodobnosti k jejímu doplňku. Například zvýšení šance (v zvýhodnění) od 1 do 2 je stejné jako zvýšení pravděpodobnosti z $ \ frac {1} {2} $ na $ \ frac {2} {3} $ . Kurzy rostou rychleji než roste pravděpodobnost. U velmi malých pravděpodobností je pravděpodobnost velmi příznivá a pravděpodobnost velmi podobná, zatímco pravděpodobnost je stále podobnější (v tom smyslu, že poměr půjde na 1) převrácené hodnoty pravděpodobnosti, protože pravděpodobnost bude malá. Poměr šancí je jednoduše poměr dvou sad šancí. Zvýšení koeficientu pravděpodobnosti při zachování základní konstanty pravděpodobnosti odpovídá zvýšení druhé pravděpodobnost, ale může nebo nemusí být podobná relativní změně pravděpodobnosti.
Možná budete také chtít přemýšlet o rozdílu mezi nebezpečím a pravděpodobností (viz moje dřívější diskuse, kde zmíním mávání rukou; nyní rozdíl nerozebíráme). Pokud je například pravděpodobnost 0,6, nelze ji zdvojnásobit – okamžité riziko 0,6 lze zdvojnásobit na 1,2. „Nejsou to samé, stejně jako hustota pravděpodobnosti není pravděpodobnost.
Komentáře
- +1 Jen komentováním, abych zmínil, že některé formy analýzy historie událostí používají jinou definici funkce nebezpečí (např. $ h (t) $ v diskrétních modelech historie časových událostí je pravděpodobnost, že k události dojde v době $ t $ podmíněné tím, že k ní nedošlo před tímto časem , a jako takové by $ 2 \ krát 0,6 $ nemělo v takových modelech smysl).
- Díky, to ' je rozhodně relevantní. To souvisí se skutečností že diskrétní pmf nemůže ' t kdekoli přesáhnout 1, zatímco hustota rozhodně může.
Odpovědět
To je dobrá otázka. Na co se ale opravdu ptáte, by nemělo být to, jak je statistika interpretována, ale jaké předpoklady jsou základem každého z vašich příslušných modelů (hazard nebo logistika). Logistický model je statický model který účinně předpovídá li věrohodnost události, ke které došlo v určitou dobu, poskytla pozorovatelné informace. Model nebezpečí nebo Coxův model je však model trvání, který modeluje míru přežití v čase. Můžete si položit otázku typu „jaká je pravděpodobnost, že uživatel cigarety přežije ve věku 75 let ve srovnání s neužíváním s vaší logistickou regresí“ (vzhledem k tomu, že máte informace o úmrtnosti kohorty do 75 let) . Pokud ale místo toho chcete využít plnost časové dimenze svých dat, bude vhodnější použít model nebezpečí.
Nakonec to ale skutečně jde na to, co chcete modelovat. Věříte, že to, co modelujete, je jednorázová událost? Použijte logistiku. Pokud si myslíte, že vaše událost má pevnou nebo proporcionální šanci, že se každé období vyskytne v pozorovatelném časovém spektru? Použijte model nebezpečí.
Výběr metod by neměl být založen na tom, jak statistiku interpretujete. Pokud by tomu tak bylo, nebyl by žádný rozdíl mezi OLS, LAD, Tobitem, Heckitem, IV, 2SLS nebo řadou dalších regresních metod.Místo toho by mělo být založeno na tom, jakou formu podle vás má základní model, který se snažíte odhadnout.
Komentáře
- -1 (smíšené) logistické modely dokáže určitě modelovat míru přežití v průběhu času. Viz například Allison, P. D. (1982). Metody diskrétního času pro analýzu historie událostí . Sociologická metodologie , 13 (1982), 61–98, nebo Allison, P. D. (1984). Analýza historie událostí: Regrese pro data podélných událostí (svazek 12). Sage Beverly Hills, Kalifornie.