Még mindig megpróbálom megtanulni (ez lehet a terminológia kérdése), mit jelent a “link funkció”. Például a logisztikai regresszióban feltételezzük, hogy a válaszváltozó binomiális eloszlásból érkezik.

A $ \ text {logit} ^ {- 1} $ linkfüggvény valós számot alakít át a $ (- \ infty, – \ infty) $ ( $ \ beta ^ {\ top} x $ kimenet) egy valószínűségi számra $ [0,1] $ . De hogyan “kapcsolódik” egy binomiális eloszláshoz , amely egy diszkrét eloszlás?

Értem, hogy a “kapcsolat” egy valós szám és egy valószínűségi szám között van, de a valószínűségi számtól a binomiális eloszlásig hiányzik egy rész .

Igazam van?

Megjegyzések

  • A szokatlan linkfunkció részletes ismertetését megtalálhatja a válaszomban a következő címen: stats.stackexchange.com/a/64039/919 , hogy érdekes lehet. (Lehetséges, hogy a kérdés duplikátuma lehet.) Semmi sem hiányzik: a logisztikai regresszióra adott válasz Bernoulli , és a paramétere teljesen meghatározza (a " valószínűségszám ").
  • köszi @whuber, hogy folyamatosan segített. az Ön által megadott link értékes, de soha nem fogom megtalálni a furcsa kérdéscím miatt …
  • A jó keresési kifejezések megtalálása mindig problémát jelent – I ' nem hibáztatlak neked vagy másnak, mert nem találták meg. (Amikor újra meg kell találnom azt a bejegyzést, a " napraforgóra, " mindenre rákeresek!)
  • Lásd még: A linkfüggvény célja az általánosított lineáris modellben .

Válasz

Tehát, ha bináris válaszadatokkal rendelkezik, akkor minden megfigyelésnél “igen / nem” vagy “1/0” eredményt kap. Azonban amit bináris válaszregresszióval próbál meg megbecsülni, az nem 1/0-os kimenetel az ön által alkalmazott független változók minden értékkészletéhez, hanem annak valószínűsége, hogy egy ilyen jellemzőkkel rendelkező egyén “igen” eredményt fog eredményezni . Ekkor a válasz már nem diszkrét, folytonos (a (0,1) intervallumban). Az adatok válasza (az true $ y_i $) valóban bináris, de a A becsült válasz (a $ \ Lambda (x_i “b) $ vagy $ \ Phi (x_i” b) $) valószínűség.

Ezeknek a linkfüggvényeknek az a jelentése, hogy ők azok az eloszlások, amelyeket a látens változó modell hibatermére vetünk. Képzeljük el, hogy minden egyénnek van mögöttes (nem megfigyelhető) hajlandósága igennel (vagy 1-vel lenni) az eredményben. Ezután modellezze ezt a hajlandóságot $ y_i ^ * $ néven lineáris regresszióval az egyén $ x_i $ tulajdonságaira (amely vektor többszörös regresszióban van):

$$ y_i ^ * = x_i “\ beta + \ epsilon_i. $$

Ezt nevezzük látens változó regressziónak. Ha ennek az egyénnek a hajlandósága pozitív volt ($ y_i ^ * > 0 $) , az egyén megfigyelt eredménye “igen” ($ y_i = 1 $) lenne, különben “nem”. Vegye figyelembe, hogy a küszöbérték megválasztása nem számít látens v-nek Az Ariable modellnek van metszete.

A lineáris regresszióban feltételezzük, hogy a hiba kifejezés normálisan oszlik el. A bináris válaszban és más modellekben el kell osztanunk / feltételeznünk kell egy elosztást a hibafeltételekre. A link függvény az a kumulatív valószínűségi függvény, amelyet a hiba kifejezés követ. Például, ha logisztikai (és azt fogjuk használni, hogy a logisztikai eloszlás szimmetrikus a negyedik egyenlőségben),

$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i” \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i “\ beta) = P (\ epsilon_i < x_i” \ beta) = \ Lambda (x_i “\ beta). $$

Ha feltételezted a hibákat normálisan kell terjeszteni, akkor a $ \ Phi (\ cdot) $ probit linket kapnád a $ \ Lambda (\ cdot) $ helyett.

Megjegyzések

  • +1 Üdvözöljük weboldalunkon, Anna! Köszönjük, hogy a feltett kérdés mellett jól felépített válaszokkal járult hozzá.
  • Köszönöm! Hogyan látta, hogy új vagyok? Van valami nyomon követhető új ember? Ön moderátor? Kicsit meglepődve érzem magam. De valóban az volt a szándékom, hogy sokkal többet válaszoljak, mint hogy feltegyek kérdéseket, de véletlenül volt egy kérdésem.
  • Sok ' sok van ezen az oldalon , Anna. Kezdésként tekintse át a súgót . Szinte bármire kattintva megtekintheti a további információkat. Azok a felhasználók, akiknek a neve után gyémánt ikon található, moderátorok, de ugyanúgy, mint kellően nagy hírnévvel rendelkező felhasználók.Ha további kérdései vannak a webhely működésével kapcsolatban, keresse fel a metaoldalakat . A (sajátos) webhelykeresés hasznos, de a célzott Google-keresések (beleértve a " site: stats.stackexchange.com ") is lehetnek sokkal hatékonyabb. Nézze meg a csevegőszobánkat .
  • @AnnaSdTC nem, nincs nyomkövető mechanizmus. Van egy ellenőrzési sor, amely kiemeli az új felhasználók hozzászólásait, de a legtöbb esetben egyszerűen észreveheti az új becenevet + avatárt. A profilinformációkban van egy információ a fiók létrehozásának időpontjáról is (lásd magad stats.stackexchange.com/users/146969/anna-sdtc , van egy " tag a " szakaszhoz.
  • I ' ve " miért választotta a logmikus regresszióra a sigmoid " választ egy ideje, és ez messze a legjobb válasz. ' Meglepődtem, hogy nem sok ML-könyv említi ezt, és a logisztikai funkciót kék színből írja elő. A legjobbat <

láttam a GLM-ről, de ez előírja a " GLM formát " a kékből, és használja ezt " indoklásként ", amely nem igazán igaz ' bármit elmagyarázni. Az egyetlen módja ennek a gondolkodásnak a megértése – feltételezés a hiba kifejezés eloszlásáról, és úgy gondolom, hogy ez az egyetlen igazi magyarázat anélkül, hogy bármit is előírnék

Válasz

Az általánosított lineáris modellt a lineáris prediktor

$$ \ eta = X \ beta $$

A következő dolog a valószínűségeloszlás , amely leírja az $ Y $ feltételes eloszlását és egy link függvény $ g $, amely “megadja a kapcsolatot a lineáris prediktor és az eloszlásfüggvény átlaga között”, mivel nem a $ Y $, hanem a feltételes átlag <értékeit jósoljuk. / a> / $> adott prediktor $ X $, azaz

$$ E (Y | X) = g ^ {- 1} (\ eta) $$

Gauss-család esetén a GLM (lineáris regresszió) identitásfüggvényt használjuk linkfunkcióként, tehát $ E (Y | X) = \ eta $, míg esetén logisztikai regresszió logit függvényt használunk. A (inverz) logit függvény átalakítja a $ \ eta $ értékeit $ (- \ infty, \ infty) $ -ból $ (0, 1) $ -ba, mivel a logisztikai regresszió megjósolja a valószínűségeket a siker , azaz a Bernoulli-eloszlás átlaga. Más funkciókat használnak a lineáris prediktorok transzformációjához különböző eloszlásokra, például log függvény a Poisson regresszióhoz , vagy inverz link a gamma regresszióhoz. Tehát a link függvény nem a $ Y $ (pl. Bináris, logisztikai regresszió esetén) és a lineáris prediktor értékeit kapcsolja össze, hanem az $ Y $ eloszlásának átlagát a $ \ eta $ -val (valójában a valószínűségek $ 0-ra való lefordításához ” s és $ 1 $ “s szükséges egy döntési szabály ). Tehát a take-away üzenet az, hogy nem előrejelezzük az $ Y $ értékeit, hanem inkább valószínűségi modell és becsüljük az $ Y feltételes eloszlásának paramétereit szerint $ megadott $ X $.

Ha többet szeretne megtudni a linkfüggvényekről és a GLM-ekről, ellenőrizze a különbséget a ' link függvény ' és ' kanonikus linkfunkció ' a GLM számára , A linkfunkció célja az általánosított lineáris modellben és a A logit és probit modellek szálak közötti különbség , a nagyon jó Wikipedia cikk a GLM-ekről és az általánosított lineáris modellek könyve : McCullagh és Nelder.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük