Jeg prøver fortsatt å lære (kan være terminologispørsmålet) hva betyr «lenkefunksjon». For eksempel antar vi i logistisk regresjon at responsvariabelen kommer fra binomial fordeling.
Koblingsfunksjonen $ \ text {logit} ^ {- 1} $ konverterer et reelt tall fra $ (- \ infty, – \ infty) $ (utdata fra $ \ beta ^ {\ top} x $ ) til et sannsynlighetstall $ [0,1] $ . Men hvordan «linker» den til en binomialfordeling som er en diskret distribusjon?
Jeg forstår at «lenken» er mellom et reelt tall til et sannsynlighetstall, men det er noe som mangler fra sannsynlighetsnummer til binomial fordeling .
Har jeg rett?
Kommentarer
- Du kan finne detaljert diskusjon av en uvanlig lenkefunksjon i svaret mitt på stats.stackexchange.com/a/64039/919 for å være av interesse. (Spørsmålet kan godt være et duplikat av deg.) Det mangler ingenting: svaret i logistisk regresjon er Bernoulli og det bestemmes fullstendig av parameteren (" sannsynlighetsnummer ").
- takk @whuber for at du hjalp meg hele tiden. lenken du oppga er verdifull, men jeg vil aldri finne den på grunn av den rare spørsmålstittelen …
- Å finne gode søkeord er alltid et problem – jeg ' m ikke utsette deg eller noen andre for å ikke finne den. (Når jeg trenger å finne det innlegget igjen, søker jeg på " solsikke, " av alle ting!)
- Se også Formålet med lenkefunksjonen i generalisert lineær modell .
Svar
Så når du har binære responsdata, har du et «ja / nei» eller «1/0» resultat for hver observasjon. Det du prøver å estimere når du gjør en binær responsregresjon, er imidlertid ikke et 1/0 utfall for hvert verdisett av de uavhengige variablene du pålegger, men sannsynligheten for at et individ med slike egenskaper vil resultere i et «ja» resultat . Svaret er ikke diskret lenger, det er kontinuerlig (i intervallet (0,1)). Svaret i dataene ( sant $ y_i $) er faktisk binært, men estimert respons ($ \ Lambda (x_i «b) $ eller $ \ Phi (x_i» b) $) er sannsynligheter.
Den underliggende betydningen av disse koblingsfunksjonene er at de er fordelingen vi pålegger feiluttrykket i den latente variabelmodellen. Tenk deg at hver enkelt har en underliggende (ikke observerbar) vilje til å si «ja» (eller være en 1) i resultatet. modell denne viljen som $ y_i ^ * $ ved hjelp av en lineær regresjon på individets egenskaper $ x_i $ (som er en vektor i multippel regresjon):
$$ y_i ^ * = x_i «\ beta + \ epsilon_i. $$
Dette er det som kalles en latent variabel regresjon. Hvis individets vilje var positiv ($ y_i ^ * > 0 $) , vil individets observerte utfall være et «ja» ($ y_i = 1 $), ellers et «nei». Vær oppmerksom på at valg av terskel ikke betyr noe som latent v ariable model has a intercept.
I lineær regresjon antar vi at feiluttrykket er normalfordelt. I binær respons og andre modeller, må vi pålegge / anta en fordeling på feilbetingelsene. Koblingsfunksjonen er den kumulative sannsynlighetsfunksjonen som feilbetingelsene følger. For eksempel, hvis det er logistisk (og vi vil bruke at den logistiske fordelingen er symmetrisk i fjerde likhet),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i» \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i «\ beta) = P (\ epsilon_i < x_i» \ beta) = \ Lambda (x_i «\ beta). $$
Hvis du antok feilene som skal distribueres normalt, vil du ha en probit-lenke, $ \ Phi (\ cdot) $, i stedet for $ \ Lambda (\ cdot) $.
Kommentarer
- +1 Velkommen til nettstedet vårt, Anna! Takk for at du bidro med velkonstruerte svar i tillegg til spørsmålet du har stilt.
- Takk! Hvordan så du at jeg var ny? Er det noe å spore nye mennesker? Er du moderator? Jeg føler meg litt overrasket. Men faktisk var intensjonen min å gi svar mye mer enn å stille spørsmål, men jeg hadde tilfeldigvis et spørsmål.
- Det ' mye til dette nettstedet Anna. Kom i gang ved å gå gjennom brukerstøtten . Du kan klikke deg gjennom nesten alt du ser for mer informasjon. Brukere med et diamantikon etter navnene deres er moderatorer, men det er også brukere med tilstrekkelig stort omdømme.For ytterligere spørsmål om hvordan dette nettstedet fungerer, gå til metasidene . (Idiosynkratisk) nettstedssøk er nyttig, men målrettede Google-søk (inkluderer " site: stats.stackexchange.com ") kan være jevne mer effektiv. Og sjekk ut chatterommet .
- @AnnaSdTC nei, det er ingen sporingsmekanisme. Det er en gjennomgangskø som fremhever innlegg fra nye brukere, men i de fleste tilfeller kan du bare legge merke til nytt kallenavn + avatar. Også i profilinformasjon er det informasjon om når kontoen ble opprettet (se deg selv stats.stackexchange.com/users/146969/anna-sdtc , det er en " medlem for " seksjon).
- I ' ve har vært på jakt etter svaret på " hvorfor sigmoid " for logistisk regresjon en stund og dette er det klart beste svaret. Jeg ' er overrasket over at ikke mange ML-bøker nevner dette og pålegger den logistiske funksjonen utenom det blå. Den beste jeg ' har sett snakker om GLM, men det pålegger " GLM-skjemaet " ut av det blå og bruk det som " begrunnelse ", som ikke ' t egentlig forklar hva som helst. Den eneste måten jeg kan forstå er via denne tankegangen – antagelse om fordelingen av feiluttrykket, og jeg tror det er den eneste virkelige forklaringen uten å pålegge noe
Svar
Generalisert lineær modell er definert i form av lineær prediktor
$$ \ eta = X \ beta $$
Neste ting er sannsynlighetsfordeling som beskriver betinget fordeling av $ Y $ og en lenkefunksjon $ g $ som «gir forholdet mellom den lineære prediktoren og distribusjonsfunksjonens middel», siden vi ikke forutsier verdiene til $ Y $, men heller betinget gjennomsnitt av $ Y $ gitt prediktorer $ X $, dvs.
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
I tilfelle av Gaussisk familie GLM (lineær regresjon) identitetsfunksjon brukes som en lenkefunksjon, så $ E (Y | X) = \ eta $, mens i tilfelle logistisk regresjon logit-funksjonen brukes. (Omvendt av) logit-funksjonen transformerer verdier på $ \ eta $ i $ (- \ infty, \ infty) $ til $ (0, 1) $, siden logistisk regresjon forutsier sannsynligheter av suksess , dvs. gjennomsnitt av Bernoulli-distribusjon. Andre funksjoner brukes til å transformere lineære prediktorer til midler for forskjellige fordelinger, for eksempel loggfunksjon for Poisson-regresjon , eller invers lenke for gammaregresjon. Så koblingsfunksjonen kobler ikke verdier på $ Y $ (f.eks. Binær, i tilfelle logistisk regresjon) og lineær prediktor, men betyr distribusjonen av $ Y $ med $ \ eta $ (faktisk, for å oversette sannsynlighetene til $ 0 $ » s og $ 1 $ «s trenger du i tillegg en avgjørelsesregel ). Take-away-meldingen er at vi ikke forutsier verdiene på $ Y $, men i stedet beskriver den i form av en sannsynlig modell og estimering av parametere av betinget fordeling av $ Y $ gitt $ X $.
For å lære mer om lenkefunksjoner og GLM «s, kan du sjekke Forskjellen mellom ' lenkefunksjon ' og ' kanonisk lenkefunksjon ' for GLM , Formålet med lenkefunksjonen i generalisert lineær modell og Forskjellen mellom logit og probit modeller tråder , den veldig gode Wikipedia-artikkelen om GLM «s og Generaliserte lineære modeller bok av McCullagh og Nelder.