Jeg forsøger stadig at lære (kan være terminologispørgsmålet) hvad betyder “linkfunktion”. For eksempel antager vi i logistisk regression, at responsvariablen kommer fra binomial fordeling.
Linkfunktionen $ \ text {logit} ^ {- 1} $ konverterer et reelt tal fra $ (- \ infty, – \ infty) $ (output fra $ \ beta ^ {\ top} x $ ) til et sandsynlighedsnummer $ [0,1] $ . Men hvordan “linker” det til en binomial distribution som er en diskret distribution?
Jeg forstår “linket” er mellem et reelt tal til et sandsynlighedsnummer, men der mangler en del fra sandsynlighedsnummer til binomial fordeling .
Har jeg ret?
Kommentarer
- Du kan finde den detaljerede diskussion af en usædvanlig linkfunktion i mit svar på stats.stackexchange.com/a/64039/919 for at være af en vis interesse. (Spørgsmålet kan meget vel være et duplikat af dig.) Der mangler intet: svaret i logistisk regression er Bernoulli og det bestemmes fuldstændigt af dets parameter (dit " sandsynlighedsnummer ").
- tak @whuber for at hjælpe mig hele tiden. det link, du har angivet, er værdifuldt, men jeg finder det aldrig på grund af den underlige spørgsmålstitel …
- At finde gode søgeudtryk er altid et problem – jeg ' m ikke forkaste dig eller nogen anden for ikke at finde det. (Når jeg har brug for at finde dette indlæg igen, søger jeg på " solsikke, " af alle ting!)
- Se også Formålet med linkfunktionen i generaliseret lineær model .
Svar
Så når du har binære svardata, har du et “ja / nej” eller “1/0” resultat for hver observation. Det, du forsøger at estimere, når du foretager en binær responsregression, er dog ikke et 1/0 resultat for hvert sæt værdier af de uafhængige variabler, du pålægger, men sandsynligheden for, at en person med sådanne egenskaber vil resultere i et “ja” -resultat . Svaret er ikke længere diskret, det er kontinuerligt (i (0,1) intervallet). Svaret i dataene ( sandt $ y_i $) er faktisk binært, men estimeret svar ($ \ Lambda (x_i “b) $ eller $ \ Phi (x_i” b) $) er sandsynligheder.
Den underliggende betydning af disse linkfunktioner er, at de er den fordeling, vi pålægger fejludtrykket i den latente variabelmodel. Forestil dig, at hvert individ har en underliggende (ikke observerbar) vilje til at sige “ja” (eller være en 1) i resultatet. Så modeller denne vilje som $ y_i ^ * $ ved hjælp af en lineær regression på de individuelle karakteristika $ x_i $ (som er en vektor i multipel regression):
$$ y_i ^ * = x_i “\ beta + \ epsilon_i. $$
Dette kaldes en latent variabel regression. Hvis denne persons vilje var positiv ($ y_i ^ * > 0 $) , ville individets “observerede resultat være et” ja “($ y_i = 1 $), ellers et” nej “. Bemærk, at valget af tærskel ikke betyder noget som latent v ariabel model har en skæringspunkt.
I lineær regression antager vi, at fejludtrykket er normalt fordelt. I binært svar og andre modeller er vi nødt til at pålægge / antage en distribution på fejlbetingelserne. Linkfunktionen er den kumulative sandsynlighedsfunktion, som fejlbetingelserne følger. For eksempel, hvis det er logistisk (og vi bruger, at den logistiske fordeling er symmetrisk i den fjerde ligestilling),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i” \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i “\ beta) = P (\ epsilon_i < x_i” \ beta) = \ Lambda (x_i “\ beta). $$
Hvis du antog de fejl, der normalt distribueres, så ville du have et probit-link, $ \ Phi (\ cdot) $, i stedet for $ \ Lambda (\ cdot) $.
Kommentarer
- +1 Velkommen til vores side, Anna! Tak, fordi du bidrog med velkonstruerede svar ud over det spørgsmål, du har stillet.
- Tak! Hvordan så du, at jeg var ny? Er der noget at spore nye mennesker? Er du moderator? Jeg føler mig lidt overrasket. Men faktisk var min hensigt at give svar meget mere end at stille spørgsmål, men jeg havde tilfældigvis et spørgsmål.
- Der er ' meget til dette websted Anna. Kom godt i gang ved at gennemgå vores Hjælp . Du kan klikke på næsten alt, hvad du ser for at få flere oplysninger. Brugere med et diamantikon efter deres navne er moderatorer, men det er også brugere med tilstrækkeligt stort omdømme.For yderligere spørgsmål om, hvordan dette websted fungerer, skal du gå til vores metasider . Den (idiosynkratiske) webstedsøgning er nyttig, men målrettede Google-søgninger (inkluderer " site: stats.stackexchange.com ") kan være lige mere effektiv. Og tjek vores chatrum .
- @AnnaSdTC nej der er ingen sporingsmekanisme. Der er en gennemgangskø, der fremhæver indlæg fra nye brugere, men i de fleste tilfælde kan du blot bemærke nyt kaldenavn + avatar. Også i profiloplysninger er der oplysninger om, hvornår kontoen blev oprettet (se dig selv stats.stackexchange.com/users/146969/anna-sdtc , der er en " medlem til " sektion).
- I ' ve har ledt efter svaret på " hvorfor sigmoid " for logistisk regression i et stykke tid, og dette er langt det bedste svar. Jeg ' er overrasket over, at ikke mange ML-bøger nævner dette og pålægger den logistiske funktion ud af det blå. Det bedste jeg ' har set taler om GLM, men det pålægger " GLM-formularen " ud af det blå og brug det som " begrundelse ", hvilket ikke ' t virkelig forklare noget. Den eneste måde, jeg kan forstå, er via denne tænkning – antagelse om fordelingen af fejludtrykket, og jeg synes, det er den eneste virkelige forklaring uden at pålægge noget
Svar
Generaliseret lineær model er defineret med lineær forudsigelse
$$ \ eta = X \ beta $$
Den næste ting er sandsynlighedsfordeling der beskriver betinget fordeling af $ Y $ og en linkfunktion $ g $, der “giver forholdet mellem den lineære forudsigelse og middelværdien af fordelingsfunktionen”, da vi ikke forudsiger værdierne på $ Y $, men snarere betinget gennemsnit af $ Y $ givet forudsigere $ X $, dvs.
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
I tilfælde af Gaussisk familie GLM (lineær regression) identitetsfunktion bruges som en linkfunktion, så $ E (Y | X) = \ eta $, mens i tilfælde af logistisk regression logit-funktion bruges. (Omvendt af) logit-funktion transformerer værdier på $ \ eta $ i $ (- \ infty, \ infty) $ til $ (0, 1) $, da logistisk regression forudsiger sandsynligheder succes , dvs. middelværdien af Bernoulli-distribution. Andre funktioner bruges til at omdanne lineære forudsigere til midler til forskellige fordelinger, for eksempel logfunktion til Poisson-regression , eller invers link til gamma-regression. Så linkfunktion forbinder ikke værdier på $ Y $ (f.eks. Binær, i tilfælde af logistisk regression) og lineær forudsigelse, men betyder fordeling af $ Y $ med $ \ eta $ (faktisk for at oversætte sandsynlighederne til $ 0 $ ” s og $ 1 $ “s skal du desuden have en beslutningsregel ). Så take-away-beskeden er, at vi ikke forudsiger værdierne på $ Y $, men i stedet beskriver den i form af en probabilistisk model og estimering af parametre af den betingede fordeling af $ Y $ givet $ X $.
For at lære mere om linkfunktioner og GLMer kan du kontrollere Forskellen mellem ' linkfunktion ' og ' kanonisk linkfunktion ' til GLM , Formålet med linkfunktionen i generaliseret lineær model og Forskel mellem logit og probit modeller tråde , den meget gode Wikipedia-artikel om GLM “s og Generaliserede lineære modeller bog af McCullagh og Nelder.