Jag försöker fortfarande lära mig (kan vara terminologifrågan) vad betyder ”länkfunktion”. Till exempel i logistisk regression antar vi att svarsvariabeln kommer från binomial distribution.
Länksfunktionen $ \ text {logit} ^ {- 1} $ konverterar ett reellt tal från $ (- \ infty, – \ infty) $ (utdata från $ \ beta ^ {\ top} x $ ) till ett sannolikhetsnummer $ [0,1] $ . Men hur länkar det till en binomial distribution vilket är en diskret distribution?
Jag förstår att ”länken” är mellan ett reellt tal till ett sannolikhetsnummer, men det saknas en del från sannolikhetsnummer till binomial fördelning .
Har jag rätt?
Kommentarer
- Du kan hitta en detaljerad diskussion om en ovanlig länkfunktion i mitt svar på stats.stackexchange.com/a/64039/919 för att vara av intresse. (Frågan kan mycket väl vara en duplikat av dig.) Det saknas inget: svaret i logistisk regression är Bernoulli och det bestäms helt av dess parameter (din " sannolikhetsnummer ").
- tack @whuber för att du har hjälpt mig hela tiden. länken du angav är värdefull men jag kommer aldrig att hitta den på grund av den konstiga frågetiteln …
- Att hitta bra söktermer är alltid ett problem – jag ' jag klandrar inte dig eller någon annan för att inte hitta den. (När jag behöver hitta det inlägget igen söker jag på " solros, " av alla saker!)
- Se även Syftet med länkfunktionen i generaliserad linjär modell .
Svar
Så när du har binära svarsdata har du ett ”ja / nej” eller ”1/0” resultat för varje observation. Vad du försöker uppskatta när du gör en binär responsregression är dock inte ett 1/0-resultat för varje uppsättning värden för de oberoende variablerna du inför, utan sannolikheten för att en individ med sådana egenskaper kommer att resultera i ett ”ja” -resultat . Då är svaret inte längre diskret, det är kontinuerligt (i intervallet (0,1)). Svaret i data ( sant $ y_i $) är faktiskt binärt, men uppskattat svar ($ \ Lambda (x_i ”b) $ eller $ \ Phi (x_i” b) $) är sannolikheter.
Den underliggande betydelsen av dessa länkfunktioner är att de är den fördelning vi inför på feltermen i den latenta variabelmodellen. Föreställ dig att varje individ har en underliggande (icke observerbar) villighet att säga ”ja” (eller vara en 1) i resultatet. Sedan modellera denna villighet som $ y_i ^ * $ med en linjär regression på individens egenskaper $ x_i $ (som är en vektor i multipel regression):
$$ y_i ^ * = x_i ”\ beta + \ epsilon_i. $$
Detta är vad som kallas en latent variabel regression. Om denna individs villighet var positiv ($ y_i ^ * > 0 $) , skulle individens observerade resultat vara ett ”ja” ($ y_i = 1 $), annars ett ”nej”. Observera att valet av tröskelvärde inte betyder något som latent v ariabel modell har en avlyssning.
I linjär regression antar vi att felterm är normalfördelat. I binärt svar och andra modeller måste vi införa / anta en distribution på felvillkoren. Länkfunktionen är den kumulativa sannolikhetsfunktionen som felvillkoren följer. Om det till exempel är logistiskt (och vi använder att den logistiska fördelningen är symmetrisk i den fjärde likheten),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i” \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i ”\ beta) = P (\ epsilon_i < x_i” \ beta) = \ Lambda (x_i ”\ beta). $$
Om du antar felen som ska distribueras normalt, då skulle du ha en probit-länk, $ \ Phi (\ cdot) $, istället för $ \ Lambda (\ cdot) $.
Kommentarer
- +1 Välkommen till vår webbplats, Anna! Tack för att du har bidragit med välkonstruerade svar utöver den fråga du har ställt.
- Tack! Hur såg jag att jag var ny? Finns det något att spåra nya människor? Är du moderator? Jag känner mig lite förvånad. Men min avsikt var att ge svar mycket mer än att ställa frågor, men jag hade bara en fråga.
- Det finns ' mycket Anna. Kom igång genom att granska vårt hjälpcenter . Du kan klicka dig igenom nästan vad som helst för mer information. Användare med en diamantikon efter sina namn är moderatorer, men det är alla användare med tillräckligt stort rykte.För ytterligare frågor om hur den här webbplatsen fungerar, gå till våra metasidor . Den (idiosynkratiska) webbplatssökningen är användbar, men riktade Google-sökningar (inkluderar " site: stats.stackexchange.com ") kan vara jämn mer effektivt. Och kolla in vårt chattrum .
- @AnnaSdTC nej det finns ingen spårningsmekanism. Det finns en granskningskö som belyser inlägg från nya användare, men i de flesta fall kan du helt enkelt märka nytt smeknamn + avatar. Även i profilinformation finns information om när kontot skapades (se dig själv stats.stackexchange.com/users/146969/anna-sdtc , det finns en " medlem för " avsnitt).
- Jag ' ve letat efter svaret på " varför sigmoid " för logistisk regression ett tag och detta är det absolut bästa svaret. Jag ' förvånade mig över att inte många ML-böcker nämner detta och inför den logistiska funktionen ur det blå. Det bästa jag ' har sett talar om GLM men det påtvingar " GLM-formulär " out of the blue och använd det som " motivering ", vilket inte ' t verkligen förklara vad som helst. Det enda sättet jag kan förstå är via detta tänkande – antagande om fördelningen av feltermen, och jag tror att det är den enda verkliga förklaringen utan att införa något
Svar
Generaliserad linjär modell definieras i termer av linjär prediktor
$$ \ eta = X \ beta $$
Nästa sak är sannolikhetsfördelning som beskriver villkorlig fördelning av $ Y $ och en länkfunktion $ g $ som ”ger förhållandet mellan linjär prediktor och medelvärdet för fördelningsfunktionen”, eftersom vi inte förutsäger värdena på $ Y $ utan snarare villkorligt medelvärde av $ Y $ givna prediktorer $ X $, dvs
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
I fall av Gaussisk familj GLM (linjär regression) identitetsfunktion används som länkfunktion, så $ E (Y | X) = \ eta $, medan i fallet med logistisk regression logit-funktionen används. (Invers av) logit-funktionen omvandlar värden på $ \ eta $ i $ (- \ infty, \ infty) $ till $ (0, 1) $, eftersom logistisk regression förutsäger sannolikheter framgång , dvs. medelvärde för Bernoullis distribution. Andra funktioner används för att omvandla linjära prediktorer till medel för olika fördelningar, till exempel logfunktion för Poisson-regression , eller invers länk för gammaregression. Så länkfunktionen länkar inte värdena på $ Y $ (t.ex. binär, vid logistisk regression) och linjär prediktor, utan medelvärdet av fördelningen av $ Y $ med $ \ eta $ (faktiskt, för att översätta sannolikheterna till $ 0 $ ” s och $ 1 $ ”s behöver du dessutom en beslutsregel ). Så borttagningsmeddelandet är att vi inte förutsäger värdena på $ Y $ utan istället beskriver det i termer av en probabilistisk modell och uppskattningsparametrar av villkorlig fördelning av $ Y $ given $ X $.
För att lära dig mer om länkfunktioner och GLM ”kan du kontrollera Skillnaden mellan ' länkfunktion ' och ' kanonisk länkfunktion ' för GLM , Syftet med länkfunktionen i generaliserad linjär modell och Skillnad mellan logit och probit-modeller trådar , den mycket bra Wikipedia-artikeln om GLM ”s och Generaliserade linjära modeller bok av McCullagh och Nelder.