Ik ben nog steeds aan het proberen om erachter te komen (dit kan het terminologiekwestie zijn) wat “link function” betekent. Bij logistische regressie nemen we bijvoorbeeld aan dat de responsvariabele afkomstig is uit binominale distributie.
De $ \ text {logit} ^ {- 1} $ linkfunctie converteert een reëel getal van $ (- \ infty, – \ infty) $ (uitvoer van $ \ beta ^ {\ top} x $ ) naar een kansgetal $ [0,1] $ . Maar hoe “linkt” het naar een binominale distributie wat een is discrete distributie?
Ik begrijp dat de “link” is tussen een reëel getal en een waarschijnlijkheidsgetal, maar er ontbreekt een deel van kansgetal tot binominale verdeling .
Heb ik gelijk?
Reacties
- Misschien vind je de gedetailleerde bespreking van een ongebruikelijke linkfunctie in mijn antwoord op stats.stackexchange.com/a/64039/919 om interessant te zijn. (De vraag is misschien een duplicaat van die van u.) Er ontbreekt niets: het antwoord in logistieke regressie is Bernoulli en het wordt volledig bepaald door de parameter (uw " waarschijnlijkheidsnummer ").
- bedankt @whuber voor de voortdurende hulp. de link die je hebt opgegeven is waardevol, maar ik zal hem nooit vinden vanwege de rare vraagtitel …
- Het vinden van goede zoektermen is altijd een probleem – I ' Ik verwijt u of iemand anders niet dat u het niet heeft gevonden. (Telkens wanneer ik dat bericht opnieuw moet vinden, zoek ik op " zonnebloem, " van alle dingen!)
- Zie ook Doel van de linkfunctie in gegeneraliseerd lineair model .
Antwoord
Dus als je binaire responsgegevens hebt, heb je een “ja / nee” of “1/0” uitkomst voor elke waarneming. Wat u echter probeert te schatten wanneer u een binaire responsregressie uitvoert, is niet een 1/0-uitkomst voor elke reeks waarden van de onafhankelijke variabelen die u oplegt, maar de waarschijnlijkheid dat een persoon met dergelijke kenmerken zal resulteren in een ja-uitkomst . Dan is het antwoord niet meer discreet, het is continu (in het (0,1) interval). Het antwoord in de data (de true $ y_i $) is inderdaad binair, maar de geschatte respons (de $ \ Lambda (x_i “b) $ of $ \ Phi (x_i” b) $) zijn waarschijnlijkheden.
De onderliggende betekenis van deze linkfuncties is dat ze zijn de verdeling die we opleggen aan de foutterm in het latente variabelemodel. Stel je voor dat elk individu een onderliggende (niet-waarneembare) bereidheid heeft om ja te zeggen (of een 1 te zijn) in de uitkomst. modeleer deze bereidheid als $ y_i ^ * $ met behulp van een lineaire regressie op de individuele kenmerken $ x_i $ (wat een vector is in meervoudige regressie):
$$ y_i ^ * = x_i “\ beta + \ epsilon_i. $$
Dit wordt een latente variabele regressie genoemd. Als de bereidheid van deze persoon positief was ($ y_i ^ * > 0 $) , zou de waargenomen uitkomst van het individu een “ja” zijn ($ y_i = 1 $), anders een “nee”. Merk op dat de keuze van de drempel er niet toe doet, aangezien de latente v ariable model heeft een snijpunt.
Bij lineaire regressie gaan we ervan uit dat de foutterm normaal verdeeld is. In binaire respons en andere modellen moeten we een verdeling opleggen / aannemen voor de fouttermen. De linkfunctie is de cumulatieve waarschijnlijkheidsfunctie die de fouttermen volgen. Als het bijvoorbeeld logistiek is (en we zullen gebruiken dat de logistieke verdeling symmetrisch is in de vierde gelijkheid),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i” \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i “\ beta) = P (\ epsilon_i < x_i” \ beta) = \ Lambda (x_i “\ beta). $$
Als je aannam de fouten normaal te verdelen, dan zou je een probitlink hebben, $ \ Phi (\ cdot) $, in plaats van $ \ Lambda (\ cdot) $.
Opmerkingen
- +1 Welkom op onze site, Anna! Bedankt voor het leveren van goed opgebouwde antwoorden naast de vraag die je hebt gesteld.
- Bedankt! Hoe zag je dat ik nieuw was? Is er iets om nieuwe mensen te volgen? Ben je een moderator? Ik ben een beetje verbaasd. Maar het was inderdaad mijn bedoeling om veel meer antwoorden te geven dan vragen te stellen, maar ik had toevallig een vraag.
- Er is ' veel op deze site , Anna. Ga aan de slag door ons Helpcentrum te raadplegen. U kunt door bijna alles wat u ziet klikken voor meer informatie. Gebruikers met een diamantpictogram achter hun naam zijn moderators, maar dat geldt ook voor gebruikers met een voldoende grote reputatie.Voor aanvullende vragen over hoe deze site werkt, gaat u naar onze metapaginas . De (idiosyncratische) site-zoekopdracht is nuttig, maar gerichte Google-zoekopdrachten (inclusief " site: stats.stackexchange.com ") kunnen zelfs effectiever. En bekijk onze chatroom .
- @AnnaSdTC nee, er is geen volgmechanisme. Er is een beoordelingswachtrij die berichten van nieuwe gebruikers markeert, maar in de meeste gevallen kun je eenvoudig een nieuwe bijnaam + avatar opmerken. Ook in profielinformatie staat informatie over wanneer het account is aangemaakt (zie jezelf stats.stackexchange.com/users/146969/anna-sdtc , er is een " lid voor " sectie).
- I ' ve was al een tijdje op zoek naar het antwoord op " waarom sigmoid " voor logistieke regressie en dit is verreweg het beste antwoord. Het verbaasde me ' dat niet veel ML-boeken dit vermelden en de logistieke functie uit het niets opleggen. De beste die ik ' heb gezien, spreekt over GLM, maar het legt het " GLM-formulier " op uit het niets en gebruik dat als " rechtvaardiging ", wat niet ' echt leg iets uit. De enige manier die ik kan begrijpen is via dit denken – aanname over de verdeling van de foutterm, en ik denk dat dit de enige echte verklaring is zonder iets op te leggen
Antwoord
Gegeneraliseerd lineair model wordt gedefinieerd in termen van lineaire voorspeller
$$ \ eta = X \ beta $$
Het volgende is kansverdeling die de voorwaardelijke verdeling van $ Y $ en een linkfunctie $ g $ dat “de relatie geeft tussen de lineaire voorspeller en het gemiddelde van de verdelingsfunctie”, aangezien we niet de waarden van $ Y $ voorspellen maar eerder voorwaardelijk gemiddelde van $ Y $ gegeven voorspellers $ X $, dwz
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
In geval van de Gaussiaanse familie GLM (lineaire regressie) identiteitsfunctie wordt gebruikt als een linkfunctie, dus $ E (Y | X) = \ eta $, terwijl in het geval van logistische regressie logit-functie wordt gebruikt. (Inverse of) logit-functie transformeert waarden van $ \ eta $ in $ (- \ infty, \ infty) $ naar $ (0, 1) $, aangezien logistische regressie kansen voorspelt van succes , dat wil zeggen het gemiddelde van de Bernoulli-distributie. Andere functies worden gebruikt voor het omzetten van lineaire voorspellers naar middelen met verschillende verdelingen, bijvoorbeeld logfunctie voor Poisson-regressie , of inverse link voor gamma-regressie. De linkfunctie verbindt dus geen waarden van $ Y $ (bijv. Binair, in het geval van logistische regressie) en lineaire voorspeller, maar het gemiddelde van de verdeling van $ Y $ met $ \ eta $ (eigenlijk, om de kansen te vertalen naar $ 0 $ ” s en $ 1 $ “s zou je bovendien een beslissingsregel ) nodig hebben. Het meeneembericht is dus dat we niet de waarden van $ Y $ voorspellen, maar het in plaats daarvan beschrijven in termen van een probabilistisch model en schattingsparameters van voorwaardelijke verdeling van $ Y $ gegeven $ X $.
Voor meer informatie over linkfuncties en GLM “s kunt u Verschil tussen ' link functie ' en ' canonieke link functie ' voor GLM , Doel van de linkfunctie in gegeneraliseerd lineair model en Verschil tussen logit- en probit-modellen threads , het zeer goede Wikipedia-artikel over GLM “s en de gegeneraliseerde lineaire modellen boek door McCullagh en Nelder.