Ich versuche immer noch zu lernen (möglicherweise das Terminologieproblem), was „Verknüpfungsfunktion“ bedeutet. Bei der logistischen Regression nehmen wir beispielsweise an, dass die Antwortvariable aus der Binomialverteilung stammt.
Die Linkfunktion $ \ text {logit} ^ {- 1} $ konvertiert eine reelle Zahl aus $ (- \ infty, – \ infty) $ (Ausgabe von $ \ beta ^ {\ top} x $ ) auf eine Wahrscheinlichkeitszahl $ [0,1] $ . Aber wie „verknüpft“ es sich mit einer Binomialverteilung , die eine ist diskrete -Verteilung?
Ich verstehe, dass die „Verknüpfung“ zwischen einer reellen Zahl und einer Wahrscheinlichkeitszahl besteht, aber es fehlt ein Teil von der Wahrscheinlichkeitszahl zur Binomialverteilung .
Habe ich recht?
Kommentare
- Die ausführliche Beschreibung einer ungewöhnlichen Linkfunktion finden Sie möglicherweise in meiner Antwort unter stats.stackexchange.com/a/64039/919 , um von Interesse zu sein. (Die Frage kann sehr wohl ein Duplikat von Ihnen sein.) Es fehlt nichts: Die Antwort in der logistischen Regression lautet Bernoulli und wird vollständig durch ihren Parameter bestimmt (Ihre " Wahrscheinlichkeitsnummer ").
- danke @whuber, dass er mir die ganze Zeit geholfen hat. Der von Ihnen angegebene Link ist wertvoll, aber ich werde ihn aufgrund des seltsamen Fragentitels nie finden …
- Gute Suchbegriffe zu finden ist immer ein Problem – I ' Ich beschuldige Sie oder andere nicht, sie nicht gefunden zu haben. (Immer wenn ich diesen Beitrag wiederfinden muss, suche ich ausgerechnet nach " Sonnenblume, "!)
- Siehe auch Zweck der Verknüpfungsfunktion im verallgemeinerten linearen Modell .
Antwort
Wenn Sie also binäre Antwortdaten haben, erhalten Sie für jede Beobachtung ein „Ja / Nein“ – oder „1/0“ -Ergebnis. Was Sie jedoch bei einer binären Antwortregression abschätzen möchten, ist nicht ein 1/0 Ergebnis für jeden Wertesatz der von Ihnen auferlegten unabhängigen Variablen, sondern die Wahrscheinlichkeit, dass eine Person mit solchen Merkmalen zu einem „Ja“ -Ergebnis führt . Dann ist die Antwort nicht mehr diskret, sondern kontinuierlich (im Intervall (0,1)). Die Antwort in den Daten ( true $ y_i $) ist zwar binär, aber die geschätzte Antwort ($ \ Lambda (x_i „b) $ oder $ \ Phi (x_i“ b) $) sind Wahrscheinlichkeiten.
Die zugrunde liegende Bedeutung dieser Verknüpfungsfunktionen ist die folgende Sie sind die Verteilung, die wir dem Fehlerterm im Modell der latenten Variablen auferlegen. Stellen Sie sich vor, jedes Individuum hat eine zugrunde liegende (nicht beobachtbare) Bereitschaft , im Ergebnis „Ja“ zu sagen (oder eine 1 zu sein). Dann wir Modellieren Sie diese Bereitschaft als $ y_i ^ * $ unter Verwendung einer linearen Regression auf die Merkmale des Individuums $ x_i $ (was ein Vektor in multipler Regression ist):
$$ y_i ^ * = x_i „\ beta + \ epsilon_i. $$
Dies wird als latente Variablenregression bezeichnet. Wenn die Bereitschaft dieser Person positiv war ($ y_i ^ * > 0 $) Das beobachtete Ergebnis des Individuums wäre ein „Ja“ ($ y_i = 1 $), andernfalls ein „Nein“. Beachten Sie, dass die Wahl des Schwellenwerts als latentes v keine Rolle spielt Das ariable Modell hat einen Achsenabschnitt.
Bei der linearen Regression nehmen wir an, dass der Fehlerterm normalverteilt ist. In binären Antworten und anderen Modellen müssen wir den Fehlertermen eine Verteilung auferlegen / annehmen. Die Verknüpfungsfunktion ist die kumulative Wahrscheinlichkeitsfunktion, der die Fehlerterme folgen. Wenn es beispielsweise logistisch ist (und wir verwenden, dass die logistische Verteilung in der vierten Gleichheit symmetrisch ist), ist
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i“ \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i „\ beta) = P (\ epsilon_i < x_i“ \ beta) = \ Lambda (x_i „\ beta). $$
Wenn Sie angenommen haben Wenn die Fehler normal verteilt werden sollen, haben Sie einen Probit-Link, $ \ Phi (\ cdot) $, anstelle von $ \ Lambda (\ cdot) $.
Kommentare
- +1 Willkommen auf unserer Seite, Anna! Vielen Dank, dass Sie zusätzlich zu der von Ihnen gestellten Frage gut konstruierte Antworten beigesteuert haben.
- Danke! Wie hast du gesehen, dass ich neu bin? Gibt es etwas, um neue Leute aufzuspüren? Bist du ein Moderator? Ich bin ein wenig überrascht. In der Tat war meine Absicht, viel mehr Antworten zu geben als Fragen zu stellen, aber ich hatte zufällig eine Frage.
- Diese Site enthält ' eine Menge Anna. Lesen Sie zunächst unser -Hilfezentrum . Sie können durch fast alles klicken, was Sie sehen, um weitere Informationen zu erhalten. Benutzer mit einem Diamantsymbol nach ihrem Namen sind Moderatoren, aber auch Benutzer mit ausreichend großem Ruf.Weitere Fragen zur Funktionsweise dieser Website finden Sie auf unseren Metaseiten . Die (eigenwillige) Website-Suche ist nützlich, aber gezielte Google-Suchen (einschließlich " Website: stats.stackexchange.com ") können gleichmäßig sein effektiver. Schauen Sie sich auch unseren Chatraum an.
- @AnnaSdTC Nein, es gibt keinen Tracking-Mechanismus. Es gibt eine Überprüfungswarteschlange, in der Beiträge neuer Benutzer hervorgehoben werden. In den meisten Fällen können Sie jedoch einfach einen neuen Spitznamen + Avatar feststellen. In den Profilinformationen finden Sie auch Informationen darüber, wann das Konto erstellt wurde (siehe stats.stackexchange.com/users/146969/anna-sdtc " Mitglied für " Abschnitt).
- I ' ve Ich habe eine Weile nach der Antwort auf " gesucht, warum Sigmoid " für logistische Regression, und dies ist bei weitem die beste Antwort. Ich ' bin überrascht, dass nicht viele ML-Bücher dies erwähnen und die logistische Funktion aus heiterem Himmel auferlegen. Das beste, das ich ' gesehen habe, spricht über GLM, aber es legt die " GLM-Form " fest aus heiterem Himmel und verwenden Sie dies als " Begründung ", was ' nicht wirklich ist alles erklären. Der einzige Weg, den ich verstehen kann, ist über dieses Denken – Annahme über die Verteilung des Fehlerterms, und ich denke, es ist die einzige wirkliche Erklärung, ohne etwas aufzuerlegen.
Antwort
Das verallgemeinerte lineare Modell wird als linearer Prädiktor
$$ \ eta = X \ beta $$
Als nächstes folgt die Wahrscheinlichkeitsverteilung , die die bedingte Verteilung von $ Y $ und eine Link-Funktion $ g $, das „die Beziehung zwischen dem linearen Prädiktor und dem Mittelwert der Verteilungsfunktion liefert“, da wir nicht die Werte von $ Y $ vorhersagen, sondern bedingten Mittelwert von $ Y $ bei gegebenen Prädiktoren $ X $, dh
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
In Im Fall der GLM-Identitätsfunktion (lineare Regression) der Gaußschen Familie wird als Verknüpfungsfunktion verwendet, also $ E (Y | X) = \ eta $, während im Fall von logistische Regression Logit-Funktion wird verwendet. Die (Umkehrung von) logit-Funktion transformiert Werte von $ \ eta $ in $ (- \ infty, \ infty) $ in $ (0, 1) $, da die logistische Regression Wahrscheinlichkeiten vorhersagt des Erfolgs , dh Mittelwert der Bernoulli-Verteilung. Andere Funktionen werden zum Transformieren linearer Prädiktoren in Mittelwerte unterschiedlicher Verteilungen verwendet, z. B. die Protokollfunktion für die Poisson-Regression oder die inverse Verknüpfung für die Gamma-Regression. Die Verknüpfungsfunktion verknüpft also nicht die Werte von $ Y $ (z. B. binär, im Falle einer logistischen Regression) und den linearen Prädiktor, sondern den Mittelwert der Verteilung von $ Y $ mit $ \ eta $ (tatsächlich, um die Wahrscheinlichkeiten in $ 0 $ zu übersetzen. “ s und $ 1 $ „s benötigen Sie zusätzlich eine Entscheidungsregel ). Die Nachricht zum Mitnehmen lautet also, dass wir die Werte von $ Y $ nicht vorhersagen, sondern sie stattdessen anhand eines Wahrscheinlichkeitsmodells beschreiben und Parameter der bedingten Verteilung von $ Y schätzen $ Given $ X $.
Um mehr über Linkfunktionen und GLMs zu erfahren, können Sie Unterschied zwischen ' Link-Funktion ' und ' kanonische Link-Funktion ' für GLM , Zweck der Verknüpfungsfunktion in verallgemeinerten linearen Modellen und Unterschied zwischen Logit- und Probit-Modellen , der sehr gute Wikipedia-Artikel über GLMs und die verallgemeinerten linearen Modelle Buch von McCullagh und Nelder.