Ainda estou tentando aprender (pode ser o problema de terminologia) o que significa “função de link”. Por exemplo, na regressão logística, assumimos que a variável de resposta vem da distribuição binomial.
A função de link $ \ text {logit} ^ {- 1} $ converte um número real de $ (- \ infty, – \ infty) $ (saída de $ \ beta ^ {\ top} x $ ) para um número de probabilidade $ [0,1] $ . Mas como ele se “vincula” a uma distribuição binomial que é uma distribuição discreta?
Eu entendo que o “vínculo” é entre um número real e um número de probabilidade, mas há alguma parte faltando do número de probabilidade para a distribuição binomial .
Estou certo?
Comentários
- Você pode encontrar a discussão detalhada de uma função de link incomum em minha resposta em stats.stackexchange.com/a/64039/919 para ser de algum interesse. (A pergunta pode ser uma duplicata sua.) Não falta nada: a resposta na regressão logística é Bernoulli e é completamente determinada por seu parâmetro (seu " número de probabilidade ").
- obrigado @whuber por me ajudar o tempo todo. o link que você forneceu é valioso, mas nunca vou encontrá-lo por causa do título estranho da pergunta …
- Encontrar bons termos de pesquisa é sempre um problema – I ' Não estou culpando você ou qualquer outra pessoa por não o encontrar. (Sempre que preciso encontrar aquela postagem novamente, procuro em " girassol, " de todas as coisas!)
- Veja também Objetivo da função de link no modelo linear generalizado .
Resposta
Então, quando você tem dados binários de resposta, tem um resultado “sim / não” ou “1/0” para cada observação. No entanto, o que você está tentando estimar ao fazer uma regressão de resposta binária não é um resultado 1/0 para cada conjunto de valores das variáveis independentes que você impõe, mas a probabilidade de que um indivíduo com tais características resulte em um resultado “sim” . Então a resposta não é mais discreta, é contínua (no intervalo (0,1)). A resposta nos dados (o verdadeiro $ y_i $) é, de fato, binário, mas o a resposta estimada (a $ \ Lambda (x_i “b) $ ou $ \ Phi (x_i” b) $) são probabilidades.
O significado subjacente dessas funções de link é que eles são a distribuição que impomos ao termo de erro no modelo de variável latente. Imagine que cada indivíduo tem uma disposição subjacente (não observável) de dizer “sim” (ou ser 1) no resultado. Então, nós modelar esta disposição como $ y_i ^ * $ usando uma regressão linear nas características do indivíduo $ x_i $ (que é um vetor em regressão múltipla):
$$ y_i ^ * = x_i “\ beta + \ epsilon_i. $$
Isso é o que se chama de regressão de variável latente. Se a disposição desse indivíduo for positiva ($ y_i ^ * > 0 $) , o resultado observado do indivíduo seria um “sim” ($ y_i = 1 $), caso contrário, um “não”. Observe que a escolha do limite não importa como o v latente modelo ariável tem um intercepto.
Na regressão linear, assumimos que o termo de erro é normalmente distribuído. Em resposta binária e outros modelos, precisamos impor / assumir uma distribuição nos termos de erro. A função de ligação é a função de probabilidade cumulativa que os termos de erro seguem. Por exemplo, se for logístico (e usaremos que a distribuição logística é simétrica na quarta igualdade),
$$ P (y_i = 1) = P (y_i ^ * > 0) = P (x_i” \ beta + \ epsilon_i > 0) = P (\ epsilon_i > -x_i “\ beta) = P (\ epsilon_i < x_i” \ beta) = \ Lambda (x_i “\ beta). $$
Se você assumiu os erros sejam normalmente distribuídos, então você teria um link probit, $ \ Phi (\ cdot) $, em vez de $ \ Lambda (\ cdot) $.
Comentários
- +1 Bem-vinda ao nosso site, Anna! Obrigado por contribuir com respostas bem construídas, além da pergunta que você fez.
- Obrigado! Como você viu que eu era novo? Existe algo para rastrear novas pessoas? Você é moderador? Estou um pouco surpreso. Mas, na verdade, minha intenção era dar respostas muito mais do que fazer perguntas, mas aconteceu de eu ter uma pergunta.
- Há ' muito neste site , Anna. Comece revisando nossa Central de Ajuda . Você pode clicar em quase tudo que vir para obter mais informações. Os usuários com um ícone de diamante após seus nomes são moderadores, mas o mesmo ocorre com qualquer usuário com reputação suficientemente grande.Para perguntas adicionais sobre como este site funciona, vá para nossas meta páginas . A pesquisa de site (idiossincrática) é útil, mas as pesquisas direcionadas do Google (incluem " site: stats.stackexchange.com ") podem ser uniformes mais efetivo. E verifique nossa sala de chat .
- @AnnaSdTC não, não há mecanismo de rastreamento. Há uma fila de revisão que destaca as postagens de novos usuários, mas na maioria dos casos você pode simplesmente notar um novo apelido + avatar. Além disso, nas informações do perfil, há informações sobre quando a conta foi criada (veja você mesmo stats.stackexchange.com/users/146969/anna-sdtc , há um " membro da seção ").
- I ' ve Há algum tempo procuro a resposta para " por que sigmoid " para regressão logística e esta é de longe a melhor resposta. Eu ' estou surpreso que poucos livros de ML mencionem isso e impõem a função logística do nada. O melhor que ' já vi fala sobre GLM, mas impõe o " formulário GLM " inesperadamente e use isso como " justificação ", o que não ' realmente explicar qualquer coisa. A única maneira que posso entender é por meio deste pensamento – suposição sobre a distribuição do termo de erro, e acho que é a única explicação real sem impor nada
Resposta
O modelo linear generalizado é definido em termos de preditor linear
$$ \ eta = X \ beta $$
O próximo passo é a distribuição de probabilidade que descreve a distribuição condicional de $ Y $ e uma função de link $ g $ que “fornece a relação entre o preditor linear e a média da função de distribuição”, uma vez que não estamos prevendo os valores de $ Y $, mas sim média condicional de $ Y $ dados preditores $ X $, ou seja,
$$ E (Y | X) = g ^ {- 1} (\ eta) $$
Em caso da família Gaussiana, a função de identidade GLM (regressão linear) é usada como uma função de ligação, então $ E (Y | X) = \ eta $, enquanto no caso de regressão logística função logit é usada. (Inverso de) função logit transforma valores de $ \ eta $ em $ (- \ infty, \ infty) $ em $ (0, 1) $, uma vez que a regressão logística prevê probabilidades de sucesso , ou seja, média da distribuição de Bernoulli. Outras funções são usadas para transformar preditores lineares em médias de distribuições diferentes, por exemplo, função de log para regressão de Poisson ou link inverso para regressão gama. Assim, a função de ligação não vincula valores de $ Y $ (por exemplo, binário, no caso de regressão logística) e preditor linear, mas a média da distribuição de $ Y $ com $ \ eta $ (na verdade, para traduzir as probabilidades para $ 0 $ ” se $ 1 $ “s você também precisaria de uma regra de decisão ). Portanto, a mensagem final é que não estamos prevendo os valores de $ Y $, mas sim descrevendo-os em termos de modelo probabilístico e estimando parâmetros de distribuição condicional de $ Y $ given $ X $.
Para saber mais sobre funções de link e GLM “s, você pode verificar a Diferença entre ' função de link ' e ' função de link canônico ' para GLM , Objetivo da função de link no modelo linear generalizado e Diferença entre os modelos logit e probit threads , o excelente artigo da Wikipedia sobre GLM “s e os modelos lineares generalizados livro de McCullagh e Nelder.