O teste F e o teste t são realizados em modelos de regressão.
Na saída do modelo linear em R, obtemos valores ajustados e valores esperados da variável de resposta. Suponha que eu tenha a altura como variável explicativa e o peso corporal como variável de resposta para 100 pontos de dados.
Cada coeficiente de variável (variável explicativa ou independente, se tivermos modelo de regressão múltipla) no modelo linear está associado a um valor t (junto com seu valor p)? Como esse valor t é calculado?
Também há um teste F no final; novamente estou curioso para saber sobre sua computação?
Também em ANOVA após o modelo linear, eu vi um teste F.
Embora eu seja um novo aprendiz de estatística e não de experiência estatística , Já fiz muitos tutoriais sobre isso. Por favor, não sugira para mim tutoriais básicos como eu já fiz isso. Estou apenas curioso para saber sobre o cálculo do teste T e F usando algum exemplo básico.
Comentários
- O que ' sa ' variável preditiva '? Pelo seu texto, na verdade parece que você quis dizer ' variável de resposta '
- sim! variável de resposta ou variável independente. Eu estou editando. obrigado
- Uau. Variável de resposta = variável dependente = variável y. Variável independente = variável explicativa = variável preditora = variável x. Qual é?
- Obrigado Glen_b, estou encantado com o aprendizado de tipos de variáveis em modelos de regressão e a resposta dada abaixo por Maaten buis me deixou claro o conceito.
- @bioinformatician Aqui são listas de termos que podem ajudá-lo. Vamos ' s começar com sinônimos para " variável dependente " = " variável explicada ", " Predictand ", " regressand ", " resposta ", " endógeno ", " resultado ", " variável controlada ". A seguir, estão alguns sinônimos para " variável explicativa " = " variável independente ", " preditor ", " regressor ", " estímulo ", " exógeno ", " covariate ", " variável de controle ". Alguns desses termos são mais populares do que outros em diferentes disciplinas.
Resposta
O mal-entendido é sua primeira premissa “Teste F e $ t $ -teste são realizados entre duas populações”, isto está incorreto ou pelo menos incompleto. O teste $ t $ que está próximo a um coeficiente testa a hipótese nula de que esse coeficiente é igual a 0. Se a variável correspondente for binária, por exemplo 0 = masculino, 1 = feminino, então isso descreve as duas populações, mas com a complicação adicional que você também ajusta para as outras covariáveis em seu modelo. Se essa variável for contínua, por exemplo anos de estudo, você pode pensar em comparar alguém com 0 anos de estudo com alguém com 1 ano de estudo e alguém com 1 ano de estudo com alguém com 2 anos de estudo, etc, com a restrição de que cada etapa tem o mesmo efeito no resultado esperado e novamente com a complicação que você ajusta para as outras covariáveis em seu modelo.
Um teste F após a regressão linear testa a hipótese nula de que todos os coeficientes em seu modelo, exceto a constante, são iguais a 0. Portanto, os grupos que você está comparando são ainda mais complexos.
Comentários
- Caro Maarten Buis! Bela explicação. Meu voto positivo por escrito para você 🙂 ..minha pontuação de reputação atual não me permite votar 🙁 !!
Resposta
Algumas notações no início, estou usando z ~ N (0,1), u ~ χ2 (p), v ~ χ2 (q) ez, uev são mutuamente independentes (condição importante)
- t = z / sqrt (u / p). Para cada um dos coeficientes βj, se você testar se h0: βj = 0. Então (βj-0) / 1 é basicamente z, e variâncias da amostra (n-2) S ^ 2 ~ χ2 (n-2), então você também tem sua parte inferior. Então, quando t é grande, o que significa que ele se desvia de H0 (valor p significativo) e rejeitamos Ho .
- F = (u / p) / (v / q), onde u poderia ter parâmetros não centrais λ. Como você obtém dois χ2 independentes na regressão linear geral?Estimativa βhat (o vetor inteiro) e variação da amostra estimada s ^ 2 são sempre independentes. Portanto, o teste F na regressão linear é basicamente (SSR / k) / (SSE / (n-k-1)). (SSR: soma dos quadrados da regressão SSE: soma dos quadrados do erro). Em H0: β = 0, o topo terá qui-quadrado central (e, portanto, F não central), caso contrário, seguirá as estatísticas de teste não centrais. Portanto, se você quiser saber a relação entre t e F, pense na regressão linear simples. Y = Xb + a (b é um escalar), então o teste t para be o teste F geral são a mesma coisa.
- Para ANOVA (unilateral), há muitos dados estatísticos sobre o matriz X não completa e coisas de funções estimáveis, não quero sobrecarregá-lo com tudo isso. Mas a ideia básica é, por exemplo, temos 4 tratamentos em covid-19, e queremos comparar se há diferença entre os 4 grupos. Então, F = \ sum {n = 1} ^ {4-1} (Fi) / (4-1) total (4-1) contrastes ortogonais linearmente independentes totais F = \ sum {n = 1} ^ {4-1} total (4-1). valor, rejeitaríamos H0: nenhuma diferença entre 4 grupos.
Lol Eu acabei de perceber que você fez essa pergunta há tantos anos e provavelmente não está mais confuso. Mas se houver alguma chance de você “Ainda estou interessado, você pode verificar o livro” Modelo linear em estatísticas “para obter explicações mais rigorosas. Eu estava revisando o livro para meu qualificador e me deparei com isso 🙂