Estou muito confuso sobre a diferença de significado em relação ao contexto de regressão linear dos seguintes termos:

  • F estatística
  • R ao quadrado
  • Erro padrão residual

Encontrei este webstie que me deu uma grande visão sobre os diferentes termos envolvidos na regressão linear, no entanto, os termos mencionados acima se parecem bastante (pelo que eu entendo). Citarei o que li e o que me confundiu:

O erro padrão residual é a medida da qualidade de um ajuste de regressão linear ……. O erro padrão residual é a quantidade média que a resposta (dist ) se desviará da linha de regressão verdadeira.

1. Esta é, portanto, a distância média dos valores observados da linha lm?

A estatística R-quadrado fornece um me certeza de quão bem o modelo está ajustando os dados reais.

2. Agora estou ficando confuso porque se RSE nos diz o quanto nossos pontos observados se desviam da linha de regressão, um RSE baixo está realmente nos dizendo” seu modelo está se encaixando bem com base nos pontos de dados observados “- > portanto, quão bem nossos modelos se ajustam, então qual é a diferença entre R ao quadrado e RSE?

A estatística F é um bom indicador de se há uma relação entre nosso preditor e as variáveis de resposta.

3. É verdade que podemos ter um valor F indicando um relacionamento forte que é NÃO LINEAR, de modo que nosso RSE é alto e nosso R ao quadrado é baixo

Comentários

  • Q 3 Fvalue não indica relacionamento não linear . É uma razão que indica se existe uma relação substantiva (constante) entre as duas variáveis – dependente e independente.
  • Não nos diz a natureza da relação – não linear ou linear.

Resposta

A melhor maneira de entender esses termos é fazer um cálculo de regressão manualmente. Escrevi duas respostas intimamente relacionadas ( aqui e aqui ), no entanto, elas podem não ajudar totalmente você entender seu caso particular. Mas leia-os mesmo assim. Talvez eles também ajudem a conceituar melhor esses termos.

Em uma regressão (ou ANOVA), construímos um modelo com base em um conjunto de dados de amostra que nos permite prever os resultados de uma população de interesse. Para fazer isso, os três componentes a seguir são calculados em uma regressão linear simples a partir da qual os outros componentes podem ser calculados, e. os quadrados médios, o valor F, o $ R ^ 2 $ (também o $ R ^ 2 $ ), e o erro padrão residual ( $ RSE $ ):

  1. somas totais dos quadrados ( $ SS_ {total} $ )
  2. somas residuais de quadrados ( $ SS_ {residual} $ )
  3. modelar somas de quadrados ( $ SS_ {model} $ )

Cada um deles está avaliando quão bem o modelo descreve os dados e é a soma das distâncias quadradas dos pontos de dados ao modelo ajustado (ilustrado como linhas vermelhas no gráfico abaixo).

O $ SS_ {total} $ avalia o quão bem a média se ajusta aos dados. Por que isso significa? Como a média é o modelo mais simples que podemos ajustar e, portanto, serve como o modelo ao qual a linha de regressão de mínimos quadrados é comparada. Este gráfico usando o conjunto de dados cars ilustra que:

insira a descrição da imagem aqui

O $ SS_ {residual} $ avalia o quão bem a linha de regressão se ajusta aos dados.

insira a descrição da imagem aqui

A $ SS_ {model} $ compara quão melhor a linha de regressão é comparada à média (ou seja, a diferença entre o $ SS_ {total} $ e o $ SS_ {residual} $ ).

insira a descrição da imagem aqui

Para responder às suas perguntas , vamos primeiro calcular os termos que você deseja entender começando com o modelo e a saída como referência:

# The model and output as reference m1 <- lm(dist ~ speed, data = cars) summary(m1) summary.aov(m1) # To get the sums of squares and mean squares 

As somas dos quadrados são as distâncias quadradas de os dados individuais apontam para o modelo:

# Calculate sums of squares (total, residual and model) y <- cars$dist ybar <- mean(y) ss.total <- sum((y-ybar)^2) ss.total ss.residual <- sum((y-m1$fitted)^2) ss.residual ss.model <- ss.total-ss.residual ss.model 

Os quadrados médios são as somas dos quadrados calculados pelos graus de liberdade:

# Calculate degrees of freedom (total, residual and model) n <- length(cars$speed) k <- length(m1$coef) # k = model parameter: b0, b1 df.total <- n-1 df.residual <- n-k df.model <- k-1 # Calculate mean squares (note that these are just variances) ms.residual <- ss.residual/df.residual ms.residual ms.model<- ss.model/df.model ms.model 

Minhas respostas às suas perguntas:

Q1:

  1. Este é, portanto, realmente a distância média dos valores observados da linha lm?

O erro padrão residual ( $ RSE $ ) é a raiz quadrada do quadrado médio residual ( $ MS_ {r esidual} $ ):

# Calculate residual standard error res.se <- sqrt(ms.residual) res.se 

Se você se lembrar que o $ SS_ {residual} $ foram as distâncias quadradas dos pontos de dados observados e do modelo (linha de regressão no segundo gráfico acima), e $ MS_ {residual} $ era apenas média $ SS_ {residual} $ , a resposta para o seu primeiro a questão é, sim: O $ RSE $ representa a distância média dos dados observados do modelo. Intuitivamente, isso também faz sentido porque se a distância for menor, o ajuste do seu modelo também será melhor.

Q2:

  1. Agora estou ficando confuso porque se o RSE nos diz o quão longe nossos pontos observados se desviam do linha de regressão um baixo RSE está realmente nos dizendo “seu modelo está se encaixando bem com base nos pontos de dados observados” -> portanto, quão bem nossos modelos se ajustam, então qual é a diferença entre R ao quadrado e RSE?

Agora, o $ R ^ 2 $ é a proporção do $ SS_ {model} $ e o $ SS_ {total} $ :

# R squared r.sq <- ss.model/ss.total r.sq 

O $ R ^ 2 $ expressa quanto da variação total nos dados pode ser explicada pelo modelo (a regressão linha). Lembre-se de que a variação total foi a variação nos dados quando ajustamos o modelo mais simples aos dados, ou seja, a média. Compare o gráfico $ SS_ {total} $ com o gráfico $ SS_ {model} $ .

Então, para responder à sua segunda pergunta, a diferença entre o $ RSE $ e o $ R ^ 2 $ é que $ RSE $ diz algo sobre a imprecisão do modelo (neste caso, a linha de regressão) dados os dados observados.

O $ R ^ 2 $ , por outro lado, informa quanta variação é explicada pelo modelo (ou seja, a linha de regressão) em relação à variação que foi explicada pelo significa sozinho (ou seja, o modelo mais simples).

Q3:

  1. É verdade que podemos ter um valor F indicando uma relação forte que é NÃO LINEAR, de modo que nosso RSE é alto e nosso R ao quadrado é baixo

Então t O $ F $ -valor do outro é calculado como o quadrado médio do modelo $ MS_ {model} $ (ou o sinal) dividido pelo $ MS_ {residual} $ (ruído):

# Calculate F-value F <- ms.model/ms.residual F # Calculate P-value p.F <- 1-pf(F, df.model, df.residual) p.F 

Ou, em outras palavras, o $ F $ -valor expressa o quanto o modelo melhorou (em comparação com a média) devido à imprecisão do modelo.

Sua terceira pergunta é um pouco difícil de entender, mas concordo com a citação que você forneceu.

Resposta

(2 ) Você está entendendo corretamente, está apenas tendo dificuldades com o conceito.

O valor de $ R ^ 2 $ representa o quão bem o modelo considera todos os dados. Ele só pode assumir valores entre 0 e 1. É a porcentagem do desvio dos pontos no conjunto de dados que o modelo pode explicar.

O RSE é mais um descritor de qual é o desvio do modelo que os dados originais representam. Então, o $ R ^ 2 $ diz, “o modelo faz isso bem em explicar os dados apresentados.” O RSE diz: “quando mapeados, esperávamos que os dados estivessem aqui, mas aqui é onde realmente estavam.” Eles são muito semelhantes, mas são usados para validar de maneiras diferentes.

Resposta

Apenas para complementar o que Chris respondeu acima:

A estatística F é a divisão de o quadrado médio do modelo e o quadrado médio residual. Software como o Stata, após ajustar um modelo de regressão, também fornece o valor p associado à estatística F. Isso permite que você teste a hipótese nula de que os coeficientes do seu modelo são zero. Você pode pensar nisso como a “significância estatística do modelo como um todo”.

Resposta

Conforme indico esta outra resposta , $ F $ , $ RSS $ e $ R ^ 2 $ estão todos inter-relacionados. Aqui “está o trecho relevante:

A estatística F entre dois modelos, o modelo nulo (interceptar apenas) $ m_0 $ e o modelo alternativo $ m_1 $ ( $ m_0 $ está aninhado em $ m_1 $ ) é:

$$ F = \ frac {\ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right)} {\ left (\ frac {RSS_1} {n-p_1} \ right)} = \ left (\ frac {RSS_0-RSS_1} {p_1-p_0} \ right) \ left (\ frac {n-p_1} {RSS_1} \ right) $$

$ R ^ 2 $ por outro lado, é definido como:

$$ R ^ 2 = 1- \ frac {RSS_1} {RSS_0} $$

Reorganizando $ F $ podemos ver que:

$$ F = \ left (\ frac {RSS_0-RSS_1} {RSS_1} \ right) \ left (\ frac {n -p_1} {p_1-p_0} \ direita) = \ esquerda (\ frac {RSS_0} {RSS_1} -1 \ direita) \ esquerda (\ frac {n-p_1} {p_1-p_0} \ direita) = \ esquerda ( \ frac {R ^ 2} {1-R ^ 2} \ right) \ left (\ frac {n-p_1} {p_1-p_0} \ right) $$

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *