Lembro-me de participar de cursos de estatística como uma audiência de graduação sobre por que a extrapolação era uma má ideia. Além disso, há uma variedade de fontes online que comentam sobre isso. Também há uma menção a isso aqui .

Alguém pode me ajudar a entender por que a extrapolação é uma má ideia? Se for, como será que as técnicas de previsão não são “estatisticamente inválidas?

Comentários

  • @Firebug Mark Twain tinha algo a dizer sobre isso. A passagem relevante é citada perto do final de minha resposta em stats.stackexchange.com/a/24649/919 .
  • @whuber I acho que isso não é ‘ exatamente uma extrapolação pensando nisso agora. Digamos que treinamos e validamos adequadamente um algoritmo para prever dados uma semana após o início do recurso. Fazendo a reamostragem correta (e ajuste, se houver hiperparâmetros a serem ajustados), então posso ‘ ver o que ‘ está errado se que você tem uma resposta e também deve saber a confiança dessa resposta. Agora, se você treinar seu algoritmo semanalmente, não pode ‘ esperar uma previsão precisa de um ano no futuro. Desculpe pela possível confusão.
  • @Firebug Não há necessidade de se desculpar – seus comentários contêm informações úteis de esclarecimento. Conforme eu os li, eles sugerem que ” extrapolar ” pode ter várias interpretações em uma configuração de previsão. Uma é que envolve uma ” extrapolação ” de tempo. Mas quando você olha para modelos de série de tempo padrão, especialmente aqueles em que o tempo não é uma covariável explícita, eles prevêem valores futuros em termos de valores anteriores . Quando esses valores anteriores permanecem dentro dos intervalos dos valores anteriores anteriores, o modelo não realiza nenhuma extrapolação! Nesse caso, pode haver uma resolução do aparente paradoxo.
  • xkcd.com/605
  • Eu ‘ estou desapontado com o tempo que demorou para o xkcd obrigatório aparecer

Resposta

Um modelo de regressão é freqüentemente usado para extrapolação, isto é, prever a resposta a uma entrada que está fora de o intervalo dos valores da variável preditora usada para ajustar o modelo. O perigo associado à extrapolação é ilustrado na figura a seguir. gráfico mostrando a linha extrapolada continuando para cima, onde

true ” diminui o valor

O modelo de regressão é “por construção” um modelo de interpolação e não deve ser usado para extrapolação, a menos que seja apropriadamente justificado.

Comentários

  • Este é um exemplo terrível contra extrapolação. A linha de regressão reta se ajusta a pontos de dados muito melhor do que sua função verdadeira curvilínea.
  • ” A linha de regressão reta se ajusta a pontos de dados muito melhor do que sua função verdadeira curvilínea ” Esta afirmação é falsa. O RSS para a função de regressão verdadeira é menor do que RSS para a linha de regressão simples,
  • Considere o ponto e você pode (deve) estar certo. Mas, a julgar pelo lote de pontos, não há como inferir a verdadeira função.
  • Exatamente. E é por isso que a extrapolação pode ser uma má ideia.
  • ” O modelo de regressão é “por construção” um modelo de interpolação ” – > Acho que podemos ter exatamente o mesmo problema com a interpolação (mesmo que ‘ seja menos provável de acontecer)

Resposta

Este quadrinhos xkcd explica isso todos.

mg src = “https://i.stack.imgur.com/4QwTj.png” alt = “xkcd comic” title = “Por terceiro trimestre, haverá centenas de bebês dentro de você. “>

Usando os pontos de dados de Cueball (o homem com a bengala), ele extrapolou que a mulher terá” quatro dúzias “maridos no final do mês que vem e usou essa extrapolação para concluir a compra do bolo de casamento a granel.

Edição 3: Para aqueles de vocês que dizem “ele não” tem pontos de dados suficientes “, ele re “s outro quadrinho xkcd :

mg src =” https://i.stack.imgur.com/7oDyK.png “alt =” xkcd comic “title =” Embora 100 anos seja mais do que muitos de nossos recursos. “>

Aqui, o uso do a palavra “sustentável” ao longo do tempo é mostrada em um gráfico semi-logado e, extrapolando os pontos de dados, recebemos estimativas irracionais de quantas vezes a palavra “sustentável” ocorrerá no futuro.

Editar 2: Para aqueles de vocês que dizem “você também precisa de todos os pontos de dados anteriores”, ainda outro quadrinho xkcd: mg src = “https://i.stack.imgur.com/JTTW1.png” alt = “xkcd comic” title = “2031: Google defende o giro microscópios eletrônicos de varredura montados em tetos em seus carros do Street View, informando que eles ‘ não ‘ não revelam nada que não ‘ ser visto por qualquer pedestre examinando sua casa com um microscópio eletrônico.”>

Aqui, temos todos os dados anteriores, mas não conseguimos prever com precisão a resolução de Google Earth. Observe que este é um gráfico de semi-log também.

Editar: Às vezes, até mesmo o mais forte de (r = 0,9979 neste caso) as correlações estão simplesmente erradas.


Se você extrapolar sem outras evidências de apoio, você também violou a correlação não implica causalidade ; outro grande pecado no mundo das estatísticas.

Se você extrapolar X com Y, no entanto, deve certificar-se de que pode com precisão (o suficiente para satisfazer seus requisitos) preveja X com apenas Y. Quase sempre, há vários fatores que afetam X.

I gostaria de compartilhar um link para outra resposta que a explica nas palavras de Nassim Nicholas Taleb.

Comentários

  • xkcd faz uma piada sobre todos os possíveis problemas de matemática / estatística que alguém pode encontrar, não ‘ acha?
  • Esta ideia também pode ser usada como um argumento contra a interpolação: ” na noite passada você teve 0,5 maridos “.
  • @JiK Se tudo que você sabe é que ela tem um agora, e dois dias atrás não tinha nenhum, isso não é uma estimativa ruim 😉
  • Sustentável sustentável Sustentável sustentável sustentável sustentável Sustentável sustentável. en.wikipedia.org/wiki/…
  • mais xkcd, pessoal!

Resposta

” A previsão é muito difícil, especialmente se ” s sobre o futuro “. A citação é atribuída a muitas pessoas de alguma forma . Eu restrinjo no seguinte ” extrapolação ” para ” previsão fora do intervalo conhecido “, e em uma configuração unidimensional, extrapolação de um passado conhecido para um futuro desconhecido.

Então, o que há de errado com a extrapolação. Primeiro, não é fácil modelar o passado . Em segundo lugar, é difícil saber se um modelo do passado pode ser usado para o futuro . Por trás de ambas as afirmações residem questões profundas sobre causalidade ou ergodicidade , suficiência de variáveis explicativas, etc. que são bastante dependentes do caso. O que está errado é que é difícil escolher um único esquema de extrapolação que funcione bem em diferentes contextos, sem muitas informações extras.

Essa incompatibilidade genérica é claramente ilustrada no Conjunto de dados do quarteto Anscombe mostrado abaixo. A regressão linear também é (fora do intervalo $ x $ -coordenadas) uma instância de extrapolação. A mesma linha regrede quatro conjuntos de pontos, com as mesmas estatísticas padrão. No entanto, os modelos subjacentes são bastante diferentes: o primeiro é bastante padrão. O segundo é um erro de modelo paramétrico (um polinômio de segundo ou terceiro grau poderia ser mais adequado), o terceiro mostra um ajuste perfeito, exceto para um valor (outlier?), O quarto uma falta de relações suaves (histerese?).

Quarteto Anscombe

No entanto, a previsão pode ser retificada até certo ponto . Somando-se a outras respostas, alguns ingredientes podem ajudar na extrapolação prática:

  1. Você pode pesar as amostras de acordo com sua distância (índice $ n $ ) ao local $ p $ onde você deseja para extrapolar. Por exemplo, use uma função crescente $ f_p (n) $ (com $ p \ ge n $ ) , como ponderação exponencial ou suavização , ou janelas deslizantes de amostras, para dar menos importância aos valores mais antigos.
  2. Você pode usar vários modelos de extrapolação e combiná-los ou selecionar o melhor ( Combinar previsões , J. Scott Armstrong, 2001).Recentemente, houve uma série de trabalhos sobre sua combinação ótima (posso fornecer referências se necessário).

Recentemente, estive envolvido em um projeto de extrapolação de valores para a comunicação de simulação subsistemas em um ambiente de tempo real. O dogma nesse domínio era que a extrapolação pode causar instabilidade. Na verdade, percebemos que combinar os dois ingredientes acima era muito eficiente, sem instabilidade perceptível (sem uma prova formal ainda: CHOPtrey: extrapolação polinomial online contextual para co-simulação multi-core aprimorada de sistemas complexos , Simulação, 2017). E a extrapolação funcionou com polinômios simples, com uma carga computacional muito baixa, a maioria das operações sendo computadas de antemão e armazenadas em tabelas de consulta.

Finalmente, como a extrapolação sugere desenhos engraçados, o seguinte é o inverso efeito da regressão linear:

Diversão com amor e regressão linear

Comentários

  • +1 Boa resposta. De acordo com este site , parece improvável que Bohr o tenha dito. Parece mais provável ser um provérbio dinamarquês incomum, mas genérico.
  • @ usεr11852 É improvável que ele ” tenha dito que “? É por isso que eu disse ” atribuído “, devo ser mais cauteloso?
  • Eu nunca disse o sempre parte. Fiz este comentário porque, dado que o ditado parece muito mais provável ser um provérbio dinamarquês, atribuí-lo a um dinamarquês em particular (extremamente emblemático) parece um pouco superfaturado – especialmente dado que não há registros de Bohr dizendo isso. O autor original pode ser um pescador sem nome comentando sobre a pesca de amanhã ‘! Estou torcendo pelo carinha aqui! : D
  • Também é muito difícil modelar legendas de citação anteriores.
  • Certamente a pergunta usa ambas as palavras: a questão toda é se ” a previsão ” deve ser considerada uma forma de ” extrapolação. ” De acordo com o seu introdutório comentários, você parece definir extrapolação como usar o passado para ” modelar o futuro. ” Até que você ofereça definições claras e distintas de cada um, sua resposta pode ser mal interpretada.

Resposta

Embora o ajuste de um modelo possa ser “ bom “, a extrapolação além do intervalo dos dados deve ser tratada com ceticismo. A razão é que em muitos casos a extrapolação (infelizmente e inevitavelmente) depende de suposições não testáveis sobre o comportamento dos dados além de seu suporte observado.

Ao extrapolar, devem-se fazer duas chamadas de julgamento: primeiro, de uma perspectiva quantitativa , quão válido é o modelo fora do intervalo dos dados? Em segundo lugar, de uma perspectiva qualitativa, quão plausível é um ponto $ x_ {out} $ situado fora do intervalo da amostra observada para ser um membro da população que assumimos para a amostra? Como ambas as questões implicam um certo grau de ambigüidade, a extrapolação também é considerada uma técnica ambígua. Se você tiver motivos para aceitar que essas suposições são válidas, a extrapolação geralmente é um procedimento inferencial válido.

Uma advertência adicional é que muitas técnicas de estimativa não paramétrica não permitem extrapolação nativamente. Esse problema é particularmente perceptível no caso de suavização de spline, onde não há mais nós para ancorar o spline ajustado.

Deixe-me enfatizar que a extrapolação está longe de ser um mal. Por exemplo, métodos numéricos amplamente usados em Estatística (por exemplo Aitken “s processo delta-quadrado e Richardson” s Extrapolação ) são essencialmente esquemas de extrapolação baseados na ideia de que o comportamento subjacente da função analisada para os dados observados permanece estável através do suporte da função.

Comentários

  • Embora seja possível escrever salvaguardas para Wynn $ \ varepsilon $ (a generalização computacionalmente útil de Aitken $ \ Delta ^ 2 $) e extrapolação de Richardson, pode acontecer e acontece que as suposições subjacentes a estes algoritmos não são muito bem satisfeitos por sequências alimentadas a ele. Ao usar esses métodos de extrapolação com sequências de proveniência incerta, o suficientemente paranóico geralmente terá dois ou mais desses métodos de aceleração de convergência à mão para teste e só confiará nos resultados se em pelo menos dois desses métodos conceitualmente muito diferentes concordam e em seus resultados.

Resposta

Ao contrário de outras respostas, eu diria que não há nada errado com extrapolação, na medida em que não seja usado de maneira estúpida.Primeiro, observe que extrapolação é :

o processo de estimativa, além do original intervalo de observação, o valor de uma variável com base em sua relação com outra variável.

… então é “ muito termo amplo e muitos métodos diferentes que variam de extrapolação linear simples a regressão linear, regressão polinomial ou mesmo alguns métodos avançados de previsão de série temporal se encaixam em tal definição. Na verdade, extrapolação, previsão e previsão estão intimamente relacionadas. Em estatísticas, frequentemente fazemos previsões e previsões . Isso também é o que o link ao qual você se refere diz:

Aprendemos desde o primeiro dia de estatísticas que extrapolação é uma grande falta de não, mas isso é exatamente o que a previsão é.

Muitos métodos de extrapolação são usados para fazer previsões, além disso, muitas vezes alguns métodos simples funcionam muito bem com pequenas amostras, portanto, podem ser preferidos depois os complicados. O problema é, conforme observado em outras respostas, quando você usa o método de extrapolação de forma inadequada.

Por exemplo, muitos estudos mostram que a idade de iniciação sexual diminui com o tempo nos países ocidentais. Dê uma olhada no gráfico abaixo sobre a idade da primeira relação sexual nos EUA. Se usássemos cegamente a regressão linear para prever a idade da primeira relação sexual, preveríamos que ela cairia abaixo de zero em algum número de anos (de acordo com o primeiro casamento e primeiro nascimento ocorrendo em algum momento após a morte) … No entanto, se você precisar fazer previsão de um ano antes, então eu acho que a regressão linear levaria a previsões de curto prazo bastante precisas para a tendência.

insira a descrição da imagem aqui

(fonte guttmacher.org )

Outro grande exemplo vem de um domínio completamente diferente, já que se trata de ” extrapolando ” para teste feito pelo Microsoft Excel, conforme mostrado abaixo (Não sei se já está corrigido ou não). Não conheço o autor desta imagem, ela vem de Giphy .

insira a descrição da imagem aqui

Todos os modelos estão errados , extrapolação também está errado, pois não permitiria fazer previsões precisas. Como outras ferramentas matemáticas / estatísticas, ele permitirá que você faça previsões aproximadas . A extensão de quão precisos eles serão depende da qualidade dos dados que você possui, usando métodos adequados para o seu problema, as suposições feitas durante a definição do seu modelo e muitos outros fatores. Mas isso não significa que não possamos usar esses métodos. Podemos, mas precisamos nos lembrar de suas limitações e devemos avaliar sua qualidade para um determinado problema.

Comentários

  • Quando os dados que você usa para regressão terminam no início dos anos 1980, você provavelmente pode testar facilmente quanto tempo além dessa data a extrapolação funcionaria.
  • @gerrit Eu concordo, mas infelizmente não fui ‘ capaz de encontrar os dados apropriados. Mas se alguém pudesse apontar para mim, então eu ‘ ficaria feliz em atualizar minha resposta para tal comparação.
  • Nesse caso, a extrapolação falha, visto que a idade do primeiro sexo aumentou nos últimos anos. (Mas os dados para isso sempre atrasam o ano de nascimento em algumas décadas, por razões que deveriam ser óbvias.)

Resposta

Eu gosto bastante do exemplo de Nassim Taleb (que foi uma adaptação de um exemplo anterior de Bertrand Russell):

Considere um peru que é alimentado todos os dias. Cada alimentação irá firmar a crença do pássaro de que é a regra geral da vida ser alimentado todos os dias por membros amigáveis da raça humana “zelando por seus melhores interesses”, como diria um político. Na tarde de na quarta-feira antes do Dia de Ação de Graças, algo inesperado acontecerá ao peru. Isso causará uma revisão de crença.

Alguns análogos matemáticos são os seguintes:

  • o conhecimento dos primeiros coeficientes de Taylor de uma função nem sempre garante que os coeficientes sucessivos seguirão seu padrão presumido.

  • conhecimento de as condições iniciais de uma equação diferencial nem sempre garantem o conhecimento de seu comportamento assintótico (por exemplo, as equações de Lorenz, às vezes distorcidas no chamado “efeito borboleta”)

Aqui está um bom tópico do MO sobre o assunto.

Comentários

  • … e, claro, Taleb tem que apontar a lição de moral: ” não ‘ t seja um peru “! Neste contexto: don ‘ t seja um extrapolador descuidado e não ‘ t sucumbir ao pecado da arrogância.
  • @ uoɥʇʎPʎzɐɹC, eu não ‘ não estou pedindo isso, mas obrigado!
  • não ‘ t realmente use a reputação validada cruzada – e ninguém viu sua resposta e foi muito bom. Divirta-se!

Resposta

Pondere sobre a seguinte história, se quiser.

Eu também me lembro de ter participado de um curso de Estatística, e o professor nos disse que a extrapolação era uma má ideia. Então, durante a aula seguinte, ele nos disse que era uma má ideia de novo; na verdade, ele disse duas vezes.

Eu estive doente pelo resto do semestre, mas tinha certeza de que não poderia ter perdido muito material, porque na última semana o cara com certeza deve ter Não tenho feito nada além de dizer às pessoas repetidamente como a extrapolação era uma má ideia.

Estranhamente, não tive uma pontuação muito alta no exame.

Comentários

  • A pergunta pergunta ” o que há de errado com a extrapolação? “. Estamos procurando respostas que forneçam razões pelas quais a extrapolação pode ser uma má ideia.
  • @RobertLong: É ‘ na verdade um tipo de resposta meta / piada, e muito semelhante a xkcd.com/605 – ainda talvez melhor como um comentário do que uma resposta.
  • @NeilSlater: você deveria ter postado seu comentário como uma resposta … 🙂
  • @RobertLong: Esse é esse tipo de resposta. Ele simplesmente tem a forma de uma parábola.
  • Não está claro se seu modelo é exponencial.

Resposta

A questão não é apenas estatística, é também epistemológica. Extrapolação é uma das maneiras de aprendermos sobre a natureza, é “uma forma de indução . Digamos que temos dados para a condutividade elétrica de um material em uma faixa de temperaturas de 0 a 20 Celsius, o que podemos dizer sobre a condutividade a 40 graus Celsius?

Ela está intimamente relacionada a pequenas inferência da amostra: o que podemos dizer sobre toda a população a partir de medições realizadas em uma pequena amostra? Isso foi iniciado por Gosset as Guiness , que criou as distribuições t de Student. Antes dele, os estatísticos não se preocupavam em pensar em pequenas amostras presumindo que o tamanho da amostra sempre pode ser grande. Ele estava na Guinnes e teve que lidar com amostras de cerveja para decidir o que fazer com todo o lote de cerveja a ser enviado.

Portanto, na prática (negócios), engenharia e ciência, sempre temos que extrapolar de algumas maneiras. Pode ser extrapolar amostras pequenas para grandes, ou de uma gama limitada de condições de entrada para um conjunto mais amplo de condições, de o que está acontecendo no acelerador para o que aconteceu a um buraco negro a bilhões de quilômetros de distância, etc. É especialmente importante na ciência, pois realmente aprendemos estudando as discrepâncias entre nossas estimativas de extrapolação e medições reais. Freqüentemente, encontramos novos fenômenos quando as discrepâncias são grandes ou consistentes.

Portanto, digo que não há problema com a extrapolação. É algo que temos que fazer todos os dias. É apenas difícil.

Resposta

A extrapolação em si não é necessariamente má, mas é um processo que se presta a conclusões que são mais irracionais do que você chega com interpolação.

  • A extrapolação geralmente é feita para explorar valores bem distantes da região amostrada. Se estou amostrando 100 valores de 0-10 e, em seguida, extrapolar um pouco, apenas para 11, meu novo ponto está provavelmente 10 vezes mais distante de qualquer ponto de dados do que qualquer interpolação poderia chegar. Isso significa que há muito mais espaço para uma variável sair do controle (qualitativamente). Observe que escolhi intencionalmente apenas uma pequena extrapolação. Pode ficar muito pior
  • A extrapolação deve ser feita com ajustes de curva que pretendiam fazer extrapolação. Por exemplo, muitos ajustes polinomiais são muito pobres para extrapolação porque os termos que se comportam bem no intervalo amostrado podem explodir quando você o deixa. Uma boa extrapolação depende de um “bom palpite” sobre o que acontece fora da região amostrada. O que me leva a …
  • Geralmente é extremamente difícil usar a extrapolação devido à presença de transições de fase. Muitos processos que se pode desejar extrapolar têm propriedades decididamente não lineares que não são suficientemente expostas sobre a região amostrada. A aeronáutica em torno da velocidade do som é um excelente exemplo. Muitas extrapolações de velocidades mais baixas se desfazem à medida que você atinge e excede a velocidade de transferência de informações no ar.Isso também ocorre com bastante frequência com ciências sociais, onde a própria política pode impactar o sucesso da política. A economia keynesiana extrapolou como a economia se comportaria com diferentes níveis de inflação e previu o melhor resultado possível. Infelizmente, houve efeitos de segunda ordem e o resultado não foi prosperidade econômica, mas sim algumas das taxas de inflação mais altas que os EUA já viram.
  • As pessoas gostam de extrapolações. De modo geral, as pessoas realmente querem que alguém espie uma bola de cristal e lhes diga o futuro. Eles aceitarão extrapolações surpreendentemente ruins simplesmente porque são todas as informações que possuem. Isso pode não tornar a extrapolação em si ruim, por si só, mas é definitivamente algo que deve-se levar em consideração ao usá-la.

ara obter o máximo em extrapolação, considere o Projeto Manhattan. Os físicos lá foram forçados a trabalhar com testes em escala extremamente pequena antes de construir a coisa real. Eles simplesmente não tinham urânio suficiente para desperdiçar nos testes. Eles fizeram o melhor que puderam e foram inteligentes. No entanto, quando o teste final ocorresse, foi decidido que cada cientista decidiria a que distância da explosão eles gostariam de estar quando ela explodisse. Havia diferenças substanciais de opinião sobre quão longe era “seguro” porque todos os cientistas sabiam que estavam extrapolando muito longe de seus testes. Houve até uma consideração não trivial de que eles poderiam incendiar a atmosfera com a bomba nuclear, um problema que também foi resolvido com extrapolação substancial!

Resposta

Muitas boas respostas aqui, eu só quero tentar sintetizar o que vejo como o cerne da questão: é perigoso extrapolar além do processo de geração de dados que deu origem à amostra de estimativa. Isso às vezes é chamado de “mudança estrutural”.

A previsão vem com suposições, a principal delas é que o processo de geração de dados é (quase não faz diferença significativa) o mesmo que gerou a amostra (exceto para as variáveis rhs, cujas alterações você explicitamente no modelo). Se ocorrer uma mudança estrutural (por exemplo, o Dia de Ação de Graças no exemplo de Taleb), todas as apostas serão canceladas.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *