” Essencialmente, todos os modelos estão errados, mas alguns são úteis. “

— Box, George EP; Norman R. Draper (1987). Criação de modelos empíricos e superfícies de resposta, p. 424, Wiley. ISBN 0471810339.

Qual é exatamente o significado da frase acima?

Comentários

  • No mesmo livro foi mencionado anteriormente: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful. Talvez seja mais útil.

Resposta

Acho que seu significado é melhor analisado em duas partes:

“Todos os modelos estão errados”, ou seja, todos os modelos estão errados porque é uma simplificação da realidade. Alguns modelos, especialmente nas ciências “duras”, estão apenas um pouco errados. Eles ignoram coisas como atrito ou efeito gravitacional de corpos minúsculos. Outros modelos estão muito errados – eles ignoram coisas maiores. Nas ciências sociais, ignoramos muito.

“Mas alguns são úteis” – simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e compreender o universo e todos os seus vários componentes.

Isso não é apenas verdade nas estatísticas! Os mapas são um tipo de modelo; eles estão errados. Mas mapas bons são muito úteis. Exemplos de outros modelos úteis, mas errados, abundam. Comentários

  • +1 Porque gosto da analogia dos mapas. ‘ vou usá-lo no futuro!
  • Muitos modelos nas ciências ” hard ” também estão muito distantes (ontem eu participei de um seminário onde medições onde modelam estava dentro da barra de erros, mas a barra de erros tinha duas ordens de magnitude).
  • +1. Acho que sua frase-chave é ” todo modelo está errado porque está uma simplificação da realidade “. As pessoas muitas vezes se esquecem disso – por exemplo, em críticas ingênuas à economia (tenho minhas próprias críticas, mas elas precisam ser mais sofisticadas do que apenas ” a realidade é mais complexa do que seu modelo “). Se não, t simplifique, você tem uma realidade crua, que é muito complexa para nós entendermos. Portanto, temos que simplificá-lo para obter qualquer insight.
  • A fantasia de um mapa perfeito em uma escala 1: 1 foi usada por muitos autores, incluindo Lewis Carroll, Jorge Luis Borges e Umberto Eco. Na verdade, seria inútil porque seria necessariamente complicado como a área que mapeia e nem mais fácil de entender (sem mencionar a dificuldade de desdobrá-lo e colocá-lo para leitura).
  • Talvez você possa acrescente também que um modelo tem que estar um pouco errado, porque do contrário ele não generalizaria e, portanto, não seria aplicável em outro lugar. Existem algumas respostas dizendo isso mais abaixo. Mas agora existem muitas respostas para ler todas.

Resposta

Significa que podem ser fornecidas informações úteis a partir de modelos que não são uma representação perfeita dos fenômenos que modelam.

Um modelo estatístico é uma descrição de um sistema usando conceitos matemáticos. Como tal, em muitos casos você adiciona uma certa camada de abstração para facilitar seu procedimento inferencial (por exemplo, normalidade de erros de medição, simetria composta em estruturas de correlação, etc.). É quase impossível para um único modelo descrever perfeitamente um fenômeno do mundo real, dado que temos uma visão subjetiva do mundo (nosso sistema sensorial não é perfeito); no entanto, a inferência estatística bem-sucedida acontece porque nosso mundo tem um certo grau de consistência que exploramos. Portanto, nossos modelos quase sempre errados provam-se úteis .

(Tenho certeza que você receberá uma grande resposta ousada em breve, mas tentei ser conciso neste aqui!)

Comentários

  • Podemos dizer que esses modelos úteis fornecem soluções aproximadas?
  • @gpuguy : Claro que pode. Para citar John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (Na verdade, acho que a citação de JT ‘ é incrivelmente esclarecedora.)
  • ” Muito melhor uma resposta aproximada para a pergunta certa, que geralmente é vaga, do que uma resposta exata para a pergunta errada, que sempre pode ser precisa. ” John W. Tukey 1962 O futuro da análise de dados. Annals of Mathematical Statistics 33: 1-67 (ver pp.13-14) Sem dúvida ele disse coisas semelhantes em outras ocasiões, mas que ‘ é a fonte usual.
  • Copiei a minha da publicação original.

Resposta

Eu encontrei isto Palestra JSA de 2009 por Thad Tarpey para fornecer uma explicação útil e comentários sobre a passagem da caixa.Ele argumenta que, se considerarmos os modelos como aproximações da verdade, poderíamos facilmente chamar todos os modelos corretos.

Aqui está o resumo:

Os estudantes de estatística são frequentemente apresentados à famosa citação de George Box: “todos os modelos estão errados, alguns são úteis”. Nesta palestra, argumento que essa citação, embora útil, está errada. Uma perspectiva diferente e mais positiva é reconhecer que um modelo é simplesmente um meio de extrair informações de interesse dos dados. A verdade é infinitamente complexa e um modelo é apenas uma aproximação da verdade. Se a aproximação for pobre ou enganosa, o modelo será inútil. Nesta palestra, dou exemplos de modelos corretos que não são modelos verdadeiros. Ilustro como a noção de um modelo “errado” pode levar a conclusões erradas.

Resposta

Como ninguém o adicionou, George Box usou a fase citada para apresentar a seção seguinte em um livro. Eu acredito que ele faz o melhor trabalho ao explicar o que quis dizer:

Agora, seria muito notável se qualquer sistema existente no mundo real pudesse ser exatamente representado por qualquer modelo simples. No entanto, modelos parcimoniosos habilmente escolhidos frequentemente fornecem aproximações notavelmente úteis. Por exemplo, a lei $ PV = RT $ relativa à pressão $ P $ , volume $ V $ e temperatura $ T $ de um ” ideal ” gás através de uma constante $ R $ não é exatamente verdadeiro para qualquer gás real, mas frequentemente fornece uma aproximação útil e, além disso, sua estrutura é informativo, visto que surge de uma visão física do comportamento das moléculas de gás.

Para tal modelo, não há necessidade de fazer a pergunta ” O modelo é verdadeiro ? “. Se ” verdade ” deve ser a ” verdade inteira ” a resposta deve ser ” Não “. A única questão de interesse é ” O modelo é esclarecedor e útil? “.

Box, GEP (1979 ), ” Robustez na estratégia de construção de modelos científicos “, em Launer, RL; Wilkinson, GN, Robustness in Statistics , Academic Press, pp. 201-236.

Resposta

Para mim, o insight real está no seguinte aspecto:

Um modelo não precisa seja correto para ser útil.

Infelizmente, em muitas ciências, é freqüentemente esquecido que os modelos não precisam ser necessariamente representações exatas da realidade para permitir novas descobertas e previsões!

Portanto, não perca seu tempo construindo um modelo complicado que precisa de medições precisas de uma miríade de variáveis. O verdadeiro gênio inventa um modelo simples que faz o trabalho.

Resposta

Um modelo não pode fornecer previsões 100% precisas se houver alguma aleatoriedade nos resultados. Se não houver incerteza, aleatoriedade e nenhum erro, então seria considerado um fato e não um modelo. O primeiro é muito importante, porque os modelos são usado para modelar expectativas de eventos que não ocorreram. Isso quase garante que haja alguma incerteza sobre os eventos reais.

Com informações perfeitas, em teoria pode ser possível criar um modelo que forneça previsões perfeitas para tais eventos precisamente conhecidos. No entanto, mesmo dadas essas circunstâncias improváveis, tal modelo pode ser tão complexo a ponto de ser computacionalmente inviável de usar e pode ser preciso apenas em um determinado momento no tempo, pois outros fatores mudam como os valores mudam com os eventos.

Como a incerteza e a aleatoriedade estão presentes na maioria dos dados do mundo real, os esforços para obter um modelo perfeito são inúteis. Em vez disso, é mais valioso procurar obter um modelo suficientemente preciso que seja simples o suficiente para ser usado em termos de dados e do cálculo necessário para seu uso. Embora esses modelos sejam imperfeitos, algumas dessas falhas são bem conhecidas e podem ser consideradas para a tomada de decisão com base nos modelos.

Modelos mais simples podem ser imperfeitos, mas também são mais fáceis de raciocinar sobre , para comparar entre si e podem ser mais fáceis de trabalhar porque provavelmente são menos exigentes em termos computacionais.

Resposta

Se me permite, mais um comentário pode ser útil. A versão do prase que eu prefiro é

(…) todos os modelos são aproximações. Essencialmente, todos os modelos estão errados, mas alguns são úteis (…)

retirado de Response Surfaces, Mixtures, and Ridge Analyzes por Box and Draper (2007, p. 414, Wiley) . Olhando para a citação estendida, fica mais claro o que Box significava – modelagem estatística trata de aproximar da realidade e a aproximação nunca é exata, portanto, trata de encontrar a aproximação mais apropriada . O que é apropriado para o seu propósito é algo subjetivo, por isso não é um dos modelos que é útil, mas possivelmente alguns deles, dependendo do propósito da modelagem.

Resposta

Você pode pensar desta forma. a complexidade máxima (ou seja, entropia) de um objeto obedece a alguma forma do limite de Bekenstein :

$$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

onde $ E $ é a energia de repouso total incluindo a massa, e $ R $ é o raio de uma esfera que envolve o objeto.

Esse é um número grande, na maioria dos casos:

O limite de Bekenstein para um cérebro humano médio seria $ 2,58991 · 10 ^ {42} $ bit e representa um limite superior nas informações necessárias para recriar perfeitamente o cérebro humano médio até o nível quântico. Isso implica que o número de estados diferentes ($ Ω = 2 ^ I $) do cérebro humano (e da mente se o fisicalismo for verdadeiro) é no máximo $ 107,79640 · 10 ^ {41} $.

Então você deseja usar “o melhor mapa”, ou seja, o próprio território, com todas as equações de onda para todas as partículas em cada célula? De jeito nenhum. Não seria apenas um desastre computacional, mas também Você estaria modelando coisas que podem não ter essencialmente nada a ver com o que você gosta. Se tudo o que você deseja fazer é, digamos, identificar se estou ou não acordado, você não precisa saber o que o elétron # 32458 está fazendo no neurônio # 844030 ribossomo # 2305 molécula # 2. Se você não modelar isso, seu modelo está realmente “errado”, mas se você puder identificar se estou ou não acordado, seu modelo é definitivamente útil.

Resposta

Acho que Peter e o usuário11852 deram ótimas respostas. Eu também acrescentaria (por negação) que se um modelo fosse realmente bom, provavelmente seria inútil por causa do overfitting (portanto, não generalizável).

Comentários

  • +1 para o ponto de sobreajuste. Algoritmos como Naive Bayes e análise discriminante linear geralmente funcionam muito bem, mesmo se você souber que o modelo subjacente está incorreto (por exemplo, filtragem de spam), simplesmente porque menos dados são necessários para estimar os parâmetros.

Resposta

Minha interpretação ácida é: acreditar que um modelo matemático descreve exatamente todos os fatores e suas interações que governam um fenômeno de interesse seria muito simplista e arrogante. Nem mesmo sabemos se a lógica que usamos é suficiente para entender nosso universo. No entanto, alguns modelos matemáticos representam uma aproximação boa o suficiente (em termos do método científico) que são úteis para tirar conclusões sobre esse fenômeno.

Resposta

Como astrostatístico (talvez uma raça rara), acho lamentável a fama da frase de Box. Nas ciências físicas, muitas vezes temos um forte consenso para compreender os processos subjacentes a um fenômeno observado, e esses processos muitas vezes podem ser expressos por modelos matemáticos decorrentes das leis da gravitação, mecânica quântica, termodinâmica, etc. Os objetivos estatísticos são estimar as propriedades físicas dos parâmetros do modelo de melhor ajuste, bem como a seleção e validação do modelo. Um caso recente dramático surgiu do lançamento de documentos de março de 2013 da Agência Espacial Européia “s Planck satélite ” medições do fundo de micro-ondas cósmico que estabelece de forma convincente um simples LambdaCDM de 6 parâmetros “modelo para o Big Ba ng. Duvido que a frase de Box se aplique em qualquer lugar dentro da ampla gama de métodos estatísticos avançados usados nestes 29 artigos.

Resposta

Acabei de reformular a resposta acima, considerando os modelos de processo como ponto de foco. A afirmação pode ser interpretada da seguinte forma:

“Todos os modelos estão errados” ou seja, todo modelo está errado porque é uma simplificação de realidade. Alguns modelos estão apenas um pouco errados. Eles ignoram algumas coisas, por exemplo: -> alteração de requisitos, -> Ignorando a conclusão do projeto dentro do prazo, -> não considerando o nível de qualidade desejado pelo cliente, etc. … Outros modelos estão muito errados – eles ignoram coisas maiores. Os modelos de processo de software clássicos ignoram muito em comparação com os modelos de processo ágeis, que ignoram menos.

“Mas alguns são úteis” – simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e compreender o projeto geral e todos os seus vários componentes. Os modelos são usados porque seus recursos correspondem à maioria dos programas de desenvolvimento de software.

Resposta

Eu gostaria de dar uma outra interpretação do termo “útil”. Provavelmente não aquele em que Box pensou.

Quando você tem que tomar decisões, e é para isso que todas as informações finalmente serão usadas, você deve medir seu sucesso de alguma forma. Ao falar sobre decisões com informações incertas, essa medida costuma ser chamada de utilidade.

Portanto, também podemos pensar em modelos úteis como aqueles que nos permitem tomar decisões mais informadas; para atingir nossos objetivos de forma mais eficaz.

Isso adiciona outra dimensão além dos critérios usuais, como a capacidade de um modelo de prever algo corretamente: permite-nos pesar os diferentes aspectos de um modelo em relação a cada um outro.

Resposta

“Todos os modelos estão errados, mas alguns são úteis”. Talvez signifique: Devemos fazer o melhor que podemos com o que sabemos + buscar novos aprendizados?

Comentários

  • (-1) Você pode fornecer alguma referência sugerindo que G.E.P. Box quis dizer isso? Como você pode descobrir nas outras respostas, ele queria dizer algo totalmente diferente.
  • O OP talvez esteja pegando a citação e dando-lhe uma nova interpretação. Concordo com Tim que Box estava mais ou menos dizendo: não ‘ tome o modelo como uma interpretação exata da realidade, mas reconhece que algum modelo pode descrever bem os dados.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *