“본질적으로 모든 모델이 잘못되었지만 일부는 유용합니다. “

— Box, George EP; Norman R. Draper (1987). 경험적 모델 구축 및 반응 표면, p. 424, 와일리. ISBN 0471810339.

위 문구의 의미가 정확히 무엇입니까?

댓글

  • 같은 책에 앞서 언급 한 내용이 있습니다. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.이게 더 도움이 될 것입니다.

답변

두 부분으로 보면 그 의미를 가장 잘 분석 할 수 있다고 생각합니다.

“모든 모델이 잘못되었습니다.”즉, 현실의 단순화이기 때문에 모든 모델이 잘못되었습니다. 특히 “하드”과학 분야의 일부 모델은 약간 잘못되었습니다. 그들은 마찰이나 작은 물체의 중력 효과와 같은 것들을 무시합니다. 다른 모델은 많이 잘못되었습니다. 더 큰 것을 무시합니다. 사회 과학에서 우리는 많은 것을 무시합니다.

“하지만 일부는 유용합니다”-현실의 단순화는 매우 유용 할 수 있습니다. 그들은 우리가 우주와 우주의 모든 다양한 구성 요소를 설명, 예측 및 이해하는 데 도움이 될 수 있습니다.

이것은 단지 통계에서 사실이 아닙니다!지도는 모델의 한 유형이며 잘못되었습니다. 그러나 좋은지도는 매우 유용합니다. 다른 유용하지만 잘못된 모델의 예는 많습니다.

댓글

  • +1 원인지도의 비유가 마음에 듭니다. ‘ 나중에 사용할 것입니다!
  • ” 하드 ” 과학의 많은 모델도 상당히 멀리 떨어져 있습니다 (어제 저는 모델이 오류 막대 내에 있었지만 오류 막대는 두 자릿수였습니다).
  • +1. 핵심 문장은 ” 모든 모델이 잘못된 것 같습니다. 현실의 단순화 “. 사람들은 종종 이것을 잊어 버립니다. 예를 들어 경제학에 대한 순진한 비판에서 (저는 제 자신의 비판을 가지고 있지만 그보다 더 정교해야합니다. ” 현실은 모델보다 더 복잡합니다 “). 그렇지 않은 경우 단순화하지 않으면 현실이 너무 복잡해서 우리가 이해할 수 없습니다. 따라서 통찰력을 얻으려면이를 단순화해야합니다.
  • 1 : 1 축척의 완벽한지도에 대한 환상은 Lewis Carroll, Jorge Luis Borges 및 Umberto Eco를 비롯한 많은 저자가 사용했습니다. 매핑하는 영역이 복잡하고 이해하기 쉽지 않기 때문에 실제로는 쓸모가 없습니다 (펼쳐서 읽기 위해 배치하는 어색함은 말할 것도 없습니다).
  • 아마도 가능할 것입니다. 또한 모델이 약간 잘못 되어야 하는데, 그렇지 않으면 일반화되지 않아 다른 곳에 적용 할 수 없기 때문입니다. 이것을 더 아래로 말하는 몇 가지 답변이 있습니다. 하지만 이제 답이 너무 많아서 모두 읽을 수 없습니다.

답변

유용한 통찰력을 제공 할 수 있습니다. 모델이 모델링 한 현상을 완벽하게 표현하지 못한 모델에서.

통계 모델은 수학적 개념을 사용하는 시스템에 대한 설명입니다. 따라서 추론 절차를 용이하게하기 위해 특정 추상화 계층을 추가하는 경우가 많습니다 (예 : 측정 오류의 정규성, 상관 관계 구조의 복합 대칭성 등). 우리 자신이 세상에 대한 주관적인 시각을 가지고 있다는 점에서 단일 모델이 현실 세계 현상을 완벽하게 설명하는 것은 거의 불가능 합니다 (우리의 감각 시스템은 완벽하지 않습니다). 그럼에도 불구하고 성공적인 통계적 추론은 우리가 이용하는 어느 정도의 일관성을 가지고 있기 때문에 발생합니다. 따라서 우리의 거의 항상 잘못된 모델 유용함 을 증명합니다.

(곧 대담한 답변을 얻을 수있을 것이라고 확신하지만 간결하게 여기에!)

댓글

  • 이 유용한 모델이 대략적인 솔루션을 제공한다고 말할 수 있습니까?
  • @gpuguy : 물론입니다. John Tukey를 인용하려면 : An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem. (실제로 JT ‘의 인용문이 놀랍도록 통찰력이 있습니다.)
  • ” 항상 정확할 수있는 잘못된 질문에 대한 정확한 답변보다 종종 모호한 올바른 질문에 대한 대략적인 답변이 훨씬 낫습니다. ” John W. Tukey 1962 데이터 분석의 미래. 수학적 통계 연대기 33 : 1-67 (pp. 13-14 참조) 의심 할 여지없이 그는 다른 때에도 비슷한 말을했습니다. id = “23a945d847”>

이 일반적인 소스입니다.

  • 원래 간행물에서 내 것을 복사했습니다.
  • 답변

    찾았습니다 2009 년 JSA 강연 은 상자 구절에 대한 유용한 설명과 해설을 제공하기 위해 Thad Tarpey가 작성했습니다.그는 모델을 진실에 대한 근사치로 간주하면 모든 모델을 옳게 부를 수 있다고 주장합니다.

    추상은 다음과 같습니다.

    통계학의 학생들은 종종 George Box의 유명한 인용문을 소개합니다. “모든 모델은 틀렸고 일부는 유용합니다.” 이 강연에서 나는이 인용문이 유용하지만 틀렸다고 주장합니다. 좀 더 긍정적 인 관점은 모델이 단순히 데이터에서 관심있는 정보를 추출하는 수단이라는 것을 인정하는 것입니다. 진실은 무한히 복잡하고 모델은 단지 진실에 대한 근사치 일뿐입니다. 근사치가 좋지 않거나 오해의 소지가있는 경우 모델은 쓸모가 없습니다. 이 강연에서는 실제 모델이 아닌 올바른 모델의 예를 제공합니다. “잘못된”모델의 개념이 어떻게 잘못된 결론으로 이어질 수 있는지 설명합니다.

    답변

    아무도 추가하지 않았기 때문에 George Box는 인용 된 단계를 사용하여 책에서 다음 섹션을 소개했습니다. 저는 그가 그가 의미하는 바를 가장 잘 설명한다고 믿습니다.

    이제 현실 세계에 존재하는 시스템이 정확하게 모든 단순 모델로 표현됩니다. 그러나 교활하게 선택된 간결한 모델은 종종 매우 유용한 근사치를 제공합니다. 예를 들어, 압력 $ P $ , 볼륨 pan class = “관련 법률 $ PV = RT $ math-container “> $ V $ 및 온도 $ T $ 의 ” 이상적 iv id = 상수 $ R $ 를 통한 “aa2d54a958”>

    가스는 실제 가스에 대해 정확히 사실이 아니지만 유용한 근사치를 제공하며 그 구조는 다음과 같습니다. 가스 분자의 동작에 대한 물리적 관점에서 비롯된 것이기 때문에 유익합니다.

    이러한 모델의 경우 ” 모델이 사실인가에 대해 질문 할 필요가 없습니다. ? “. ” 진실 “이 ” 전체 진실 대답은 ” 아니요 ” 여야합니다. 관심있는 유일한 질문은 ” 모델이 밝고 유용합니까? “입니다.

    Box, GEP (1979) ), ” 과학 모델 구축 전략의 견고성 “, RL Launer; Wilkinson, GN, 통계의 견고성 , Academic Press, pp. 201–236.

    답변

    실제 통찰력은 다음 측면에 있습니다.

    모델은 유용 할 수 있습니다.

    안타깝게도 많은 과학에서 새로운 발견을 허용하기 위해 모델이 반드시 현실을 정확하게 표현할 필요는 없다는 사실을 종종 잊습니다. 그리고 예측!

    그러므로 수많은 변수를 정확하게 측정해야하는 복잡한 모델을 만드는 데 시간을 낭비하지 마십시오. 진정한 천재는 작업을 수행하는 간단한 모델을 발명합니다.

    답변

    결과에 임의성이 있으면 모델이 100 % 정확한 예측을 제공 할 수 없습니다. 불확실성, 임의성 및 오류가없는 경우 모델이 아닌 사실로 간주됩니다. 첫 번째는 매우 중요합니다. 발생하지 않은 이벤트에 대한 기대치를 모델링하는 데 사용됩니다. 이것은 실제 사건에 대한 불확실성이 있음을 거의 보장합니다.

    완벽한 정보가 주어지면 이론적으로 정확하게 알려진 사건에 대해 완벽한 예측을 제공하는 모델을 만드는 것이 가능할 수 있습니다. 그러나 이러한 예상치 못한 상황에서도 그러한 모델은 계산적으로 사용하기가 불가능할 정도로 복잡 할 수 있으며 다른 요인이 이벤트에 따라 값이 변경되는 방식을 변경하므로 특정 시점에만 정확할 수 있습니다.

    대부분의 실제 데이터에는 불확실성과 임의성이 존재하기 때문에 완벽한 모델을 얻기위한 노력은 헛된 일입니다. 대신 데이터와 데이터 사용에 필요한 계산 측면에서 사용할 수있을만큼 간단하고 충분히 정확한 모델을 얻는 것이 더 중요합니다. 이러한 모델은 불완전한 것으로 알려져 있지만 이러한 결함 중 일부는 잘 알려져 있으며 모델을 기반으로 한 의사 결정을 위해 고려할 수 있습니다.

    단순한 모델은 불완전 할 수 있지만 추론하기도 더 쉽습니다. , 서로 비교할 수 있으며 계산 부담이 적기 때문에 작업하기가 더 쉬울 수 있습니다.

    답변

    할 수 있다면 하나 이상의 댓글이 유용 할 수 있습니다. 내가 선호하는 prase 버전은

    (…) 모든 모델이 근사치입니다. 기본적으로 모든 모델이 잘못되었지만 일부는 유용합니다 (…)

    Box and Draper (2007, p. 414, Wiley)의 반응 표면, 혼합물 및 능선 분석 에서 가져옴 . 확장 된 인용문을 보면 Box가 의미하는 바가 더 명확 해집니다. 통계 모델링은 현실을 근사 하는 것이고 근사는 절대 정확하지 않으므로 가장 적절한 근사치를 찾는 것입니다. . 귀하의 목적에 적합한 것은 주관적인 것이므로 유용한 모델 중 하나가 아니라 모델링 목적에 따라 일부 일 가능성이 있습니다.

    답변

    이렇게 생각할 수도 있습니다. 객체의 최대 복잡도 (예 : 엔트로피)는 Bekenstein 경계 형식을 따릅니다.

    $$ I \ le \ frac { 2 \ pi RE} {\ hbar c \ ln 2} $$

    여기서 $ E $는 질량을 포함한 총 휴식 에너지이고 $ R $는 물체를 둘러싼 구의 반경입니다.

    대부분의 경우 큰 숫자입니다.

    Bekenstein 경계 평균 인간 두뇌의 경우 $ 2.58991 · 10 ^ {42} $ 비트이며 평균 인간 두뇌를 양자 수준까지 완벽하게 재현하는 데 필요한 정보의 상한선을 나타냅니다. 이는 서로 다른 상태의 수를 의미합니다. ($ Ω = 2 ^ I $) 인간의 뇌 (물리주의가 사실 인 경우 마음)는 최대 $ 107.79640 · 10 ^ {41} $입니다.

    그러면 모든 세포의 모든 입자에 대한 모든 파동 방정식과 함께 “최고의지도”, 즉 영토 자체를 사용 하시겠습니까? 물론 아닙니다. 이는 계산상의 재앙 일뿐만 아니라 당신이 관심을 갖는 것과 본질적으로 관련이없는 것들을 모델링하는 것입니다. 만약 당신이 원하는 것은 내가 깨어 있는지 아닌지를 확인하는 것이라면, 당신은 전자 # 32458이 뉴런 # 844030 리보솜 # 2305 분자 # 2에서 무엇을하고 있는지 알 필요가 없습니다. 모델을 만들지 않으면 모델이 실제로 “틀린 것”입니다.하지만 내가 깨어 있는지 여부를 확인할 수 있다면 모델이 확실히 유용합니다.

    답변

    Peter와 user11852가 훌륭한 답변을 한 것 같습니다. 또한 모델이 정말 훌륭하다면 과적 합 (따라서 일반화 할 수 없음)으로 인해 쓸모가 없을 것이라고 추가합니다 (부정).

    댓글

    • +1은 과적 합 지점입니다. Naive Bayes 및 선형 판별 분석과 같은 알고리즘은 매개 변수를 추정하는 데 필요한 데이터가 적기 때문에 기본 모델 (예 : 스팸 필터링)이 잘못되었음을 알고 있더라도 종종 매우 잘 작동합니다.

    답변

    내 산 해석은 다음과 같습니다. 수학적 모델이 관심 현상을 지배하는 모든 요인과 그 상호 작용을 정확하게 설명한다고 믿는 것은 너무 단순 할 것입니다. 오만하다. 우리가 사용하는 논리가 우리 우주를 이해하기에 충분한 지조차 모릅니다. 그러나 일부 수학적 모델은 그러한 현상에 대한 결론을 도출하는 데 유용한 충분한 근사치를 나타냅니다 (과학적 방법 측면에서).

    답변

    천문 통계 학자 (아마도 드문 품종)로서 저는 Box s dictum의 명성이 안타깝다 고 생각합니다. 물리학에서 우리는 종종 관찰 된 현상의 근본적인 과정을 이해하는 데 강한 합의를 얻습니다. 이러한 과정은 종종 중력, 양자 역학, 열역학 등의 법칙에서 발생하는 수학적 모델로 표현 될 수 있습니다. 통계적 목표는 모델 선택 및 검증뿐만 아니라 최적의 모델 매개 변수 물리적 특성을 추정하는 것입니다. 최근 극적인 사례가 발생했습니다. 유럽 우주국의 플랑크 위성 “의 간단한 6 개 매개 변수`LambdaCDM을 설득력있게 설정하는 우주 마이크로파 배경 측정치 의 2013 년 3 월 발표 “Big Ba 모델 ng. 이 29 개 논문에서 사용 된 광범위한 고급 통계 방법 내에서 Box s dictum이 적용되는 것 같지 않습니다.

    답변

    프로세스 모델을 포커스 포인트로 간주하여 위의 답변을 다시 표현했습니다. 진술은 다음과 같이 해석 될 수 있습니다.

    “모든 모델이 잘못되었습니다”즉, 모든 모델이 잘못되었습니다. 현실. 일부 모델은 약간 잘못되었습니다. 예를 들어-> 요구 사항 변경,-> 기한 내에 프로젝트 완료 무시,-> 고객이 원하는 품질 수준 고려하지 않음 등 일부 모델은 무시합니다. … 다른 모델은 많이 잘못되었습니다. 그들은 더 큰 것을 무시합니다. 고전적인 소프트웨어 프로세스 모델은 덜 무시하는 애자일 프로세스 모델에 비해 많은 것을 무시합니다.

    “하지만 일부는 유용합니다.”-현실의 단순화는 매우 유용 할 수 있습니다. 전체 프로젝트 및 모든 다양한 구성 요소를 설명, 예측 및 이해하는 데 도움이 될 수 있습니다. 모델은 기능이 대부분의 소프트웨어 개발 프로그램과 일치하기 때문에 사용됩니다.

    답변

    유용함이라는 용어에 대한 또 다른 해석을하고 싶습니다. 아마도 Box가 생각했던 한 가지가 아닐 것입니다.

    결정을 내려야하고 이것이 모든 정보가 마침내 사용될 때, 어떤 형태로든 성공을 측정해야합니다. 불확실한 정보가 포함 된 결정에 대해 이야기 할 때이 측정 값을 종종 효용이라고합니다.

    따라서 유용한 모델을 정보에 입각 한 결정을 내릴 수있는 모델이라고 생각할 수도 있습니다. 목표를보다 효과적으로 달성 할 수 있습니다.

    이는 모델이 무언가를 정확하게 예측하는 능력과 같은 일반적인 기준에 또 다른 차원을 추가합니다.이를 통해 모델이 각각에 대해 서로 다른 측면을 평가할 수 있습니다. 기타.

    답변

    “모든 모델이 잘못되었지만 일부는 유용합니다.” 아마도 그것은 우리가 알고있는 것과 새로운 학습을 찾기 위해 최선을 다해야한다는 의미 일 것입니다.

    댓글

    • (-1) G.E.P. 상자가 그랬어? 다른 답변에서 알 수 있듯이 그는 완전히 다른 것을 의미했습니다.
    • OP는 아마도 인용문을 받아 새로운 해석을 제공하고있을 것입니다. 나는 Box가 모델을 현실에 대한 정확한 해석으로 받아들이지 말고 일부 모델이 데이터를 잘 설명 할 수 있다는 점을 인식한다고 다소간 동의한다고 Tim과 동의합니다.

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다