학부 때 통계 과정에 앉아 외삽이 왜 나쁜 생각인지에 대해 들었던 기억이 있습니다. 또한 온라인에서 이에 대해 언급하는 다양한 소스가 있습니다. 또한 여기 에 대한 언급이 있습니다.

누구나 외삽이 왜 나쁜 생각인지 이해하도록 도와 줄 수 있나요? 그렇다면 어떻게 예측 기술이 통계적으로 유효하지 않은 것이 아닙니까?

댓글

  • @Firebug Mark Twain이 그것에 대해 할 말이 있습니다. 관련 구절은 stats.stackexchange.com/a/24649/919 에서 제 답변의 끝 부분에 인용되어 있습니다.
  • @whuber I ‘ 지금 그것에 대해 정확히 생각하는 외삽이 아닙니다. 1 주일 동안 기능에 들어갈 데이터를 예측하는 알고리즘을 적절하게 훈련하고 검증한다고 가정 해 보겠습니다. 올바른 리샘플링 (조정할 하이퍼 파라미터가있는 경우 조정)을 수행하면 ‘ ‘가 잘못된 경우 즉, 응답이 있고 그 응답의 신뢰도를 알아야합니다. 이제 알고리즘을 일주일 단위로 훈련하면 ‘ 미래 1 년을 정확하게 예측할 수 없습니다. 혼란을 드려 죄송합니다.
  • @Firebug 사과 할 필요가 없습니다. 귀하의 의견에는 유용한 설명 정보가 포함되어 있습니다. 내가 읽은대로 그들은 ” 외삽 “이 예측 설정에서 여러 해석을 가질 수 있다고 제안합니다. 하나는 ” 외삽 ” 시간을 포함한다는 것입니다. 그러나 표준 시계열 모델, 특히 시간이 명시적인 공변량이 아닌 모델을 보면 이전 값으로 미래 값을 예측합니다. 이전 값이 이전 값의 범위 내에 있으면 모델은 전혀 외삽을 수행하지 않습니다! 여기에 명백한 역설의 해결책이있을 수 있습니다.
  • xkcd.com/605
  • ‘ 의무 xkcd가 표시되는 데 걸린 시간에 실망했습니다.

Answer

회귀 모델은 종종 외삽 (예 : 외부에있는 입력에 대한 응답 예측)에 사용됩니다. 모형 적합에 사용 된 예측 변수 값의 범위. 외삽과 관련된 위험은 다음 그림에 설명되어 있습니다. graph showing extrapolated line continuing upwards where "true" value decreases

true ” 값 감소

회귀 모델은 “구성에 의한”보간 모델이며 이것이 적절하지 않는 한 외삽에 사용해서는 안됩니다. 정당화되었습니다.

댓글

  • 이것은 외삽에 대한 끔찍한 예입니다. 직선 회귀선은 곡선 형 실제 함수보다 데이터 포인트에 훨씬 더 적합합니다.
  • ” 직선 회귀선은 곡선 형 실제 함수보다 데이터 포인트에 훨씬 적합합니다. “이 진술은 거짓입니다. 진정한 회귀 함수에 대한 RSS는 단순 회귀선에 대한 RSS보다 작습니다.
  • 점을 취하고 당신이 옳을 수도 있습니다. 그러나 일련의 요점으로 볼 때 진정한 기능을 유추 할 수있는 방법은 없습니다.
  • 맞습니다. 그래서 외삽이 나쁜 생각 일 수 있습니다.
  • ” 회귀 모델은 보간 모델 인 “구성 별”입니다. “-> 보간과 똑같은 문제가있을 수 있습니다 (‘가 발생할 가능성이 적더라도) li>

Answer

xkcd 만화 에서 설명합니다. 모두.

mg src = “https://i.stack.imgur.com/4QwTj.png”alt = “xkcd comic”title = ” 삼분기에는 수백 명의 아기가있을 것입니다. “>

큐볼 (막대를 든 남자)이 가지고있는 데이터 포인트를 사용하여 그는 여성이”4 다스 “를 가질 것이라고 추정했습니다. “남편을 다음 달 말까지 보내고이 외삽 법을 사용하여 웨딩 케이크를 대량 구매하는 결론에 도달했습니다.

편집 3 : “데이터 포인트가 충분하지 않습니다”라고 말하는 분들을 위해 re “s 다른 xkcd 만화 :

mg src =”https://i.stack.imgur.com/7oDyK.png “alt =”xkcd comic “title =”100 년은 많은 리소스보다 길지만. “>

여기에서 시간이 지남에 따라 “지속 가능”이라는 단어가 세미 로그 플롯에 표시되고 데이터 포인트를 외삽하면 미래에 “지속 가능”이라는 단어가 얼마나 자주 발생할 지에 대한 불합리한 추정치를받습니다.

편집 2 : “이전 데이터 포인트도 모두 필요합니다”라고 말하는 분들을 위해, 또 다른 xkcd 만화 : mg src = “https://i.stack.imgur.com/JTTW1.png”alt = “xkcd comic”title = “2031 : Google이 회전을 방어합니다. 스트리트 뷰 차량의 지붕에 장착 된 주사 전자 현미경으로 ‘ 할 수없는 것을 ‘ ‘ 전자 현미경으로 집을 스캔하는 보행자에게 보이지 않습니다.”>

여기에 모든 과거 데이터 포인트가 있지만 해상도를 정확하게 예측하지 못합니다. 구글 어스. 이것은 세미 로그 그래프이기도합니다.

편집 : 때로는 가장 강력한 (이 경우 r = .9979) 상관 관계는 아주 잘못되었습니다.


다른 뒷받침하는 증거없이 외삽하는 경우 상관 관계도 위반한다고해서 인과 관계를 암시하는 것은 아닙니다 . 통계 세계에서 또 하나의 큰 죄악입니다.

그러나 Y로 X를 외삽하는 경우 정확하게 (충분한 귀하의 요구 사항) Y로 X를 예측합니다. 거의 항상, 영향 X보다 여러 요인이 있습니다.

I Nassim Nicholas Taleb의 말로 설명하는 다른 답변 에 대한 링크를 공유하고 싶습니다.

댓글

  • xkcd에는 발생할 수있는 모든 가능한 수학 / 통계 문제에 대한 농담이 있습니다. ‘ 그렇지 않습니까?
  • 이 아이디어는 보간법에 대한 논쟁으로도 사용될 수 있습니다. ” 어젯밤 0.5 명의 남편이있었습니다 “.
  • @JiK 그녀가 지금은 하나 있고 이틀 전에는 하나도 갖고 있지 않다는 것뿐이라면 그것은 나쁜 추정치가 아닙니다 .-)
  • 지속 가능한 지속 가능한 지속 가능한 지속 가능한 지속 가능한 지속 가능한 지속 가능. en.wikipedia.org/wiki/ …
  • 더 많은 xkcd 여러분!

답변

” 예측이 매우 어려운 경우 특히 그렇습니다. ” 미래에 대한 s “. 이 인용문은 어떤 형태로든 많은 사람들에게 기인합니다 . 저는 다음에서 제한합니다. ” 외삽 “에서 ” 알려진 범위를 벗어난 예측 “, 그리고 1 차원 설정에서는 알려진 과거에서 알려지지 않은 미래로의 외삽입니다.

그러므로 외삽의 문제점은 무엇입니까? 첫째, 과거를 모델링하는 것은 쉽지 않습니다. 둘째, 과거의 모델을 사용할 수 있는지 여부를 알기가 어렵습니다. 미래를 위해 . 두 주장 뒤에는 인과 관계 또는 ergodicity , 충분한 설명 변수 등 대소 문자에 따라 다릅니다. 잘못된 것은 많은 추가 정보없이 다른 상황에서 잘 작동하는 단일 외삽 체계를 선택하기 어렵다는 것입니다.

이 일반적인 불일치는 Anscombe 4 중주 데이터 세트 는 아래와 같습니다. 선형 회귀는 또한 ( $ x $ -좌표 범위 밖) 외삽의 인스턴스입니다. 동일한 선은 동일한 표준 통계를 사용하여 4 개의 점 집합을 회귀합니다. 그러나 기본 모델은 매우 다릅니다. 첫 번째 모델은 매우 표준입니다. 두 번째는 매개 변수 모델 오류 (2 차 또는 3 차 다항식이 더 적합 할 수 있음)이고, 세 번째는 하나의 값 (이상치?)을 제외하고 완벽한 적합을 보여주고, 네 번째는 매끄러운 관계의 부족 (히스테리시스?)입니다.

Anscombe quartet

그러나 예측은 어느 정도까지 수정 될 수 있습니다. . 다른 답변에 추가하면 몇 가지 요소가 실용적인 외삽에 도움이 될 수 있습니다.

  1. 샘플에 가중치를 부여 할 수 있습니다. 원하는 위치 $ p $ 까지의 거리 (색인 $ n $ )에 따라 외삽합니다. 예를 들어, 증가 함수 $ f_p (n) $ ( $ p \ ge n $ 사용)를 사용합니다. 지수 가중치 또는 평활화 또는 샘플의 슬라이딩 윈도우와 같이 이전 값의 중요성을 줄입니다.
  2. 여러 외삽 모델을 사용하여 결합하거나 가장 적합한 모델을 선택할 수 있습니다 ( 예측 결합 , J. Scott Armstrong, 2001).최근에는 최적의 조합에 대한 여러 작업이있었습니다 (필요한 경우 참고 자료를 제공 할 수 있습니다).

최근에는 시뮬레이션 커뮤니케이션을위한 값을 외삽하는 프로젝트에 참여했습니다. 실시간 환경의 하위 시스템. 이 영역의 교리는 외삽이 불안정성을 유발할 수 있다는 것입니다. 우리는 실제로 위의 두 가지 요소를 결합하는 것이 눈에 띄는 불안정성없이 매우 효율적이라는 것을 깨달았습니다 (아직 공식적인 증명없이 : CHOPtrey : 향상된 멀티 코어 공동 시뮬레이션을위한 상황 별 온라인 다항식 외삽). 복잡한 시스템 , 시뮬레이션, 2017). 그리고 외삽은 계산 부담이 매우 낮은 간단한 다항식으로 작동했습니다. 대부분의 연산은 미리 계산되어 조회 테이블에 저장되었습니다.

마지막으로 외삽에서 재미있는 그림을 제안했듯이 다음은 역방향입니다. 선형 회귀의 효과 :

사랑과 선형 회귀가있는 재미

댓글

  • +1 좋은 답변입니다. 이 웹 사이트 에 따르면 Bohr가 말한 것 같지 않습니다. 드물지만 일반적인 덴마크 속담 일 가능성이 더 높습니다.
  • @ usεr11852 그는 ” 이렇게 말한 적이 없습니다. “? 그래서 제가 ” 기여 “라고 말한 이유는 더 조심해야합니까?
  • 영원히 부분. 나는이 말이 덴마크 속담 일 가능성이 훨씬 더 높기 때문에 특정 (매우 상징적 인) Dane에 기인하는 것이 약간 과잉 청구 된 것처럼 보였기 때문에이 말을했습니다. 특히 Bohr가 그것을 말한 기록이 없다는 점을 감안할 때. 원저자는 내일 ‘의 어획량에 대해 언급하는 이름없는 어부 일 수 있습니다! 나는 여기 작은 녀석을 응원하고있다! : D
  • 과거의 따옴표 범례도 모델링하기가 매우 어렵습니다.
  • 확실히 질문은 두 단어를 모두 사용합니다. 전체 요점은 ” 예측 “은 ” 외삽의 한 형태로 간주되어야합니다. ” 입문에 따르면 과거를 사용하여 ” 미래를 모델링하는 것으로 외삽을 정의하는 것 같습니다. ” 각각에 대한 명확하고 명확한 정의를 제공 할 때까지 답이 오해의 소지가 있습니다.

답변

모델의 적합성이 “ 좋을 수도 있지만 “, 데이터 범위를 벗어난 외삽은 회의적으로 처리되어야합니다. 그 이유는 대부분의 경우 외삽 (불행하게도 불가피하게)은 관찰 된 지원을 넘어서는 데이터의 동작에 대한 테스트 할 수없는 가정에 의존하기 때문입니다.

외삽을 할 때는 두 가지 판단을해야합니다. 첫째, 양적 관점에서 , 모델이 데이터 범위 밖에있는 것은 얼마나 유효한가요? 둘째, 정 성적 관점에서 $ x_ {out} $ 지점이 관찰 된 표본 범위 밖에 놓인 점이 표본에 대해 가정하는 모집단의 구성원이 될 가능성이 얼마나 타당합니까? 두 질문 모두 어느 정도의 모호성 외삽을 수반하기 때문에 모호한 기술로 간주됩니다. 이러한 가정이 유지된다는 것을 받아 들일 이유가 있다면 외삽은 일반적으로 유효한 추론 절차입니다.

추가적인주의 사항은 많은 비모수 추정 기술이 기본적으로 외삽을 허용하지 않는다는 것입니다. 이 문제는 스플라인 스플라인을 더 이상 고정 할 매듭이없는 스플라인 스무딩의 경우 특히 두드러집니다.

외삽은 악과는 거리가 멀다는 점을 강조하겠습니다. 예를 들어 통계에서 널리 사용되는 수치 방법 (예 : Aitken의 델타 제곱 프로세스 Richardson “) s 외삽 )은 기본적으로 관찰 된 데이터에 대해 분석 된 함수의 기본 동작이 함수 지원 전반에 걸쳐 안정적으로 유지된다는 아이디어에 기반한 외삽 방식입니다.

댓글

  • 또한 Wynn $ \ varepsilon $ (Aitken $ \ Delta ^ 2 $의 계산적으로 유용한 일반화) 및 Richardson 외삽에 대한 보호 장치를 작성할 수도 있습니다. 알고리즘은 제공된 시퀀스에 의해 그다지 만족스럽지 않습니다. 출처가 불확실한 시퀀스와 함께 이러한 외삽 방법을 사용할 때 충분히 편집증적인 사람은 일반적으로 테스트를 위해 이러한 수렴 가속 방법 중 두 개 이상을 보유하고있을 경우에만 결과를 신뢰합니다. 이 개념적으로 매우 다른 방법 중 적어도 두 가지는 동의합니다. e.

답변

다른 답변과는 달리 잘못된 것은 없습니다. 무의미한 방식으로 사용되지 않는 한 외삽으로.먼저, 외삽 법은 :

원본을 넘어서는 추정 프로세스입니다. 관찰 범위, 다른 변수와의 관계를 기반으로 한 변수의 값입니다.

… 그래서 매우

em> 광범위한 용어와 단순한 선형 외삽 에서 선형 회귀, 다항식 회귀 또는 일부 고급 시계열 예측 방법에 이르기까지 다양한 방법이 이러한 정의에 적합합니다. 사실, 외삽, 예측 및 예측 은 밀접한 관련이 있습니다. 통계에서 자주 예측 및 예측 . 참조하는 링크에도 다음과 같은 내용이 있습니다.

우리는 통계 1 일째부터 외삽은 절대 안됩니다.하지만 이것이 바로 예측입니다.

다양한 외삽 방법 는 예측을 수행하는 데 사용되며, 종종 일부 간단한 방법 이 작은 샘플에서도 잘 작동하므로 선호 할 수 있습니다. 그런 다음 복잡한 것. 문제는 다른 답변에서 알 수 있듯이 외삽 법을 부적절하게 사용하는 경우입니다.

예를 들어, 많은 연구에 따르면 서구 국가에서는 시간이 지남에 따라 성행위 연령이 감소합니다. 미국에서의 첫 성교 연령에 대한 아래의 플롯을 살펴보십시오. 맹목적으로 선형 회귀를 사용하여 첫 번째 성관계의 나이를 예측하면 몇 년 동안 0 미만으로 떨어질 것으로 예측할 것입니다 (즉, 사망 후 어느 시점에 첫 번째 결혼과 첫 번째 출산이 발생 함) … 1 년 전 예측에 따르면 선형 회귀가 추세에 대한 매우 정확한 단기 예측으로 이어질 것이라고 생각합니다.

여기에 이미지 설명 입력

(출처 guttmacher.org )

또 다른 좋은 예는 완전히 다른 도메인에서 나왔습니다. 아래에 표시된 것처럼 Microsoft Excel에서 수행 한 테스트에 대해 ” 추론 “이 이루어지기 때문입니다. (이미 수정되었는지 여부는 모르겠습니다). 이 이미지의 작성자를 모릅니다. Giphy 에서 가져 왔습니다.

여기에 이미지 설명 입력

모든 모델이 잘못됨 , 외삽 정확한 예측을 할 수 없기 때문에 잘못된 것입니다. 다른 수학 / 통계 도구와 마찬가지로 대략적인 예측을 할 수 있습니다. 얼마나 정확한지 여부는 문제에 적합한 방법을 사용하여 보유한 데이터의 품질, 모델을 정의하는 동안 만든 가정 및 기타 여러 요인에 따라 다릅니다. 그러나 이것이 우리가 그러한 방법을 사용할 수 없다는 것을 의미하지는 않습니다. 가능하지만 한계를 기억해야하며 주어진 문제에 대해 품질을 평가 해야합니다.

댓글

  • 귀하가 회귀에 사용하는 데이터가 1980 년대 초에 종료되면 해당 날짜 외삽이 얼마나 오래 작동하는지 쉽게 테스트 할 수 있습니다.
  • @gerrit 동의합니다. 안타깝게도 ‘ 적절한 데이터를 찾을 수 없었습니다. 하지만 누군가 나를 가리킬 수 있다면 ‘ 이러한 비교에 대한 답변을 업데이트 해 드리겠습니다.
  • 이 경우 외삽은 실패합니다. 지난 몇 년 동안 첫 섹스의 나이가 급증했습니다. (그러나 이것에 대한 데이터는 분명한 이유로 출생 연도를 항상 20 년 뒤입니다.)

답변

나는 Nassim Taleb의 예 (Bertrand Russell의 이전 예를 각색 한 예)를 매우 좋아합니다.

매일 먹입니다. 매번 먹이를 먹일 때마다 한 정치인이 말하듯이 친절한 인류 구성원들이 매일 먹이를주는 것이 생명의 일반적인 규칙이라는 새의 믿음을 확고히 할 것입니다. 추수 감사절 전 수요일에 칠면조에 예상치 못한 일이 일어날 것입니다. 이로 인해 믿음이 수정됩니다.

몇 가지 수학적 유사체는 다음과 같습니다.

  • 함수의 처음 몇 개의 Taylor 계수에 대한 지식이 다음 계수가 추정 된 패턴을 따를 것이라고 항상 보장하지는 않습니다.

  • 지식 미분 방정식의 초기 조건이 점근 적 동작에 대한 지식을 항상 보장하지는 않습니다 (예 : Lorenz 방정식, 소위 “나비 효과”로 왜곡되기도 함).

다음은 문제에 대한 멋진 MO 스레드 입니다.

댓글

  • … 물론 Taleb은 도덕적 교훈을 지적해야합니다. ” 칠면조가되지 마십시오 ‘ “! 이 맥락에서 : don ‘ 부주의 한 외삽자가되지 말고 ‘ 오만의 죄에 굴복하지 마십시오.
  • @ uoɥʇʎPʎzɐɹC, 저는 ‘ 요청하지 않지만 감사합니다!
  • ‘ 교차 검증 된 평판을 실제로 사용하지 않습니다. 정말 좋았어. 즐거운 시간 되십시오!

답변

원한다면 다음 이야기를 깊이 생각해보십시오.

나는 또한 통계 과정에 앉아 있던 것을 기억하세요. 교수님은 외삽은 나쁜 생각이라고 말했습니다. 그리고 다음 수업 시간에 그는 그것이 다시 나쁜 생각이라고 말했습니다. 사실 그는 두 번 말했다.

나는 남은 학기 동안 아팠지만, 지난 주까지 그 사람이 확실히 가지고 있어야했기 때문에 많은 자료를 놓칠 수 없었다고 확신했습니다. 외삽이 얼마나 나쁜 생각인지 반복해서 사람들에게 이야기하는 것 외에는 아무것도하지 않았습니다.

이상하게도 시험에서 그다지 높은 점수를 얻지 못했습니다.

댓글

  • 이 질문은 ” 외삽에 어떤 문제가 있습니까? “를 묻습니다. 우리는 외삽이 나쁜 생각이 될 수있는 이유를 제시하는 답변을 찾고 있습니다.
  • @RobertLong : 사실 ‘는 일종의 메타 / 농담 답변입니다. xkcd.com/605 와 매우 유사합니다. 그래도 답변보다는 댓글로 더 좋을 수 있습니다.
  • @NeilSlater : 게시 했어야합니다. 귀하의 의견을 답변으로 … 🙂
  • @RobertLong : 이런 종류의 답변입니다. 단지 비유의 형태 일뿐입니다.
  • 당신의 모델이 지수 적이라는 것은 분명하지 않습니다.

답변

질문은 통계적 일뿐만 아니라 인식 론적이기도합니다. 외삽은 자연에 대해 배우는 방법 중 하나이며 “ 유도의 한 형태입니다. . 0 ~ 20 ° C의 온도 범위에서 물질의 전기 전도도에 대한 데이터가 있다고 가정 해 봅시다. 40 ° C에서 전도도에 대해 무엇을 말할 수 있을까요?

소량과 밀접한 관련이 있습니다. 표본 추론 : 작은 표본에 대해 수행 된 측정에서 전체 모집단에 대해 무엇을 말할 수 있습니까? 이것은 Student t-distributions를 고안 한 Gosset as Guiness 에 의해 시작되었습니다. 그 전에 통계 학자들은 표본 크기가 항상 클 수 있다고 가정하고 작은 표본에 대해 생각할 필요가 없었습니다. 그는 Guinnes에 있었고 맥주 샘플을 처리하여 배송 할 맥주 전체를 어떻게 처리할지 결정해야했습니다.

실제 (비즈니스), 엔지니어링 및 과학에서 우리는 항상 어떤 방식으로 외삽해야합니다. 작은 샘플을 큰 샘플로, 또는 제한된 범위의 입력 조건에서 더 넓은 조건 세트로 외삽 할 수 있습니다. 수십억 마일 떨어진 블랙홀에 무슨 일이 일어 났는지에 대한 가속기에서 무슨 일이 벌어지고 있는지. 우리의 외삽 추정치와 실제 측정치 사이의 불일치를 연구함으로써 실제로 배우기 때문에 과학에서 특히 중요합니다. 종종 새로운 것을 발견합니다. 불일치가 크거나 일관적인 현상입니다.

그러므로 외삽에는 문제가 없다고 말하며 매일해야 할 일입니다. 그것은 단지 어렵습니다.

답변

외삽 자체가 반드시 악한 것은 아니지만, 보간을 통해 도달하는 것보다 더 불합리한 결론입니다.

  • 샘플링 된 영역에서 상당히 멀리 떨어진 값을 탐색하기 위해 종종 외삽이 수행됩니다. 0-10에서 100 개의 값을 샘플링 한 다음 11로 조금만 외삽하면 내 새 포인트는 보간이 얻을 수있는 것보다 데이터 포인트에서 10 배 더 멀어 질 가능성이 높습니다. 즉, 변수가 (질적으로) 손에서 벗어날 수있는 훨씬 더 많은 공간. 의도적으로 약간의 외삽만을 선택했습니다. 훨씬 더 나빠질 수 있습니다.
  • 외삽을 수행하기위한 곡선 맞춤으로 외삽을 수행해야합니다. 예를 들어, 샘플링 된 범위에서 잘 작동하는 항은 일단 벗어나면 폭발 할 수 있기 때문에 많은 다항식 피팅은 외삽에 매우 적합하지 않습니다. 좋은 외삽은 샘플링 된 영역 외부에서 일어나는 일에 대한 “좋은 추측”에 달려 있습니다. 그래서 …
  • 상전이가 존재하기 때문에 외삽 법을 사용하는 것은 종종 매우 어렵습니다. 외삽하려는 많은 프로세스는 샘플링 된 영역에 충분히 노출되지 않은 비선형 속성을 확실히 가지고 있습니다. 소리의 속도에 대한 항공학이 좋은 예입니다. 저속에서 얻은 많은 외삽은 공중에서 정보 전송 속도에 도달하고이를 초과함에 따라 분리됩니다.이것은 또한 정책 자체가 정책의 성공에 영향을 미칠 수있는 소프트 과학에서도 자주 발생합니다. 케인즈 경제학은 경제가 다양한 수준의 인플레이션에 따라 어떻게 행동 할지를 추정하고 가능한 최상의 결과를 예측했습니다. 안타깝게도 2 차 효과가 있었고 그 결과 경제 번영이 아니라 미국에서 가장 높은 인플레이션 율이 나타났습니다.
  • 사람들은 추정을 좋아 합니다. 일반적으로 사람들은 누군가가 수정 구슬을 들여다보고 미래에 대해 이야기하기를 원합니다. 그들은 단순히 그들이 가지고있는 모든 정보이기 때문에 놀랍도록 나쁜 외삽을 받아 들일 것입니다. 이것은 그 자체로 외삽 자체를 나쁘게 만들지는 않을지 모르지만 확실히 그것을 사용할 때 고려해야 할 것입니다.

궁극의 외삽을 위해 맨해튼 프로젝트를 생각해보십시오. 그곳의 물리학 자들은 실제를 만들기 전에 극히 작은 규모의 테스트를해야했습니다. 그들은 단순히 테스트에 낭비 할 우라늄이 충분하지 않았습니다. 그들은 최선을 다했고 똑똑했습니다. 그러나 최종 테스트가 발생했을 때 각 과학자는 폭발이 발생했을 때 원하는 폭발로부터 얼마나 멀리 떨어져 있는지 결정하기로 결정했습니다. 모든 과학자들이 자신의 테스트에서 상당히 멀리 떨어져 있음을 알고 있었기 때문에 “안전한”거리에 대한 의견의 상당한 차이가있었습니다. 핵폭탄으로 대기를 불 태울 수도 있다는 사소한 고려조차도 없었습니다. 문제는 상당한 외삽으로 해결되었습니다!

Answer

여기에 좋은 답변이 많이 있습니다. 저는 문제의 핵심이라고 생각하는 것을 종합 해보고 싶습니다. 추정 샘플을 생성 한 데이터 생성 프로세스를 넘어서 추정하는 것은 위험합니다. 이를 “구조적 변화”라고합니다.

예측은 가정과 함께 제공되며, 데이터 생성 프로세스가 샘플을 생성 한 프로세스와 동일하다는 것 (중요한 차이가 거의없는만큼)이라는 가정이 있습니다 (사용자가 변경하는 rhs 변수 제외). 모델에서 명시 적으로 설명). 구조적 변경 (예 : Taleb의 예에서 추수 감사절)이 발생하면 모든 베팅이 해제됩니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다