나는 잔차의 높은 양의 첨도가 정확하지 않을 수 있다고 들었습니다 (죄송합니다. 텍스트에 대한 링크를 제공 할 수 없습니다). 가설 검정 및 신뢰 구간 (및 따라서 통계적 추론 문제). 이것이 사실입니까? 그렇다면 그 이유는 무엇입니까? 잔차의 높은 양의 첨도는 잔차의 대부분이 잔차 평균 0에 가까워서 크기가 작다는 것을 나타내지 않습니까? 잔차가 있습니까? (답이 있다면 수학적으로 그다지 관심이없는 편 이니 심층적 인 수학으로 답해주세요.)
댓글
- 정상 (가우시안) 오류 조건의 이상적인 조건을 가진 모델에 초점을 맞추고 계신 것 같습니다. (다른 많은 상황에서 잔차의 높은 첨도를 예상 할 수 있습니다.) 높은 첨도는 정규 분포보다 꼬리가 더 두꺼운 분포를 의미 할 가능성이 높으므로 일부 매우 높은 (+ 또는-) 잔차가 있습니다. 거의 제로에 가깝다고해도 그것은 좋은 소식 일 뿐이고주의가 필요한 것은 나쁜 소식 일 수 있습니다. 그러나 이는 여러 가지 의미를 가질 수 있습니다. 잔차 대 적합도는 일반적으로 더 많은 정보를 제공합니다.
- 실제로 정규성 가정이있는 모델에 집중했습니다.
답변
높은 양의 잔차 첨도가 정확한 가설 검정 및 신뢰 구간에 문제가 될 수 있다는 […]을 들었습니다. 추론). 이것이 사실이며 그렇다면 그 이유는 무엇입니까?
일부 종류의 가설 검정에서는 사실입니다.
잔차의 높은 양의 첨도는 잔차의 대부분이 잔차 평균 0에 가까워서 더 적은 잔차가 있음을 나타내지 않습니까?
아니요 .
분산의 개념과 첨도의 개념을 융합 한 것 같습니다. 분산이 더 작 으면 더 작은 잔차와 더 적은 큰 잔차가 함께 모이는 경향이 있습니다. 첨도를 변경하는 동안 표준 편차를 일정하게 유지한다고 상상해보십시오 (따라서 “분산보다는 첨도의 변경에 대해 분명히 이야기하고 있습니다).
다른 분산을 비교합니다 (하지만 동일한 첨도).
첨도는 다르지만 분산은 동일합니다.
(이 게시물 )
높은 첨도는 많은 경우 평균에서 더 작은 편차와 관련이 있습니다. $ ^ \ ddagger $ -정규 분포에서 찾을 수있는 것보다 더 작은 잔차 .. 그러나 표준 편차를 동일한 값으로 유지하려면 큰 잔차가 더 많이 있어야합니다. (잔차가 더 작 으면 평균으로부터의 일반적인 거리가 더 작아지기 때문입니다). 큰 잔차와 작은 잔차를 더 많이 얻으려면 “일반적인 크기”잔차 (평균에서 약 1 표준 편차)를 갖습니다.
$ \ ddagger $ “작음”을 정의하는 방법에 따라 다릅니다. 단순히 많은 큰 잔차를 추가하고 분산을 일정하게 유지할 수는 없습니다.이를 보상 할 무언가가 필요합니다. 그러나 “작은”에 대해 주어진 측정 값에 대해 증가하지 않고 첨도를 증가시키는 방법을 찾을 수 있습니다. (예를 들어 첨도가 높을수록 자동으로 더 높은 피크를 의미하지는 않습니다.)
분산 상수를 유지하더라도 첨도가 높을수록 잔차가 더 커지는 경향이 있습니다.
[또한 어떤 경우에는 작은 잔차의 집중이 실제로보고있는 내용에 따라 가장 큰 잔차의 추가 부분보다 더 많은 문제를 일으킬 수 있습니다.]
어쨌든 예를 들어 보겠습니다. 1- 표본 t- 검정과 10의 표본 크기를 고려하십시오.
t- 통계의 절대 값이 2.262보다 클 때 귀무 가설을 기각하면 관측치가 독립적 일 때 동일하게 정규 분포에서 분포되고 가정 된 평균이 실제 모집단 평균이므로 “5 %의 시간 동안 귀무 가설을 기각합니다.
정규보다 첨도가 상당히 높은 특정 분포를 고려합니다. 75 % 인구의 50 %는 정규 분포에서 추출한 값을 가지고 있고 나머지 25 %는 표준 편차가 50 배 더 큰 정규 분포에서 추출한 값을 가지고 있습니다.
정확하게 계산했다면 이것은 첨도에 해당합니다. 12 (과도한 첨도 9) 결과 분포는 정규 분포보다 훨씬 더 정점에 있고 꼬리가 두껍습니다.밀도는 아래의 일반 밀도와 비교됩니다. 더 높은 피크를 볼 수 있지만 실제로 왼쪽 이미지에서 더 무거운 꼬리를 볼 수는 없습니다. 따라서 밀도의 로그를 플로팅했습니다. 상단과 하단을 모두 쉽게 볼 수 있도록 이미지를 압축하고 상단을 압축합니다.
pan class = “로”5 % “1- 표본 t- 검정을 수행하는 경우이 분포에 대한 실제 유의 수준 math-container “> $ n = 10 $ 은 0.9 % 미만입니다. 이는 상당히 극적이며 전력 곡선을 상당히 크게 줄입니다.
(또한 다음에 대한 실질적인 효과를 볼 수 있습니다. 신뢰 구간의 범위.)
동일한 첨도를 가진 다른 분포는 유의 수준에 다른 영향을 미칩니다.
왜 거부가 발생합니까? 요금이 내려가? 꼬리가 무거울수록 표준 편차에 약간 더 큰 영향을 미치는 몇 개의 큰 특이 치가 발생하기 때문입니다. 이는 -1과 1 사이의 t- 값이 더 많이 나오기 때문에 t- 통계에 영향을줍니다. 그 과정에서 임계 영역의 값 비율을 줄입니다.
평균이 가정 된 평균보다 충분히 높은 정규 분포에서 나온 것과 매우 일치하는 표본을 취하면 의미있는 것입니다. 그런 다음 관측 값을 평균보다 더 멀리 가져 와서 더 멀리 당기면 (즉, 평균을 $ H_0 $ 보다 더 크게 만듭니다) 실제로 t- 통계를 작게 만드세요.
제가 보여 드리겠습니다. 다음은 “크기 10의 샘플입니다.
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
$ H_0 : \ mu =에 대해 테스트한다고 가정 해보십시오. 2 $ (1 표본 t- 검정). 여기서 표본 평균은 2.68이고 표본 표준 편차는 0.9424입니다. t- 통계량은 2.282입니다. 5 % 테스트 (p- 값 0.0484).
이제 가장 큰 값을 50으로 만듭니다.
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
분명히 평균을 가져옵니다. 그래서 그것은 이전보다 더 많은 차이를 나타내야합니다, 그렇죠? t- 통계는 아래로 내려갑니다. 이제 1.106이고 p- 값은 상당히 큽니다 (30 %에 가까움). 어떻게 된 거예요? 음, 우리는 평균을 7.257까지 끌어 올렸지 만 표준 편차는 15를 넘었습니다.
표준 편차는 평균보다 특이 치에 조금 더 민감합니다. 이상 치를 입력하면 당신은 1- 표본 t- 통계량을 1 또는 -1로 밀어 붙이는 경향이 있습니다.
여러 특이 치가있을 가능성이있는 경우, 가끔씩 반대편에있을 수있는 경우에만 거의 동일한 일이 발생합니다 (이 경우 표준 편차는 훨씬 더 부풀려지고 평균에 대한 영향은 1에 비해 감소합니다. 이상치), 따라서 t- 통계는 0에 가까워지는 경향이 있습니다.
정규성을 가정하는 다른 여러 일반 테스트에서도 유사한 작업이 진행됩니다. 첨도가 높을수록 꼬리가 더 무거워지는 경향이 있습니다. 더 많은 특이 치, 즉 표준 편차가 평균에 비해 부풀려 지므로 파악하려는 차이가 테스트에 대한 이상치의 영향으로 “소멸”되는 경향이 있습니다. 즉, 저전력입니다.
의견
- 와, 매우 명확하고 정교하게 답변 해 주셔서 감사합니다. 시간을 내 주셔서 감사합니다.
- 또한 주목할 가치가 있습니다. 표본 평균의 큰 표본 분포는 첨도에 의존하지 않습니다 (따라서 평균에 대한 정규성 가정 검정의 실제 유의 수준 수렴 모든 유한 첨도에 대해 n- > 무한대와 같이 일반적으로 .05 인 명목 수준으로 이동하지만 분산 검정의 경우도 마찬가지입니다. 추정 된 분산의 큰 표본 분포는 첨도에 따라 달라 지므로 분산에 대한 고전적인 정규성 가정 검정의 실제 유의 수준은 n->와 같은 명목 수준으로 수렴되지 않습니다. 첨도가 0과 다를 때 무한대입니다.
- 또한 첨도가 높다고해서 수학적으로 평균에서 ” 더 작은 편차가 있음을 의미하지는 않습니다. ” 확실히 알려주는 유일한 것은 꼬리 부분에 더 많은 것이 있다는 것입니다.
- 더 큰 편차를 얻을 수없고 분산을 일정하게 유지할 수는 없습니다.
- @Peter Let ‘는 $ Z를 사용합니다. $는 표준화 된 $ X $입니다. 첨도는 $ \ kappa = E (Z ^ 4) $이고 $ \ sqrt {\ kappa-1} = E (Z ^ 2) $는 $ \ kappa $에서 단조입니다. 확률을 $ Z $의 꼬리로 더 이동하면 일부 확률은 평균쪽으로 이동해야합니다 (또는 ‘ $ \ text {Var} (Z) = 1 $ ).마찬가지로 확률을 $ X $의 꼬리로 더 이동하면 & 분산을 늘리면 $ \ mu \ pm k \ sigma $가 더 넓어 지므로 적어도 일부 값은 나머지 배포판의 $ k $ 이상은 해당 범위에 포함되는 경향이 있습니다. 새 $ X $ ($ X ‘ $에서 $ Z ‘ $)를 표준화하면 더 작은 값을 갖게됩니다. 직접적인 감각.
i> 더 작은 편차를 만들지 않는 한; 분산 상수를 유지하지 않으면 ‘ 새로운 척도에 비해 더 많은 편차가 작아집니다. 그렇습니다. 첨도를 살펴볼 때 수학은 더 큰 운반이 더 작다는 것을 알려줍니다.
답변
첨도는 특이 치를 측정합니다. 정규 분포를 기반으로하는 표준 추론 (예 : t- 검정, t- 구간)에는 이상 값이 문제가됩니다. 이것으로 이야기의 끝입니다! 그리고 그것은 정말로 매우 단순한 이야기입니다.
이 이야기가 잘 평가되지 않는 이유는 첨도가 “첨두도”를 측정한다는 고대 신화가 지속되기 때문입니다.
첨도는 왜 “첨두도”가 아닌 이상 값을 측정하는지 보여주는 간단한 설명입니다.
다음 데이터 세트를 고려하십시오.
0, 3, 4, 1 , 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1
첨도는 (z- 값 ) ^ 4. (z- 값) ^ 4 :
6.51, 0.30, 5.33, 0.45, 0.00, 0.30, 6.51, 0.00, 0.45, 0.30, 0.00, 6.51, 0.00, 0.00, 0.30, 0.00, 27.90, 0.00, 0.30, 0.45
평균은 2.78이며 첨도의 추정치입니다. (과도한 첨도를 원하면 3을 뺍니다.)
이제 마지막 데이터 값을 999로 바꾸면 이상 치가됩니다.
0, 3, 4, 1, 2, 3 , 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
이제 (z- 값) ^ 4 :
0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98
평균은 18.05이며 첨도의 추정치입니다. (과도한 첨도를 원하면 3을 뺍니다.)
분명히 이상치 만 중요합니다. “피크”또는 중간 근처의 데이터에 대한 것은 중요하지 않습니다.
두 번째 데이터 세트로 표준 통계 분석을 수행하면 문제가 발생할 수 있습니다. 큰 첨도는 문제를 알려줍니다.
다음은 자세히 설명하는 논문입니다.
Westfall, P.H. (2014). 첨도로서의 첨도, 1905 – 2014. R.I.P. 미국 통계 학자, 68, 191–195.
댓글
- 왜 비모수 테스트를 사용하지 않습니까? 이러한 유형의 문제에 대해서는 우월 할 가능성이 높습니다.
- 동의합니다. 테스트를 좋아한다면 가능한 방법입니다. 이는 고전적인 형식에서 빠르게 덜 흥미로워지고 있습니다. 그러나 그것은 정말로 나의 관심사가 아닙니다. 일반적으로 확률 적 모델링에 더 관심이 있습니다. 한 가지 적용 : 아마도 당신은 평균에 정말로 관심이있을 것입니다. 예를 들어, 종속 변수가 벌어 들인 달러 인 경우, 공정 평균이 공정 중앙값보다 더 흥미 롭습니다. 그렇다면 데이터가 이상 치가 발생하기 쉬운 프로세스에 대해 무엇을 의미합니까? 어려운 문제이지만 ‘ 중요한 문제이며 순간 첨도는 답과 관련이 있습니다. 비파 검정이 아닙니다.
- 코시 분포의 경우 잘린 평균이 중앙값보다 위치를 더 잘 측정 할 수 있으며 일반 평균은 위치 측정이 아닙니다. 위치의 척도로 무엇을 사용할지는 분포가 무엇인지에 따라 다릅니다. 첨도가 지표로 도움이되지 않는 예는 평균 극단 값이 중앙값과 평균보다 더 나은 위치 척도 인 균일 분포입니다.
- 점이 아닙니다. 예를 들어 달러와 같은 총계에 관심이있는 경우 일반 평균은 원하는 위치의 척도입니다.
- 코시 분포 변수가있는 경우 총 벌어 들인 달러에 대한 사례를 만들 수 있지만 mean은 특히 유용한 위치 측정 기준이 아닙니다. 즉, ” 예상 값 “에는 이와 관련된 합리적인 기대치가 없습니다.
Answer
첨도는 또한 비대칭 꼬리를 나타냅니다. 양측 가설 검정에서 한쪽 꼬리는 긴 꼬리가되고 다른 쪽 꼬리는 짧은 꼬리가됩니다. 꼬리 중 하나는> 알 파일 수 있지만 < 베타입니다. 한쪽 꼬리는 p- 값을 전달하지만 다른 쪽 꼬리는 전달하지 않습니다.
기본적으로 통계적 추론은 표준 정상을 가정합니다. 표준 노멀이 아닌 경우 좀 더 정교한 추론 메커니즘을 기반으로 한 추론을 할 수 있습니다. 포아송 추론을 할 수는 있지만 정규 분포가 아닌 분포에서는 정규에 기반한 추론을 사용할 수 없습니다.
기울기와 첨도는 비정규 성의 척도입니다. 정규성을 테스트해야한다는 것을 알기 전에 평균을 취하고 정규 분포를 사용하는 방법을 배웁니다. 법선에는 각 차원에서 36 개 이상의 데이터 포인트가 필요합니다. 20 개의 데이터 포인트로 추정 할 수 있지만 여전히 치우침과 첨도를 갖게됩니다. 분포가 정규성에 가까워지면 치우침과 분포가 사라집니다.
첨도를 정점으로 정의한 설명 중 하나입니다. 다른 하나는 그렇지 않았습니다.이것은 현재 불안정한 싸움입니다. 첨도는 네 번째 순간, 영역입니다. 나는 문제의 정점에 있지 않습니다.
또 다른 아이디어는 기울어 진 상태에서 중앙값이 삼각형을 형성하는 모드로 기울어 져 있다는 것입니다. 즐기십시오.
의견
- 이것이 ‘ 이미 우수한 답변에 유용하고 다른 것을 추가한다는 점이 분명하지 않습니다. 몇 가지 수수께끼 문장을 추가합니다. 예 : ” 일반적으로 36 개 이상의 데이터 포인트가 필요합니다. ” (35 개가 맞지 않습니까?이 주장의 근거는 무엇입니까? ” 왜곡이 정점 일 때 ” 나는 ‘ 누구도 이것을 주장한다고 생각하지 않습니다. ” 통계적 추론은 표준 정규 분포를 가정합니다. ” : 일반적이지 않습니다. 첨도는 네 번째 모멘트, 영역 : 아니오입니다. 여기에 정의 된 첨도는 다음을 기준으로하는 무 차원 비율입니다. 평균에 대한 네 번째 및 두 번째 모멘트.
- 네 번째 모멘트는 적분이므로 영역입니다. 그 영역이 어떻게 번역되는지 첨도 또는 곡률이 나에게 손실됩니다.
- 첨도에 대한 전형적인 설명은 정점이지만 ‘ 제 생각에는 잘못되었습니다. ‘ 첨도를 변경하여 첨도는 … 고맙습니다.
- 꼬리가 대칭이 아닙니다. 저는 ‘ 비대칭 꼬리를 고려하는 통계적 추론에 대해 전혀 본 적이 없습니다. 첨도 위험은 더 많은 데이터 포인트가 수집됨에 따라 꼬리가 움직이기 때문에 발생합니다. 왜도 및 첨도는 표준 정규를 달성하기에 충분한 데이터가 없다는 의미입니다.
- 그렇지 않습니다. 지수, 감마, Weibull 및 정규가 아닌 많은 다른 분포에 대한 많은 이론과 응용 프로그램이 있습니다. .