새 질문에 대한 토론 :
예를 들어, 인체 크기를 연구하고 싶은데 성인 인체 크기가 표준 2cm의 편차, 성인 인체 크기가 매우 균일하다고 추론 할 수 있습니다.
비교 대상에 따라 다릅니다. 그것을 매우 균일하게 만드는 비교 기준? 매우 가변적 일 수있는 특정 유형의 볼트에 대한 볼트 길이의 가변성과 비교해 보면.
반면 표준 편차는 2cm입니다. 생쥐의 크기는 생쥐의 신체 크기가 놀랍도록 많이 다르다는 것을 의미합니다.
더 균일 한 인간 사례의 동일한 것과 비교하면 확실히; 양수일 수있는 사물의 길이에 관해서는 변동 계수를 비교하는 것이 더 합리적 일 수 있습니다 (원래 답변에서 지적했듯이). 이는 sd를 비교하여 “여기에서 제안하고 있습니다.” .
분명히 표준 편차의 의미는 평균과의 관계입니다.
아니요, 항상 그런 것은 아닙니다. 사물의 크기 또는 사물의 양 (예 : 석탄 톤수, 돈의 양)의 경우에는 종종 의미가 있지만 다른 상황에서는 평균과 비교하는 것이 이치에 맞지 않습니다.
그런데도 그것들은 “하나에서 다른 것으로 반드시 비교할 수는 없습니다. 모든 것에 적용되는 표준은 없습니다.” 어떤 것이 변수보다 먼저 어떻게 변하는 지.
평균의 10 분의 1 정도의 표준 편차는 현저하지 않습니다 (예 : IQ : SD = 0.15 * M).
여기서 비교하는 것은 무엇입니까? IQ에 대한 길이 ? 한 세트를 다른 세트와 비교하는 것이 왜 이치에 맞습니까? 한 종류의 IQ 테스트에 대해 평균 100과 sd 15를 선택하는 것은 전적으로 임의적입니다. 그들은 단위가 없습니다. 그것은 쉽게 의미 0 sd 1 또는 의미 0 일 수 있습니다.5 및 sd 0.1.
하지만 표준 편차와 평균 간의 관계에서 “작음”으로 간주되는 것은 무엇이고 “대형”은 무엇입니까?
이미 내 원래 답변에서 다루었지만 whuber의 의견에서 더 설득력있게 다루었습니다. 표준은 하나도 없으며 그럴 수도 없습니다. 수 있습니다.
Cohen에 대한 내 요점 중 일부는이 경우에도 여전히 적용됩니다 (평균에 대한 sd는 적어도 단위가 없습니다). 그러나 Cohen의 d와 같은 경우에도 한 상황에서 적합한 표준이 반드시 다른 상황에 적합한 것은 아닙니다.
이전 버전에 대한 답변
우리는 항상 평균과 표준 편차를 계산하고보고합니다.
음, 아마도 많은 시간이 소요될 것입니다. 내가 항상 하는 것인지 모르겠습니다. 그다지 관련이없는 경우도 있습니다.
하지만 분산의 크기는 실제로 무엇을 의미합니까?
표준 편차는 평균으로부터의 일종의 평균 * 거리입니다. 분산은 표준 편차입니다. 표준 편차는 데이터와 동일한 단위로 측정되며 분산은 제곱 단위입니다.
* (RMS- https://en.wikipedia.org/wiki/Root_mean_square )
그들은 데이터가”확산 “되는 방식 (또는 sd 또는 분산을 계산하는 경우 분포)에 대해 알려줍니다. 배포).
예를 들어, 사람들이 빈 방에서 어떤 좌석을 차지하는지 관찰한다고 가정합니다. 대다수의 사람들이 거의 차이없이 창 가까이에 앉아있는 것을 관찰하면
정확히 “어떤 좌석”을 기록하는 경우는 아니지만 “창으로부터의 거리”를 기록합니다. ( “대부분이 창문 가까이에 앉아있다”는 것을 아는 것은 반드시 평균이나 평균에 대한 변화를 알려주는 것은 아닙니다. 그것이 말하는 것은 중앙값 창으로부터의 거리는 작아야합니다.)
이는 사람들이 일반적으로 창 근처에 앉아 시야를 확보하거나 충분한 빛을받는 것을 선호한다는 것을 의미 할 수 있습니다. 좌석 선택의 주요 동기입니다.
중앙값이 작다는 것 자체만으로는 알 수 없습니다. 다른 고려 사항에서 추론 할 수도 있지만 그 이유는 여러 가지가있을 수 있습니다. 데이터에서 어떤 식으로도 식별 할 수 없습니다.
반면에 가장 큰 비율이 창 가까이에있는 동안 다른 좌석을 자주 사용하는 경우에도 큰 차이가 있습니다 (예 : 많은 사람들이 문 가까이에 앉아 있고 다른 좌석은 정수기 또는 신문 가까이에 앉아 있음). 우리는 많은 사람들이 창문 가까이에 앉아있는 것을 선호하지만 좌석 선택과 다른 사람들의 선호도에 영향을 미치는 조명이나보기보다 더 많은 요소가됩니다.
다시 말하지만, 데이터 외부에서 정보를 가져옵니다. 적용되거나 적용되지 않을 수 있습니다. 낮이 흐리거나 블라인드가 그려져 있기 때문에 빛이 창에서 멀리 떨어져있는 것이 더 낫다는 것을 알고 있습니다.
어떤 값에서 c 우리가 관찰 한 행동이 매우 다양하다고 말합니다 (다른 사람들은 다른 장소에 앉는 것을 좋아합니다)?
표준 편차를 크거나 작게 만드는 것은 일부 외부 표준에 의해 결정되지 않고 주제 고려 사항 및 어느 정도는 수행중인 작업에 의해 결정됩니다. 데이터 및 개인 요인까지도 포함됩니다.
그러나 거리와 같은 양의 측정을 사용하는 경우 평균 (변동 계수)에 상대적인 표준 편차를 고려하는 것이 때때로 적절합니다. 여전히 임의적이지만 변동 계수가 1보다 훨씬 작은 (표준 편차가 평균보다 훨씬 작음) 분포는 어떤 의미에서 1보다 훨씬 큰 분포 (표준 편차가 평균보다 훨씬 큽니다)와 “다릅니다”. , 이는 종종 심하게 오른쪽으로 치우치는 경향이 있습니다.)
그리고 행동이 대부분 균일하다고 언제 추론 할 수 있습니까 (모두가 창문에 앉아있는 것을 좋아합니다).
그 의미에서 “uniform”이라는 단어를 사용하지 않도록주의하십시오. 의미를 잘못 해석하기 쉽기 때문입니다 (예 : 사람들이 ” 균등하게 방에 앉아 있습니다 “라는 말은 의미와 거의 반대입니다. 일반적으로 통계를 논의 할 때는 일반적으로 일반적인 의미에서 전문 용어를 사용하지 마십시오.
데이터가 보여주는 작은 변화는 대부분 무작위 효과 또는 혼란스러운 변수의 결과입니다 (의자 하나에 먼지, 태양이 움직 였고 뒤쪽에 더 많은 그늘 등)?
아니요, 다시 말하지만 “토론중인 통계량에 대한 외부 정보를 가져 오는 것입니다. 분산은 그런 것을 알려주지 않습니다.
효과 크기 해석에 대한 Cohen의 지침과 유사한 데이터 분산의 크기를 평가하기위한 지침이 있습니까 (상관 관계 0.5는 크다, 0.3 보통, 0.1은 작습니다)?
일반적으로는 아닙니다.
-
Cohen s 효과 크기에 대한 논의 [1]는 표시 한 것보다 더 미묘하고 상황에 맞습니다. 그는 어떤 종류의 논의가 진행되고 있는지에 따라 중소형과 대형의 8 가지 값을 표로 제공합니다. 여러분이 제공하는 숫자는 독립 평균 (Cohen의 d )의 차이에 적용됩니다.
-
Cohen의 효과 크기는 모두 단위가없는 양으로 조정됩니다. . 표준 편차와 분산은 아닙니다. 단위를 변경하면 둘 다 변경됩니다.
-
Cohen의 효과 크기는 특정 응용 분야에 적용하기위한 것입니다. “소형, 중형 및 대형의 표준에 너무 많은 초점을 맞추고 있습니다. 제가 원하는 것보다 다소 임의적이며 다소 규범 적입니다.) 이들은 의도 된 응용 분야에 대해 다소 합리적이지만 다른 분야에는 전혀 적합하지 않을 수 있습니다. (예를 들어 고 에너지 물리학에서는 많은 표준 오류를 다루는 효과가 자주 필요하지만 Cohen의 효과 크기 에 해당하는 효과는 “달성 할 수있는 것보다 훨씬 더 많을 수 있습니다.”
예를 들어, 관측치의 90 % (또는 30 % 만)가 평균에서 1 표준 편차 내에 포함되는 경우 이는 흔하지 않거나 전혀 눈에 띄지 않습니다. ?
아, 이제 표준 편차 / 분산의 크기에 대한 논의를 중단하고 e 평균의 하나의 표준 편차 내에있는 관측치의 비율, 완전히 다른 개념. 대략적으로 말하자면 이것은 분포의 정점과 더 관련이 있습니다.
예를 들어, 분산을 전혀 변경하지 않고 평균의 1 sd 내에서 모집단의 비율을 매우 쉽게 변경할 수 있습니다. 모집단에 $ t_3 $ 분포가 있으면 그 중 약 94 %가 평균의 1 초 내에 있고, 균일 분포가 있으면 약 58 %가 평균의 1 초 내에 있습니다. 베타 ($ \ frac18, \ frac18 $) 분포의 경우 약 29 %입니다. 이는 모두 동일한 표준 편차를 갖거나 백분율을 변경하지 않고 더 크거나 더 작은 경우 발생할 수 있습니다. 표준 편차로 간격을 정의했기 때문에 실제로는 확산과 전혀 관련이 없습니다.
[1] : Cohen J. (1992),
“A power primer,”
Psychol Bull. , 112 (1), 7 월 : 155-9.
댓글
Chebyshev “s 부등식 우리는 어떤 $ x $가 평균으로부터 $ k $ 곱하기 $ \ sigma $가 될 확률이 최대 $ \ frac {1} {k ^ 2} $입니다.
$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$
하지만 일부 분포 가정을 사용하면 더 정확할 수 있습니다 (예 : Normal). 근사치는 68–95–99.7 규칙 으로 이어집니다. 일반적으로 누적 분포 함수 를 사용하여 특정 비율의 케이스를 포함해야하는 일부 구간을 선택합니다. 그러나 신뢰 구간 너비를 선택하는 것은 이 스레드 에 설명 된 것처럼 주관적인 결정입니다.
예
가장 직관적 인 예는 지능 척도입니다. 지능은 직접 측정 할 수 없습니다. 직접적인 지능의 “단위”가 없습니다 (그런데 센티미터 또는 섭씨도 역시 임의적입니다). 지능 테스트는 평균이 100이고 표준 편차가 15가되도록 채점됩니다. 이것은 우리에게 무엇을 말해줍니까? 평균과 표준 편차를 알면 어떤 점수가 “낮음”, “평균”또는 “높음”으로 간주 될 수 있는지 쉽게 추론 할 수 있습니다. “평균”으로 우리는 대부분의 사람들이 획득 한 점수 (예 : 50 %)를 분류 할 수 있으며, 높은 점수는 “평균 이상”으로 분류 할 수 있으며, 드물게 높은 점수는 “우수한”등으로 분류 할 수 있습니다. 이는 아래 표로 해석됩니다. .
Wechsler (WAIS–III) 1997 IQ 테스트 분류 IQ 범위 ( “편차 IQ”)
IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low
(출처 : https://en.wikipedia.org/wiki/IQ_classification )
따라서 표준 편차는 개별 값이 평균에서 얼마나 멀다고 가정 할 수 있는지 알려줍니다. $ \ sigma $는 평균으로부터의 단위없는 거리로 생각할 수 있습니다. 관찰 가능한 점수, 예를 들어 지능 테스트 점수를 생각한다면 표준 편차를 아는 것보다 어떤 값이 평균에서 얼마나 멀리 떨어져 있는지 ($ \ sigma $ “s 수) 쉽게 추론 할 수 있습니다. 주관적으로 얼마나 많은 $ \ sigma $ “가”멀리 “로 분류되는지 확인하지만 평균에서 특정 거리에있는 값을 관찰 할 확률 측면에서 생각하면 쉽게 검증 할 수 있습니다.
분산 ($ \ sigma ^ 2 $)이 무엇인지 확인
$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X-\ mu) ^ 2 \ right] . $$
… $ \ mu $에서 $ X $ “s의 예상 (평균) 거리입니다. 궁금하다면 여기에서 제곱 이유 .
설명