히스토그램은 변수의 분포를 잘 보여줍니다. 박스 플롯은 동일한 작업을 시도하지만 “이 변수의 분포를 잘 보여주지는 않습니다.
사람들이 박스 플롯을 사용하는 이유를 이해하지 못합니다. 히스토그램은 모든면에서 더 좋습니다. 두 가지를 모두 사용하는 이유가 있습니까?
박스 플롯이 제공하는 유일한 것은 특이 치입니다! 어떤 관측치가 특이 치일 수 있는지 알려줍니다.
댓글
- 히스토그램이 전체 분포를 표현하는 것보다 모든면에서 더 나쁩니 까?
- 원하는 것에 따라 상자 플롯을 사용하면 히스토그램에는없는 정확한 값 (예 : 중앙값, P75)을 가질 수 있습니다. 적은 정보를 표시하지만 더 종합적입니다. 내 요점은 히스토그램조차도 전체 분포에 비해 단순화되고 정보 낭비라는 것입니다. 그러나 사용하기가 더 쉬울 수 있습니다.
- 히스토그램의 유용성에 대한 반대 관점이 stats의 높은 찬성 게시물에서 일관되게 표현되고 잘 설명되어 있습니다. .stackexchange.com / a / 51753 (Google 사이트에서 " 히스토그램 "를 검색하여 찾을 수 있음).
- 흥미로운 생각이지만 빈 크기를 늘리면 히스토그램이 상자 그림과 같은 그림으로 줄어들고 컷 포인트 선택에 대한 불행한 의존성은 유지됩니다. IMHO, 상자 그림의 진정한 장점은 Tukey '가 다변량 데이터의 탐색 적 분석을위한 N- 문자 요약 사용을 연구하고 그가 연필과 종이로 계산했다는 사실을 기억하면 가장 잘 이해할 수 있습니다. 당시. " 방황 회로도 추적 " 히스토그램이나 바이올린 플롯과 같은 조건부 응답의 다른 일 변량 요약과 같은 시각화의 경우 단순히 작동하지 않습니다.
- 히스토그램의 두 가지 실패 (imo)는 샘플이 거의 없거나 상자 크기가 잘못된 경우에 발생합니다. 좋은 상자 그림의 약점 (내가 말할 때 JMP 가변성을 ' 생각하고 있음)은 다중 양식이며 세부 사항입니다. 상자 그림이 빛나는 한 곳은 샘플이 거의 없을 때입니다. 또한 서로 다른 수준에서 상호 작용하는 변수가 많을 때도 좋습니다. 따라서 JMP 가변성 플롯이 있습니다.
Answer
상자 그림이 분포 요약을 더 많이 제공한다는 사실은 특정 경우에 이점으로 볼 수도 있습니다. 때때로 우리가 분포를 비교할 때 우리는 전체적인 모양을 신경 쓰지 않고 오히려 분포가 서로에 대해 어디에 놓여 있는지를 신경 쓰지 않습니다. 분위수를 나란히 표시하는 것은 우리가 신경 쓰지 않을 수있는 다른 세부 사항으로주의를 분산시키지 않고이 작업을 수행하는 유용한 방법이 될 수 있습니다.
댓글
- 이것이 최고의 답변입니다. 상자 그림은 히스토그램보다 분포를 비교하는 데 더 좋습니다!
답변
단 변량의 경우 상자 그림은 다음을 제공합니다. 히스토그램에없는 일부 정보 (적어도 명시 적으로는 아님). 즉, 일반적으로 이상 값이 아닌 중앙값, 25 번째 및 75 번째 백분위 수, 최소 / 최대 값을 제공하고 이상 값으로 간주되는 포인트를 명시 적으로 구분합니다. 이것은 모두 히스토그램에서 “눈에 띄는”것일 수 있습니다 (이상 값의 경우 눈에 띄는 것이 더 좋을 수도 있음).
그러나 훨씬 더 큰 장점은 여러 그룹의 분포를 한 번에 비교하는 것입니다. 10 개 이상의 그룹으로 나란히있는 히스토그램이있는 피곤한 작업이지만 상자 플롯에서는 매우 쉽습니다.
당신이 언급했듯이, 바이올린 음모 (또는 콩 음모)는 좀 더 유익한 대안입니다. 그러나 박스 플롯보다 약간 더 많은 통계 지식이 필요하며 (즉, 통계적이지 않은 청중에게 프레젠테이션하는 경우 약간 더 위협적 일 수 있음) 박스 플롯은 커널 밀도 추정기보다 훨씬 더 길어 인기가 높습니다.
댓글
- +1. 하지만 상자 그림은 수단이 아니라 중앙값을 제공합니다.
- 모든 사람이 옳을 수 있습니다. 일반적으로 플로팅 된 박스 플롯은 중앙값을 보여줍니다 (' 이가 거부 된 것을 보았지만 예를 본 기억은 없습니다). 그러나 일부 구현에서는 수단도 표시 할 수 있습니다. '는 종종 좋은 생각입니다.
- 알려 주셔서 감사합니다. 저는 계속해서 ' 일반적으로 평균이라고 생각합니다. 극단적 인 경우 매우 이상한 플롯으로 이어질 수 있습니다.
- 이미지가 있으면 좋을 것입니다. 이와 함께 상자 플롯과 히스토그램 비교를 나란히 비교 한 값을 표시합니다.
Answer
-
내가 히스토그램을 보여주고 중앙값이 어디에 있는지 물어 보면 시간이 좀 걸릴 수 있습니다. 그러면 “근사값 만 얻을 수 있습니다.boxplot으로 똑같이하면 즉시 얻을 수 있습니다. 그것이 당신이 관심을 갖고있는 것이라면 상자 그림이 당연히 승리합니다.
-
나는 상자 그림이 배포에 대한 설명만큼 효과적이지 않다는 데 동의합니다. 단일 샘플의 경우 몇 점으로 줄여서 많은 것을 알려주지 않습니다.
그러나 수십 개의 분포를 비교하는 경우 각각의 세부 정보를 쉽게 비교할 수있는 것보다 더 많은 정보-정보를 더 적은 수의 정보로 줄여 비교할 수 있습니다.
-
정보가 많을수록 더 나은 선택이 있습니다. 히스토그램; 예를 들어 줄기와 잎 그림 또는 ecdf / 분위수 그림.
또는 히스토그램에 정보를 추가 할 수 있습니다.
( 이 답변 )
첫 번째-마진에 좁은 상자 그림을 추가하면 얻을 수있는 이점이 있습니다.
Answer
막대 그림은 관측 빈도 범위 만 제공하는 반면 상자 그림은 여러 분포의 모수는 막대 그래프가 할 수없는 평균 및 분산입니다. 따라서 상자 그림은 분포가 여러 개인 경우 효과적인 비교 도구로 사용됩니다.
주석
- 상자 그림이 평균을 표시하는 경우는 드뭅니다. -거의 항상 중앙값을 사용하며 분산을 직접 나타내지 않습니다 . 또한 이러한 수량은 일반적으로 " 분포 매개 변수 "로 간주되지 않습니다. 설명 통계 일괄 데이터 .
- 정확히, 너무 많은 계산을하지 않고도 분포를 설명 할 수있는 좋은 도구입니다. 그리고 그들은 중앙값을 더 많이 표시하고 많은 경우에 두 측정 값이 일치하기 때문에 상자 그림도 평균을 근사화하는 좋은 도구입니다.
- 귀하의 의견은 계속해서 데이터 를 혼란스럽게하는 것 같습니다. 기본 배포 와 함께. 모든 데이터 배치에서 평균이 중앙값과 같은 경우는 매우 드뭅니다. 또한 boxplot의 더 좋고 가장 일반적인 용도 중 하나는 일반적으로 평균과 중앙값 간의 중요한 차이를 의미하는 비대칭을 식별하는 것입니다. 상자 그림의 원래 개념 뒤에있는 기본 원칙 중 하나는 강력한 탐색 도구라는 것입니다. 이는 평균이나 분산과 같은 민감한 통계를 기반으로하지 않는 것이 더 낫다는 것을 의미합니다.