두 개의 히스토그램이 주어지면 두 개의 히스토그램이 유사한 지 여부를 어떻게 평가합니까?

두 개의 히스토그램 만 보는 것으로 충분합니까? ? 간단한 일대일 매핑에는 히스토그램이 약간 다르고 약간 이동하면 원하는 결과를 얻을 수 없다는 문제가 있습니다.

제안 사항이 있습니까?

댓글

  • " 유사 "는 무엇을 의미합니까? 카이 제곱 테스트와 KS 테스트 예를 들어 두 개의 히스토그램이 동일한 지 테스트합니다. 그러나 " 유사한 "는 " 같은 모양을 가지고 있습니다. " 위치 및 / 또는 규모의 차이를 무시합니다. 의도를 명확히 할 수 있습니까?
  • $ \ chi ^ 2 $ 테스트 외에도 Bihistogram ( itl.nist.gov/div898/handbook/eda)을 생성 할 수 있습니다. /section3/bihistog.htm ) 핸드북에서 : " 2 표본 t- 검정의 그래픽 대안입니다. bihistogram은 t보다 강력 할 수 있습니다. -모든 배포판에서 테스트 단일 플롯에서 특징 (위치, 축척, 왜도, 이상치)이 분명합니다. "

답변

읽을만한 가치가있는 최근 논문은 다음과 같습니다.

Cao, Y. Petzold, L. 화학 반응 시스템의 확률 적 시뮬레이션에서 정확도 제한 및 오류 측정, 2006.

이 문서는 확률 적 시뮬레이션 알고리즘을 비교하는 데 초점을 맞추고 있지만 기본적으로 주요 아이디어는 두 개의 히스토그램을 비교하는 방법입니다. .

작성자의 웹 페이지에서 pdf 에 액세스 할 수 있습니다.

댓글

  • 안녕하세요, 멋진 논문입니다. pdf 링크를 제공해 주셔서 감사합니다 .. 저는 '이 논문을 반드시 살펴 보겠습니다 ..
  • 대신 참고 문헌을 제공 할 때 논문의 요점을 요약하면 ' 좋을 것입니다. 링크가 사라 지므로 향후이 저널의 비 구독자에게는 답이 쓸모 없게 될 수 있습니다. (그리고 대다수의 인구는 비 구독자입니다.)

답변

두 히스토그램 사이의 거리 측정 값입니다. 다음에서 이러한 측정 값의 좋은 분류를 읽을 수 있습니다.

K. Meshgi 및 S. Ishii, “Expanding Histogram of Colors with Gridding to Improve Tracking 정확도”, Proc. of MVA15, Tokyo, Japan, 2015 년 5 월.

가장 인기있는 거리 함수는 편의를 위해 여기에 나열되어 있습니다.

  • $ L_0 $ 또는 Hellinger Distance

$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $

  • $ L_1 $ , Manhattan 또는 City Block Distance

$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i)-h_2 (i) \ rvert $

  • $ L = 2 $ 또는 유클리드 거리

$ D_ { L2} = \ sqrt {\ sum_ {i} \ left (h_1 (i)-h_2 (i) \ right) ^ 2} $

  • L $ _ {\ infty} $ 또는 Chybyshev Distance

$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i)-h_2 (i) \ rvert $

  • L $ _ p $ 또는 분수 거리 (Minkowski distance 제품군의 일부)

$ D_ {Lp} = \ left (\ sum \ limits_ {i} \ lvert h_1 (i)-h_2 (i) \ rvert ^ p \ right) ^ {1 / p} $ $ 0 < p < 1 $

  • 히스토그램 교차점

$ D _ {\ cap} = 1-\ frac {\ sum_ {i} \ left (min (h_1 (i) , h_2 (i) \ right)} {min \ left (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $

  • 코사인 거리

$ D_ {CO} = 1-\ sum_i h_1 (i) h2_ (i) $

  • 캔버라 거리

$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $

  • Pearson의 상관 계수

$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i)-\ frac {1} {n} \ right ) \ left (h_2 (i)-\ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i)-\ frac {1} {n} \ right) ^ 2 \ sum_i \ left (h_2 (i)-\ frac {1} {n} \ right) ^ 2}} $

  • Kolmogorov-Smirnov Divergance

$ D_ {KS} = max_ {i} \ lvert h_1 (i)-h_2 (i) \ rvert $

  • 일치 거리

$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i)-h_2 (i) \ rvert $

  • 크레머 폰 미제스 거리

$ D_ {CM} = \ sum \ limits_ {i} \ left (h_1 (i)-h_2 (i) \ right) ^ 2 $

  • $ \ chi ^ 2 $ 통계

$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ left (h_1 (i)-h_2 (i) \ right) ^ 2} {h_1 (i) + h_2 (i)} $

  • Bhattacharyya 거리

$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger

  • Squared Chord

$ D_ {SC} = \ sum_i \ left (\ sqrt {h_1 (i)}-\ sqrt {h_2 (i)} \ right) ^ 2 $

  • 컬백 -Liebler Divergance

$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $

  • Jefferey Divergence

$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ right) $

  • Earth Mover “s Distance (이것은 비닝 정보를 포함하는 운송 거리 $ A $ , 자세한 내용은 위에 언급 된 문서 또는 Wikipedia를 참조하세요. 항목.

$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ left (\ sum_i h_1 (i) \ sum_j h_2 (j) \ right) $ $ f_ {ij} $ $ i $ 에서 $ j $

  • 2 차 지구 ance

$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (h_1 (i)- h_2 (j) \ right) ^ 2} $

  • Quadratic-Chi 거리

$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (\ frac {h_1 (i)-h_2 (i)} {\ left (\ sum_c A_ {ci} \ left (h_1 (c) + h_2 (c) \ 오른쪽) \ 오른쪽) ^ m} \ 오른쪽) \ left (\ frac {h_1 (j)-h_2 (j)} {\ left (\ sum_c A_ {cj} \ left (h_1 (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ $ \ frac {0} {0} \ equiv 0 $

이러한 거리 중 일부에 대한 Matlab 구현은 내 GitHub 저장소에서 사용할 수 있습니다. https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance 또한 Yossi Rubner, Ofir Pele, Marco Cuturi 및 Haibin Ling과 같은 사람을 검색하여 더 많은 최신 거리를 찾을 수 있습니다.

업데이트 : 거리에 대한 대체 설명이 여기 저기 문헌에 나와 있으므로 완전성을 위해 여기에 나열합니다.

  • Canberra distance (다른 버전)

$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $

  • Bray-Curtis 비 유사성, Sorensen 거리 ( 히스토그램의 합계는 1이고 $ D_ {L0} $ )

$ D_ {BC} = 1-\ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $

  • 자카드 거리 (예 : 합집합 위의 교차, 다른 버전)

$ D_ {IOU} = 1-\ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $

댓글

  • 사이트에 오신 것을 환영합니다! 기여해 주셔서 감사합니다.
  • 다음은 종이 링크입니다. mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
  • 감사합니다. 목록은 훌륭하지만 ' 히스토그램에 대한 비교 연산자를 만들 수 없습니다. 예 : hist1 < hist2
  • 귀하의 KS 발산은 $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i)- \ sum_i h_2 (i) \ rvert $$ 위의 방정식과 일치하지 않는 것 같습니다. 뭔가 빠졌나요?
  • 내 코드에서 실수 한 것 같습니다. 나는 이것을 조사 할 것이다. 지적 해 주셔서 감사합니다.

답변

이 질문에 대한 일반적인 답은 카이 제곱 검정 . KS 테스트는 비닝 된 데이터가 아닌 비 구간 데이터에 대한 것입니다. (비 구간 데이터가있는 경우 반드시 KS 스타일 테스트를 사용하지만 히스토그램 만있는 경우 KS 테스트는 적합하지 않습니다.)

댓글

  • 기본 데이터의 분포에 대한 가설 테스트로 이해되는 경우 KS 테스트가 히스토그램에 적합하지 않다는 것이 맞지만 KS 통계 ' 두 히스토그램의 동일성을 측정하는 데 적합하지 않습니다.
  • Kolmogorov-Smirnov 테스트가 비닝 된 데이터에 적합하지 않은 이유에 대한 설명 유용합니다.
  • 이는 통계적 적합성 평가만큼 이미지 처리에 유용하지 않을 수 있습니다. 종종 이미지 처리에서 데이터 히스토그램은 이미지 영역에 대한 설명 자로 사용되며 목표는 이미지 패치 사이의 거리를 반영하는 히스토그램 사이의 거리입니다. 히스토그램을 얻는 데 사용되는 기본 이미지 데이터의 일반 인구 통계에 대해 거의 또는 전혀 알 수 없습니다. 예를 들어, 지향 그라디언트의 히스토그램을 사용할 때 기본 인구 통계는 이미지의 실제 내용에 따라 상당히 다를 것입니다.
  • naught101 '의 질문에 대한 답변은 다음과 같습니다. Stochtastic : stats.stackexchange.com/a/108523/37373

답변

Kolmogorov-Smirnov 테스트 를 찾고 있습니다. 막대 높이를 다음의 합으로 나누는 것을 잊지 마십시오. 각 히스토그램의 모든 관찰.

예를 들어 KS 테스트는 차이를보고합니다. 분포의 평균이 서로 상대적으로 이동합니다. x 축을 따라 히스토그램을 변환하는 것이 응용 프로그램에서 의미가없는 경우 먼저 각 히스토그램에서 평균을 뺄 수 있습니다.

설명

  • 평균을 빼면 KS 통계의 null 분포가 변경됩니다. @David Wright는 어쨌든 히스토그램에 KS 테스트를 적용하는 것에 대해 유효한 이의를 제기합니다.

답변

As David의 대답은 KS 테스트가 연속 분포를 가정하기 때문에 비닝 된 데이터에 대해 카이 제곱 테스트가 필요하다고 지적합니다. KS 테스트가 부적절한 이유 (naught101의 의견)와 관련하여 응용 프로그램에서 문제에 대한 논의가있었습니다. 여기에서 올릴 가치가있는 통계 문헌.

Nature 논문의 1/3이 통계적 오류를 포함하고 있다는 주장 ( García-Berthou 및 Alcaraz, 2004 )과 함께 재미있는 교환이 시작되었습니다. 그러나 후속 논문 ( Jeng, 2006 , “ 통계 테스트 오류의 통계 테스트 오류 “-아마도 내 모든- time favorite paper title)은 Garcia-Berthou와 Alcaraz (2005)가 개별 데이터에 대해 KS 테스트를 사용하여 메타 연구에서 부정확 한 p- 값을보고하는 것으로 나타났습니다. Jeng (2006) 논문은 개별 데이터에 대해 작동하도록 KS 테스트를 수정할 수 있음을 보여 주면서 문제에 대한 좋은 토론을 제공합니다. 이 특정 경우에 구별은 [0,9], $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \)에서 후행 숫자의 균일 한 분포 차이로 귀결됩니다. leq 9) $$ (잘못된 KS 테스트에서) 및 델타 함수의 빗 분포, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (올바른 수정 된 형식).원래 오류의 결과로 Garcia-Berthou 및 Alcaraz (2004)는 null을 잘못 거부했지만 카이 제곱 및 수정 된 KS 테스트는 그렇지 않습니다. 어쨌든 KS가 여기서 작동하도록 수정 될 수 있더라도 카이 제곱 검정이이 시나리오에서 표준 선택입니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다