2つのヒストグラムがある場合、それらが類似しているかどうかをどのように評価しますか?

2つのヒストグラムを見るだけで十分ですか? ?単純な1対1のマッピングには、ヒストグラムがわずかに異なり、わずかにシフトしている場合、「目的の結果が得られない」という問題があります。

提案はありますか?

コメント

  • "類似の"とはどういう意味ですか?カイ2乗検定とKS検定たとえば、2つのヒストグラムが同一に近いかどうかをテストします。ただし、"類似"は

同じ形状です。" 場所や規模の違いを無視します。意図を明確にしていただけますか?

  • $ \ chi ^ 2 $検定に加えて、ヒストグラム( itl.nist.gov/div898/handbook/eda)を作成することもできます。 /section3/bihistog.htm )ハンドブックから:"これは、2標本t検定のグラフィカルな代替手段です。bihistogramはtよりも強力な場合があります。 -すべてのディストリビューションでテストする特徴(位置、スケール、歪度、外れ値)は、単一のプロットで明らかです。"
  • 回答

    読む価値のある最近の論文は次のとおりです。

    Cao、Y。Petzold、L。化学反応システムの確率シミュレーションにおける精度の制限とエラーの測定、2006年。

    この論文の焦点は確率シミュレーションアルゴリズムの比較にありますが、本質的に主なアイデアは2つのヒストグラムを比較する方法です。 。

    作成者のウェブページから pdf にアクセスできます。

    コメント

    • こんにちは、素敵な論文です。PDFリンクを提供していただきありがとうございます。'必ずこの論文を読みます。
    • 代わりに' dで論文の要点を要約するとよいでしょう。リンクがなくなるため、将来、このジャーナルの非購読者にとってあなたの答えが役に立たなくなる可能性があります。 (そして、人口の大部分は非購読者です。)

    回答

    たくさんあります2つのヒストグラム間の距離測定値。これらの測定値の適切な分類は次の場所で読むことができます:

    K. Meshgi、およびS. Ishii、「Expanding Histogram of Colors追跡精度を向上させるためのグリッド化」、Proc。ofMVA15、東京、日本、2015年5月。

    便宜上、最も一般的な距離関数を以下に示します。

    • $ L_0 $ またはヘリンガー距離

    $ D_ {L0} = \ sum \ limits_ {i} h_1(i)\ neq h_2(i)$

    • $ L_1 $ 、マンハッタン、またはシティブロックの距離

    $ D_ {L1} = \ sum_ {i} \ lvert h_1(i)-h_2(i)\ rvert $

    • $ L = 2 $ またはユークリッド距離

    $ D_ { L2} = \ sqrt {\ sum_ {i} \ left(h_1(i)-h_2(i)\ right)^ 2} $

    • L $ _ {\ infty} $ またはChybyshevDistance

    $ D_ {L \ infty} = max_ { i} \ lvert h_1(i)-h_2(i)\ rvert $

    • L $ _ p $ またはフラクショナル距離(ミンコウスキー距離ファミリーの一部)

    $ D_ {Lp} = \ left(\ sum \ limits_ {i} \ lvert h_1(i)-h_2(i)\ rvert ^ p \ right)^ {1 / p} $ および $ 0 < p < 1 $

    • ヒストグラムの交差

    $ D _ {\ cap} = 1- \ frac {\ sum_ {i} \ left(min(h_1(i) 、h_2(i)\ right)} {min \ left(\ vert h_1(i)\ vert、\ vert h_2(i)\ vert \ right)} $

    • コサイン距離

    $ D_ {CO} = 1- \ sum_i h_1(i)h2_(i)$

    • キャンベラ距離

    $ D_ {CB} = \ sum_i \ frac {\ lvert h_1(i)-h_2(i )\ rvert} {min \ left(\ lvert h_1(i)\ rvert、\ lvert h_2(i)\ rvert \ right)} $

    • ピアソンの相関係数

    $ D_ {CR} = \ frac {\ sum_i \ left(h_1(i)-\ frac {1} {n} \ right )\ left(h_2(i)-\ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left(h_1(i)-\ frac {1} {n} \ right)^ 2 \ sum_i \ left(h_2(i)-\ frac {1} {n} \ right)^ 2}} $

    • Kolmogorov-Smirnov Divergance

    $ D_ {KS} = max_ {i} \ lvert h_1(i)-h_2(i)\ rvert $

    • 一致距離

    $ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1(i)-h_2(i)\ rvert $

    • Cramer-vonMises距離

    $ D_ {CM} = \ sum \ limits_ {i} \ left(h_1(i)-h_2(i)\ right)^ 2 $

    • $ \ chi ^ 2 $ 統計

    $ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ left(h_1(i)-h_2(i)\ right)^ 2} {h_1(i)+ h_2(i)} $

    • Bhattacharyya距離

    $ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1(i)h_2(i)}} $ &ヘリンジャー

    • 平方根

    $ D_ {SC} = \ sum_i \ left(\ sqrt {h_1(i)}-\ sqrt {h_2(i)} \ right)^ 2 $

    • カルバック-Liebler Divergance

    $ D_ {KL} = \ sum_i h_1(i)log \ frac {h_1(i)} {m(i)} $

    • Jefferey Divergence

    $ D_ {JD} = \ sum_i \ left(h_1(i)log \ frac {h_1(i)} {m(i)} + h_2(i)log \ frac {h_2(i)} {m(i)} \ right)$

    $ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i、j} f_ {ij} A_ {ij}} {sum_ {i、j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1(i)、 \ sum_j f_ {ij} \ leq h_2(j)、\ sum_ {i、j} f_ {ij} = min \ left(\ sum_i h_1(i)\ sum_j h_2(j)\ right)$ および $ f_ {ij} $ は、 $ i $ から $ j $

    • Quadratic Dist ance

    $ D_ {QU} = \ sqrt {\ sum_ {i、j} A_ {ij} \ left(h_1(i)- h_2(j)\ right)^ 2} $

    • Quadratic-Chi距離

    $ D_ {QC} = \ sqrt {\ sum_ {i、j} A_ {ij} \ left(\ frac {h_1(i)-h_2(i)} {\ left(\ sum_c A_ {ci} \ left(h_1 (c)+ h_2(c)\ right)\ right)^ m} \ right)\ left(\ frac {h_1(j)-h_2(j)} {\ left(\ sum_c A_ {cj} \ left(h_1 (c)+ h_2(c)\ right)\ right)^ m} \ right)} $ および $ \ frac {0} {0} \ equiv 0 $

    これらの距離のいくつかのMatlab実装は、私のGitHubリポジトリから入手できます: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance また、Yossi Rubner、Ofir Pele、Marco Cuturi、HaibinLingなどの人を検索して最新の距離を探すこともできます。

    更新:距離の代替説明は文献のあちこちにあるので、完全を期すためにここにリストします。

    • キャンベラ距離(別のバージョン)

    $ D_ {CB} = \ sum_i \ frac {| h_1 (i)-h_2(i)|} {| h_1(i)| + | h_2(i)|} $

    • ブレイ・カーチス非類似度、ソレンセン距離(ヒストグラムの合計は1に等しく、 $ D_ {L0} $

    $ D_ {BC} = 1- \ frac {2 \ sum_i h_1(i)= h_2(i)} {\ sum_i h_1(i)+ \ sum_i h_2(i)} $

    • ジャッカード距離(つまり、ユニオン上の交差、別のバージョン)

    $ D_ {IOU} = 1- \ frac { \ sum_i min(h_1(i)、h_2(i))} {\ sum_i max(h_1(i)、h_2(i))} $

    コメント

    • 私たちのサイトへようこそ!この貢献に感謝します。
    • 紙のリンクは次のとおりです: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
    • ありがとうございます。リストはすばらしいですが、'ヒストグラムの比較演算子を作成することはできません。 hist1 < hist2
    • KSダイバージェンスは$$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1(i)-としてコードに実装されます。 \ sum_i h_2(i)\ rvert $$これは、上記の式と矛盾しているようです。何かが足りませんか?
    • コードの間違いだと思います。これを調べます。ご指摘いただきありがとうございます

    回答

    この質問に対する標準的な回答はカイ2乗検定。 KSテストは、ビン化されたデータではなく、ビン化されていないデータを対象としています。 (ビニングされていないデータがある場合は、必ずKSスタイルのテストを使用しますが、ヒストグラムしかない場合は、KSテストは適切ではありません。)

    コメント

    • 基礎となるデータの分布に関する仮説テストとして理解されている場合、KSテストはヒストグラムに適していないことは正しいですが、KS 統計の理由はわかりません。 i> 'は2つのヒストグラムの同一性の尺度としてはうまく機能しません。
    • コルモゴロフ-スミルノフ検定がビン化されたデータでは適切でない理由の説明
    • これは、統計的適合性評価ほど画像処理には役立たない場合があります。多くの場合、画像処理では、データのヒストグラムが画像の領域の記述子として使用されます。目標は、ヒストグラム間の距離が画像パッチ間の距離を反映することです。ヒストグラムを取得するために使用される基礎となる画像データの一般的な母集団統計については、ほとんど、またはまったく知られていない可能性があります。たとえば、方向付けられた勾配のヒストグラムを使用する場合の基礎となる母集団の統計は、画像の実際のコンテンツに基づいて大幅に異なります。
    • naught101 'の質問への回答は次のとおりです。 Stochtastic: stats.stackexchange.com/a/108523/37373

    回答

    あなたはコルモゴロフ-スミルノフ検定を探しています。バーの高さを次の合計で割ることを忘れないでください。各ヒストグラムのすべての観測値。

    KSテストでも違いが報告されていることに注意してください。分布の平均は、互いに対してシフトされます。 x軸に沿ったヒストグラムの変換がアプリケーションで意味をなさない場合は、最初に各ヒストグラムから平均を差し引くことをお勧めします。

    コメント

    • 平均を引くと、KS統計のヌル分布が変化します。 @David Wrightは、とにかくヒストグラムへのKSテストの適用に対して正当な異議を唱えています。

    回答

    Asデビッドの回答は、KSテストは連続分布を想定しているため、ビン化されたデータにはカイ2乗検定が必要であると指摘しています。KSテストが不適切である理由について(naught101のコメント)、適用された問題についていくつかの議論がありました。ここで取り上げる価値のある統計文献。

    面白い交換は、ネイチャーペーパーの3分の1に統計エラーが含まれているという主張(García-BerthouandAlcaraz、2004 )から始まりました。ただし、後続の論文( Jeng、2006 、「統計的検定のエラーの統計的検定のエラー」-おそらく私のすべて-昔のお気に入りの論文タイトル)は、Garcia-Berthou and Alcaraz(2005)が離散データに対してKS検定を使用し、メタ研究で不正確なp値を報告することを示しました。 Jeng(2006)の論文は、この問題についての素晴らしい議論を提供し、離散データに対して機能するようにKSテストを変更できることを示しています。この特定のケースでは、区別は、[0,9]、$$ P(x)= \ frac {1} {9}、\(0 \ leq x \)の末尾の数字の一様分布の違いに要約されます。 leq 9)$$(誤ったKSテストで)およびデルタ関数の櫛分布、$$ P(x)= \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta(xj)$ $(正しい修正された形式)。元のエラーの結果として、Garcia-Berthou and Alcaraz(2004)は誤ってヌルを棄却しましたが、カイ2乗および修正されたKS検定は棄却しません。 いずれの場合も、KSをここで機能するように変更できる場合でも、このシナリオではカイ2乗検定が標準的な選択です。

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です