Jak vyhodnotíme dva histogramy, jak vyhodnotíme, zda jsou si podobné nebo ne?

Stačí se jen podívat na dva histogramy ? Jednoduché mapování 1: 1 má problém v tom, že pokud je histogram mírně odlišný a mírně posunutý, nedostaneme požadovaný výsledek.

Nějaké návrhy?

Komentáře

  • Co znamená “ podobný „? Test chí-kvadrát a test KS například otestujte, zda jsou dva histogramy blízké identickým. Ale “ podobné “ může znamenat “ mají stejný tvar, “ ignoruje rozdíly v umístění a / nebo měřítku. Mohl byste objasnit svůj záměr?
  • Kromě testu $ \ chi ^ 2 $ budete možná chtít vytvořit bihistogram ( itl.nist.gov/div898/handbook/eda /section3/bihistog.htm ) Z příručky: “ Jde o grafickou alternativu k t-testu se dvěma vzorky. Bihistogram může být výkonnější než t -test v tom, že všechny distribuce na jednom grafu jsou patrné mezinárodní rysy (umístění, měřítko, šikmost, odlehlé hodnoty). “

Odpovědět

Nedávný příspěvek, který by mohl stát za přečtení, je:

Cao, Y. Petzold, L. Omezení přesnosti a měření chyb ve stochastické simulaci chemicky reagujících systémů, 2006.

Ačkoli se tento příspěvek zaměřuje na srovnání stochastických simulačních algoritmů, hlavní myšlenkou je v zásadě srovnání dvou histogramů .

Do pdf můžete přistupovat z webové stránky autora.

Komentáře

  • Ahoj, jeho pěkný dokument, díky za poskytnutí odkazu na PDF. ‚ tento článek určitě projdu ..
  • Místo toho poskytnutí odkazu by bylo dobré, kdybyste ‚ shrnuli hlavní body příspěvku. Odkazy umírají, takže vaše odpověď by v budoucnu mohla být pro nepředplatitele tohoto časopisu zbytečná (a drtivá většina lidské populace jsou ti, kteří nejsou předplatiteli).

Odpověď

Existuje spousta míry vzdálenosti mezi dvěma histogramy. Dobrou kategorizaci těchto opatření si můžete přečíst v:

K. Meshgi a S. Ishii, „Expansion Histogram of Colors with Gridding to Improve Tracking Accuracy, ”in Proc. of MVA15, Tokyo, Japan, May 2015.

Pro vaše pohodlí jsou zde uvedeny nejpopulárnější funkce vzdálenosti:

  • $ L_0 $ nebo Hellingerova vzdálenost

$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $

  • $ L_1 $ , vzdálenost od Manhattanu nebo městského bloku

$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • $ L = 2 $ nebo euklidovská vzdálenost

$ D_ { L2} = \ sqrt {\ sum_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2} $

  • L $ _ {\ infty} $ nebo Chybyshev Distance

$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • L $ _ p $ nebo zlomek Vzdálenost (součást rodiny vzdáleností Minkowski)

$ D_ {Lp} = \ left (\ sum \ limits_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ right) ^ {1 / p} $ a $ 0 < p < 1 $

  • Průsečík histogramu

$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ left (min (h_1 (i) , h_2 (i) \ right)} {min \ left (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $

  • Kosinová vzdálenost

$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $

  • Canberra Distance

$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $

  • Pearsonův korelační koeficient

$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ left (h_2 (i) – \ frac {1} {n} \ right) ^ 2}} $

  • Divergance Kolmogorov-Smirnov

$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • Vzdálenost zápasu

$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • Cramer-von Misesova vzdálenost

$ D_ {CM} = \ sum \ limits_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2 $

  • $ \ chi ^ 2 $ Statistiky

$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ left (h_1 (i) – h_2 (i) \ right) ^ 2} {h_1 (i) + h_2 (i)} $

  • Vzdálenost Bhattacharyya

$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger

  • Čtvercový akord

$ D_ {SC} = \ sum_i \ left (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ right) ^ 2 $

  • Kullback -Lieblerova divergance

$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $

  • Jefferey Divergence

$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ right) $

  • Vzdálenost přemisťovatele Země (toto je první člen Přepravní vzdálenosti, které do vzdálenosti vkládají informace o binování $ A $ , další informace najdete ve výše uvedeném článku nebo na Wikipedii položka.

$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ left (\ sum_i h_1 (i) \ sum_j h_2 (j) \ right) $ a $ f_ {ij} $ představuje tok z $ i $ do $ j $

  • Kvadratická dist ance

$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (h_1 (i) – h_2 (j) \ right) ^ 2} $

  • Kvadratická-Chi vzdálenost

$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (\ frac {h_1 (i) – h_2 (i)} {\ left (\ sum_c A_ {ci} \ left (h_1) (c) + h_2 (c) \ pravý) \ pravý) ^ m} \ pravý) \ levý (\ frac {h_1 (j) – h_2 (j)} {\ levý (\ sum_c A_ {cj} \ levý (h_1) (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ a $ \ frac {0} {0} \ equiv 0 $

Implementace Matlab některých z těchto vzdáleností je k dispozici z mého úložiště GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Můžete také vyhledat lidi jako Yossi Rubner, Ofir Pele, Marco Cuturi a Haibin Ling a získat tak nejmodernější vzdálenosti.

Aktualizace: V literatuře se sem tam objeví alternativní vysvětlení vzdáleností, proto je zde pro úplnost uvádím.

  • Canberra vzdálenost (jiná verze)

$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $

  • Bray-Curtis Dissimilarity, Sorensenova vzdálenost (od součet histogramů se rovná jedné, rovná se $ D_ {L0} $ )

$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $

  • Vzdálenost Jaccard (tj. průnik přes sjednocení, jiná verze)

$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $

Komentáře

  • Vítejte na našem webu! Děkujeme za váš příspěvek.
  • Zde je odkaz na papír: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
  • Díky, seznam je skvělý, přestože ‚ neumožňuje vytvořit operátor porovnání pro histogram, např. říci, že hist1 < hist2
  • Vaše divergence KS je implementována v kódu jako $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – \ sum_i h_2 (i) \ rvert $$ To se zdá být v rozporu s výše uvedenou rovnicí. Chybí mi něco?
  • Myslím, že je to chyba v mém kódu. Podívám se na to. Děkujeme, že jste na to upozornili

Odpověď

Standardní odpovědí na tuto otázku je test chí-kvadrát . Test KS je pro nespojená data, nikoli binovaná data. (Pokud máte neomezená data, použijte v každém případě test ve stylu KS, ale pokud máte pouze histogram, test KS není vhodný.)

Komentáře

  • Máte pravdu, že KS test není vhodný pro histogramy, pokud je chápán jako test hypotézy o distribuci podkladových dat, ale nevidím důvod, proč KS statistika by ‚ t nepůsobí dobře jako měřítko stejnosti jakýchkoli dvou histogramů.
  • Vysvětlení, proč není Kolmogorov-Smirnovův test vhodný pro binovaná data by bylo užitečné.
  • To nemusí být tak užitečné při zpracování obrazu jako při statistickém vyhodnocení. Při zpracování obrazu se histogram dat často používá jako deskriptor pro oblast obrazu a cílem je, aby vzdálenost mezi histogramy odrážela vzdálenost mezi obrazovými záplatami. O obecných populačních statistikách podkladových obrazových dat použitých k získání histogramu může být známo jen málo nebo vůbec nic. Například základní populační statistiky při použití histogramů orientovaných přechodů by se značně lišily na základě skutečného obsahu obrázků.
  • naught101 ‚ na otázku odpověděl Stochtastic: stats.stackexchange.com/a/108523/37373

Odpovědět

Hledáte Kolmogorov-Smirnovův test . Nezapomeňte dělit výšky tyčí součtem všechna pozorování každého histogramu.

Všimněte si, že KS-test také vykazuje rozdíl, pokud např prostředky distribucí jsou vzájemně posunuty. Pokud překlad histogramu podél osy x nemá ve vaší aplikaci smysl, možná budete chtít nejprve odečíst průměr z každého histogramu.

Komentáře

  • Odečtením střední hodnoty se změní nulové rozdělení statistiky KS. @ David Wright vznáší oprávněnou námitku proti použití testu KS na histogramy.

Odpovědět

Jak Davidova odpověď poukazuje na to, že pro binovaná data je nutný chí-kvadrát test, protože test KS předpokládá kontinuální distribuce. Pokud jde o důvod, proč je test KS nevhodný (komentář č. 110), došlo k určité diskusi o problému v aplikovaném statistická literatura, která stojí za to zde vznést.

Zábavná výměna začala tvrzením ( García-Berthou a Alcaraz, 2004 ), že jedna třetina článků Nature obsahuje statistické chyby. Následující příspěvek ( Jeng, 2006 , „ Chyba ve statistických testech chyby ve statistických testech “ – možná moje vše- Time Favorite Paper Title) ukázal, že Garcia-Berthou a Alcaraz (2005) použili testy KS na diskrétních datech, což vedlo k tomu, že ve své meta-studii uváděli nepřesné hodnoty p. Článek Jeng (2006) poskytuje pěknou diskusi o této problematice, dokonce ukazuje, že lze test KS upravit tak, aby fungoval pro diskrétní data. V tomto konkrétním případě se rozdíl scvrkává na rozdíl mezi rovnoměrným rozdělením koncové číslice na [0,9], $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \ leq 9) $$ (v nesprávném testu KS) a hřebenová distribuce delta funkcí, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (ve správné, upravené podobě).V důsledku původní chyby Garcia-Berthou a Alcaraz (2004) nesprávně odmítli hodnotu null, zatímco chi-kvadrát a upravený test KS nikoli. V každém případě je chi-kvadrát test standardní volbou v tomto scénáři, i když KS lze upravit tak, aby fungoval zde.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *