Având în vedere două histograme, cum evaluăm dacă sunt similare sau nu?
Este suficient să privim pur și simplu cele două histograme ? Cartografierea simplă la unu are problema că, dacă o histogramă este ușor diferită și ușor deplasată, atunci nu vom obține rezultatul dorit.
Aveți sugestii?
Comentarii
- Ce înseamnă ” similar „? Testul chi pătrat și testul KS , de exemplu, testați dacă două histograme sunt aproape de identice. Dar ” similar ” ar putea însemna ” au aceeași formă, ” ignorând orice diferențe de locație și / sau scară. Ați putea să vă clarificați intenția?
- În plus față de testul $ \ chi ^ 2 $, poate doriți să produceți o bihistogramă ( itl.nist.gov/div898/handbook/eda /section3/bihistog.htm ) Din manual: ” Este o alternativă grafică la testul t cu două eșantioane. bihistograma poate fi mai puternică decât t -Test în care toate distribuite caracteristicile operaționale (locație, scară, asimetrie, valori aberante) sunt evidente pe un singur complot. ”
Răspuns
O lucrare recentă care merită citită este:
Cao, Y. Petzold, L. Limitări de precizie și măsurarea erorilor în simularea stocastică a sistemelor care reacționează chimic, 2006.
Deși se concentrează această lucrare pe compararea algoritmilor de simulare stocastică, în esență ideea principală este cum să comparăm două histograme .
Puteți accesa pdf de pe pagina web a autorului.
Comentarii
- Bună, este o hârtie frumoasă, multumesc pentru a da link-ul pdf .. ‘ voi trece cu siguranță prin această lucrare ..
- În schimb de a furniza o referință ar fi bine dacă ‘ rezumați principalele puncte ale lucrării. Link-urile mor, astfel încât în viitor răspunsul dvs. ar putea deveni inutil pentru cei care nu sunt abonați la această revistă. (iar marea majoritate a populației umane sunt non-abonați).
Răspuns
Există o mulțime de măsurători de distanță între două histograme. Puteți citi o bună clasificare a acestor măsuri în:
K. Meshgi și S. Ishii, „Expandarea histogramei de culori cu Grid pentru îmbunătățirea preciziei de urmărire „, în Proc. din MVA15, Tokyo, Japonia, mai 2015.
Cele mai populare funcții la distanță sunt listate aici pentru confortul dvs.:
- $ L_0 $ sau Hellinger Distance
$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $
- $ L_1 $ , Manhattan sau City Block Distance
$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- $ L = 2 $ sau Euclidean Distance
$ D_ { L2} = \ sqrt {\ sum_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2} $
- L $ _ {\ infty} $ sau Chybyshev Distance
$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- L $ _ p $ sau Fracțional Distanță (parte a familiei de distanțe Minkowski)
$ D_ {Lp} = \ left (\ sum \ limits_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ right) ^ {1 / p} $ și $ 0 < p < 1 $
- Intersecția histogramei
$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ left (min (h_1 (i) , h_2 (i) \ right)} {min \ left (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $
- Distanță cosinus
$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $
- Canberra Distance
$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $
- Coeficientul de corelație Pearson
$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ left (h_2 (i) – \ frac {1} {n} \ right) ^ 2}} $
- Divergența Kolmogorov-Smirnov
$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Distanța de potrivire
$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Distanța Cramer-von Mises
$ D_ {CM} = \ sum \ limits_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2 $
- $ \ chi ^ 2 $ Statistici
$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ left (h_1 (i) – h_2 (i) \ right) ^ 2} {h_1 (i) + h_2 (i)} $
- Distanța Bhattacharyya
$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger
- Acord pătrat
$ D_ {SC} = \ sum_i \ left (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ right) ^ 2 $
- Kullback -Divergență mai ușoară
$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $
- Jefferey Divergence
$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ right) $
- Distanța Earth Mover (acesta este primul membru al Distanțele de transport care încorporează informații de depozitare $ A $ la distanță, pentru mai multe informații, consultați hârtia menționată mai sus sau Wikipedia intrare.
$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ left (\ sum_i h_1 (i) \ sum_j h_2 (j) \ right) $ și $ f_ {ij} $ reprezintă fluxul de la $ i $ la $ j $
- Dist ance
$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (h_1 (i) – h_2 (j) \ right) ^ 2} $
- Quadratic-Chi Distance
$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (\ frac {h_1 (i) – h_2 (i)} {\ left (\ sum_c A_ {ci} \ left (h_1 (c) + h_2 (c) \ right) \ right) ^ m} \ right) \ left (\ frac {h_1 (j) – h_2 (j)} {\ left (\ sum_c A_ {cj} \ left (h_1 (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ și $ \ frac {0} {0} \ equiv 0 $
O implementare Matlab pentru unele dintre aceste distanțe este disponibilă din depozitul meu GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance De asemenea, puteți căuta tipi ca Yossi Rubner, Ofir Pele, Marco Cuturi și Haibin Ling pentru mai multe distanțe de ultimă generație.
Actualizare: Explicația alternativă pentru distanțe apare aici și acolo în literatura de specialitate, așa că le listez aici, din motive de completitudine.
- Distanța Canberra (altă versiune)
$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $
- Bray-Curtis Disimilarity, Sorensen Distance (since the suma histogramelor este egală cu una, este egală cu $ D_ {L0} $ )
$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $
- Jaccard Distance (adică intersecția peste uniune, o altă versiune)
$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $
Comentarii
- Bine ați venit pe site-ul nostru! Vă mulțumim pentru această contribuție.
- Iată linkul pe hârtie: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
- Mulțumesc, o listă este minunată, în timp ce nu ‘ nu permite crearea unui operator de comparație pentru histogramă, de ex. să spunem că
hist1 < hist2
- Divergența dvs. KS este implementată în cod ca $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – \ sum_i h_2 (i) \ rvert $$ Acest lucru pare incompatibil cu ecuația pe care o aveți mai sus. Îmi lipsește ceva?
- Cred că este o greșeală în codul meu. Mă voi uita la asta. Vă mulțumim că l-ați subliniat
Răspuns
Răspunsul standard la această întrebare este test chi-pătrat . Testul KS se referă la date neconectate, nu la date blocate. (Dacă aveți datele neuniforme, atunci utilizați în mod sigur un test în stil KS, dar dacă aveți doar histograma, testul KS nu este adecvat.)
Comentarii
Răspuns
Căutați testul Kolmogorov-Smirnov . Nu uitați să împărțiți înălțimile barei la suma de toate observațiile fiecărei histograme.
Rețineți că testul KS raportează, de asemenea, o diferență dacă, de ex mijloacele distribuțiilor sunt deplasate una față de alta. Dacă traducerea histogramei de-a lungul axei x nu este semnificativă în aplicația dvs., poate doriți să scădeți mai întâi media din fiecare histogramă.
Comentarii
- Scăderea mediei modifică distribuția nulă a statisticii KS. @David Wright ridică o obiecție validă față de aplicarea testului KS la histograme oricum.
Răspuns
Ca Răspunsul lui David subliniază că testul chi pătrat este necesar pentru datele binate, deoarece testul KS presupune distribuții continue. În ceea ce privește motivul pentru care testul KS este inadecvat (comentariul lui naught101), s-a discutat problema în literatura statistică care merită să fie ridicată aici.
Un schimb amuzant a început cu afirmația ( García-Berthou și Alcaraz, 2004 ) că o treime din lucrările Nature conțin erori statistice. Cu toate acestea, o lucrare ulterioară ( Jeng, 2006 , „ Eroare în testele statistice de eroare în testele statistice ” – poate toate titlul de hârtie preferat în timp) a arătat că Garcia-Berthou și Alcaraz (2005) au folosit teste KS pe date discrete, ducând la raportarea valorilor p inexacte în meta-studiu. Lucrarea Jeng (2006) oferă o discuție frumoasă asupra problemei, arătând chiar că se poate modifica testul KS pentru a funcționa pentru date discrete. În acest caz specific, distincția se reduce la diferența dintre o distribuție uniformă a cifrei finale pe [0,9], $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \ leq 9) $$ (în testul KS incorect) și o distribuție pe pieptene a funcțiilor delta, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (în forma corectă, modificată).Ca urmare a erorii inițiale, Garcia-Berthou și Alcaraz (2004) au respins incorect nulul, în timp ce testul KS pătrat și modificat nu. În orice caz, testul chi-pătrat este alegerea standard în acest scenariu, chiar dacă KS poate fi modificat pentru a funcționa aici.