Givet to histogrammer, hvordan vurderer vi, om de er ens eller ikke?
Er det tilstrækkeligt blot at se på de to histogrammer ? Den enkle en-til-en-kortlægning har det problem, at hvis et histogram er lidt anderledes og lidt forskudt, så får vi ikke det ønskede resultat.
Eventuelle forslag?
Kommentarer
- Hvad betyder ” lignende “? Den chi-kvadratiske test og KS-testen test for eksempel, om to histogrammer er tæt på identiske. Men ” ens ” kan betyde ” har samme form, ” ignorerer eventuelle forskelle i placering og / eller skala. Kan du afklare din hensigt?
- Ud over $ \ chi ^ 2 $ -testen vil du muligvis fremstille et Bihistogram ( itl.nist.gov/div898/handbook/eda /sektion3/bihistog.htm ) Fra håndbogen: ” Det er et grafisk alternativ til to-prøve t-testen. Bihistogrammet kan være mere kraftfuldt end t -test i det hele distribu tionelle træk (placering, skala, skævhed, afvigelser) er tydelige på et enkelt plot. ”
Svar
Et nyligt papir, der kan være værd at læse, er:
Cao, Y. Petzold, L. Nøjagtighedsbegrænsninger og måling af fejl i den stokastiske simulering af kemisk reagerende systemer, 2006.
Selvom dette papir fokuserer på at sammenligne stokastiske simuleringsalgoritmer, er hovedsagelig hovedideen, hvordan man sammenligner to histogram .
Du kan få adgang til pdf fra forfatterens webside.
Kommentarer
- Hej, det er dejligt papir, thanx for at give pdf-link .. Jeg ‘ Jeg vil helt sikkert gennemgå dette papir ..
- I stedet at give en reference ville det være godt, hvis du ‘ d opsummerer papirets hovedpunkter. Links dør, så i fremtiden kan dit svar blive ubrugeligt for ikke-abonnenter på denne tidsskrift (og langt størstedelen af den menneskelige befolkning er ikke-abonnenter).
Svar
Der er masser af afstandsmål mellem to histogrammer. Du kan læse en god kategorisering af disse mål i:
K. Meshgi og S. Ishii, “Udvidet histogram af farver med Gridding for at forbedre sporingsnøjagtighed, ”i Proc. af MVA15, Tokyo, Japan, maj 2015.
De mest populære afstandsfunktioner er anført her for din bekvemmelighed:
- $ L_0 $ eller Hellinger Distance
$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $
- $ L_1 $ , Manhattan eller City Block Distance
$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- $ L = 2 $ eller euklidisk afstand
$ D_ { L2} = \ sqrt {\ sum_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2} $
- L $ _ {\ infty} $ eller Chybyshev Distance
$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- L $ _ p $ eller Brøk Afstand (del af Minkowski-fjernfamilien)
$ D_ {Lp} = \ left (\ sum \ limits_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ right) ^ {1 / p} $ og $ 0 < p < 1 $
- Kryds histogram
$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ left (min (h_1 (i)) , h_2 (i) \ højre)} {min \ venstre (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ højre)} $
- Cosine Distance
$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $
- Canberra Distance
$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $
- Pearsons korrelationskoefficient
$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ left (h_2 (i) – \ frac {1} {n} \ right) ^ 2}} $
- Kolmogorov-Smirnov Divergance
$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Matchafstand
$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Cramer-von Mises Distance
$ D_ {CM} = \ sum \ limits_ {i} \ venstre (h_1 (i) – h_2 (i) \ højre) ^ 2 $
- $ \ chi ^ 2 $ Statistik
$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ left (h_1 (i) – h_2 (i) \ right) ^ 2} {h_1 (i) + h_2 (i)} $
- Bhattacharyya Distance
$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger
- Kvadratisk akkord
$ D_ {SC} = \ sum_i \ left (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ right) ^ 2 $
- Kullback -Liebler Divergance
$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $
- Jefferey Divergence
$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ right) $
- Earth Movers Distance (dette er det første medlem af Transportafstande, der integrerer bindeoplysninger $ A $ i det fjerne. For mere information henvises til ovennævnte papir eller Wikipedia post.
$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ left (\ sum_i h_1 (i) \ sum_j h_2 (j) \ right) $ og $ f_ {ij} $ repræsenterer strømmen fra $ i $ til $ j $
- Kvadratisk dist ance
$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (h_1 (i) – h_2 (j) \ right) ^ 2} $
- Quadratic-Chi Distance
$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ left (\ frac {h_1 (i) – h_2 (i)} {\ left (\ sum_c A_ {ci} \ left (h_1 (c) + h_2 (c) \ højre) \ højre) ^ m} \ højre) \ venstre (\ frac {h_1 (j) – h_2 (j)} {\ venstre (\ sum_c A_ {cj} \ venstre (h_1 (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ og $ \ frac {0} {0} \ equiv 0 $
En Matlab-implementering af nogle af disse afstande er tilgængelig fra mit GitHub-arkiv: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Du kan også søge fyre som Yossi Rubner, Ofir Pele, Marco Cuturi og Haibin Ling efter flere avancerede afstande.
Opdatering: Alternativ forklaring på afstandene vises her og der i litteraturen, så jeg lister dem her for fuldstændighedens skyld.
- Canberra-afstand (en anden version)
$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $
- Bray-Curtis Uensartethed, Sorensen Distance (siden summen af histogrammer er lig med et, det svarer til $ D_ {L0} $ )
$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $
- Jaccard Distance (dvs. kryds over union, en anden version)
$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $
Kommentarer
- Velkommen til vores side! Tak for dette bidrag.
- Her er papirlinket: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
- Tak, en liste er vidunderlig, mens den ikke ‘ ikke tillader at oprette en sammenligningsoperator for histogram, f.eks. at sige, at
hist1 < hist2
- Din KS-divergens implementeres i kode som $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – \ sum_i h_2 (i) \ rvert $$ Dette virker uoverensstemmende med den ligning, du har ovenfor. Mangler jeg noget?
- Jeg tror det er en fejl i min kode. Jeg vil undersøge dette. Tak fordi du påpegede det
Svar
Standardsvaret på dette spørgsmål er chi-squared test . KS-testen er for ubundne data, ikke for indbyggede data. (Hvis du har de ubundne data, skal du under alle omstændigheder bruge en test i KS-stil, men hvis du kun har histogrammet, er KS-testen ikke passende.)
Kommentarer
- Det er korrekt, at KS-testen ikke er egnet til histogrammer, når den forstås som en hypotesetest om fordelingen af de underliggende data, men jeg ser ingen grund til, at KS -statistikken ville ‘ ikke fungere godt som et mål for ensartethed af to histogrammer.
- En forklaring på, hvorfor Kolmogorov-Smirnov-testen ikke er passende med binnedata ville være nyttigt.
- Dette er muligvis ikke så nyttigt i billedbehandling som ved statistisk pasformsvurdering. Ofte ved billedbehandling bruges et histogram af data som deskriptor for en region af et billede, og målet er, at en afstand mellem histogrammer skal afspejle afstanden mellem billedplaster. Lidt eller muligvis intet overhovedet kan være kendt om den generelle befolkningsstatistik for de underliggende billeddata, der bruges til at få histogrammet. For eksempel vil de underliggende befolkningsstatistikker, når der anvendes histogrammer af orienterede gradienter, variere betydeligt afhængigt af billedernes faktiske indhold.
- naught101 ‘ s spørgsmål blev besvaret Stochtastic: stats.stackexchange.com/a/108523/37373
Svar
Du leder efter Kolmogorov-Smirnov-testen . Glem ikke at dele bjælkehøjderne med summen af alle observationer af hvert histogram.
Bemærk, at KS-testen også rapporterer en forskel, hvis f.eks fordelingenes middel forskydes i forhold til hinanden. Hvis oversættelse af histogrammet langs x-aksen ikke er meningsfuldt i din applikation, kan du først trække gennemsnittet fra hvert histogram.
Kommentarer
- Ved at trække middelværdien ændres nulfordelingen af KS-statistikken. @David Wright rejser alligevel en gyldig indsigelse mod anvendelsen af KS-testen på histogrammer.
Svar
Som Davids svar påpeger, at den chi-kvadratiske test er nødvendig for binnedata, da KS-testen antager kontinuerlige fordelinger. Med hensyn til hvorfor KS-testen er upassende (intet101s kommentar), har der været en del diskussion af problemet i den anvendte statistiklitteratur, der er værd at rejse her.
En morsom udveksling begyndte med påstanden ( García-Berthou og Alcaraz, 2004 ) om, at en tredjedel af Nature-papirerne indeholder statistiske fejl. Imidlertid er et efterfølgende papir ( Jeng, 2006 , “ Fejl i statistiske fejltest i statistiske tests ” – måske min all- tid favorit papir titel) viste, at Garcia-Berthou og Alcaraz (2005) brugte KS test på diskrete data, hvilket førte til deres rapportering af unøjagtige p-værdier i deres metastudie. Jeng (2006) -papiret giver en god diskussion af problemet, selv viser, at man kan ændre KS-testen til at arbejde for diskrete data. I dette specifikke tilfælde koges forskellen ned til forskellen mellem en ensartet fordeling af det bageste ciffer på [0,9], $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \ leq 9) $$ (i den forkerte KS-test) og en kamfordeling af delta-funktioner, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (i den korrekte, ændrede form).Som et resultat af den oprindelige fejl afviste Garcia-Berthou og Alcaraz (2004) fejlagtigt nullet, mens chi-kvadreret og modificeret KS-test ikke gør det. Under alle omstændigheder er chi-kvadrat-testen standardvalget i dette scenarie, selvom KS kan ændres til at fungere her.