Kuinka voimme arvioida, ovatko ne kaksi histogrammia samanlaisia vai eivät?
Riittääkö vain tarkastella kahta histogrammia ? Yksinkertaisella kartoituksella on ongelma, että jos histogrammi on hieman erilainen ja hieman siirtynyt, emme saa haluttua tulosta.
Onko ehdotuksia?
Kommentteja
- Mitä ” samanlainen ” tarkoittaa? Chi-neliötesti ja KS-testi testaa esimerkiksi, ovatko kaksi histogrammia lähellä identtisiä. Mutta ” samanlainen ” saattaa tarkoittaa ” on samanlainen muoto, ” jättää huomiotta sijainnin ja / tai mittakaavan erot. Voisitteko selventää aikomustasi?
- $ \ chi ^ 2 $ -testin lisäksi saatat haluta tuottaa Bihistogrammin ( itl.nist.gov/div898/handbook/eda /section3/bihistog.htm ) Käsikirjasta: ” Se on graafinen vaihtoehto kaksinäytteiselle t-testille. Bihistogrammi voi olla tehokkaampi kuin t -testi siinä koko jakelussa yksittäiset piirteet (sijainti, mittakaava, vinous, poikkeamat) näkyvät yhdellä juonella. ”
Vastaa
Viimeinen artikkeli, joka saattaa olla lukemisen arvoinen, on:
Cao, Y. Petzold, L. Tarkkuuden rajoitukset ja virheiden mittaus kemiallisesti reagoivien järjestelmien stokastisessa simulaatiossa, 2006.
Vaikka tässä artikkelissa keskitytään stokastisten simulointialgoritmien vertaamiseen, pääasia on pääasiassa kahden histogrammin vertaaminen .
Voit käyttää pdf-tiedostoa kirjoittajan verkkosivulta.
Kommentit
käyn varmasti läpi tämän kirjan ..
vastaus
On paljon kahden histogrammin välinen etäisyysmitta. Voit lukea näiden luokkien hyvän luokituksen seuraavista aiheista:
K. Meshgi ja S. Ishii, ”Värien histogrammin laajentaminen” Griddingin kanssa seurantatarkkuuden parantamiseksi ”, Proc., MVA15, Tokio, Japani, toukokuu 2015.
Suosituimmat etäisyysfunktiot on lueteltu tässä avuksesi:
- $ L_0 $ tai Hellinger-matka
$ D_ {L0} = \ summa \ limits_ {i} h_1 (i) \ neq h_2 (i) $
- $ L_1 $ , Manhattan tai kaupunkilohkon etäisyys
$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- $ L = 2 $ tai euklidinen etäisyys
$ D_ { L2} = \ sqrt {\ sum_ {i} \ vasen (h_1 (i) – h_2 (i) \ oikea) ^ 2} $
- L $ _ {\ infty} $ tai Chybyshev Distance
$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- L $ _ p $ tai murto-osa Etäisyys (osa Minkowskin etäisyysperhettä)
$ D_ {Lp} = \ left (\ summa \ limits_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ right) ^ {1 / p} $ ja $ 0 < p < 1 $
- Histogrammin leikkauspiste
$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ left (min (h_1 (i) , h_2 (i) \ oikea)} {min \ vasen (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $
- Kosinin etäisyys
$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $
- Canberran etäisyys
$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $
- Pearsonin korrelaatiokerroin
$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ oikea ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ vasen (h_2 (i) – \ frac {1} {n} \ oikea) ^ 2}} $
- Kolmogorov-Smirnov-diverganssi
$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Ottelun etäisyys
$ D_ {MA} = \ summa \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Cramer-von Misesin etäisyys
$ D_ {CM} = \ summa \ limits_ {i} \ vasen (h_1 (i) – h_2 (i) \ oikea) ^ 2 $
- $ \ chi ^ 2 $ Tilastot
$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ vasen (h_1 (i) – h_2 (i) \ oikea) ^ 2} {h_1 (i) + h_2 (i)} $
- Bhattacharyya-matka
$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger
- Neliön sointu
$ D_ {SC} = \ sum_i \ vasen (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ oikea) ^ 2 $
- Takaisin -Liebler-eroavuus
$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $
- Jeffereyn eroavuudet
$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ oikea) $
- Earth Moverin etäisyys (tämä on Kuljetusetäisyydet, jotka upottavat yhdistämistiedot $ A $ etäisyydelle, katso lisätietoja yllä mainituista artikkeleista tai Wikipediasta merkintä.
$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ vasen (\ sum_i h_1 (i) \ sum_j h_2 (j) \ oikea) $ ja $ f_ {ij} $ edustaa kulkua $ i $ – $ j $
- asteikon etäisyys ässä
$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ vasen (h_1 (i) – h_2 (j) \ oikea) ^ 2} $
- Neliö-Chi-etäisyys
$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ vasen (\ frac {h_1 (i) – h_2 (i)} {\ vasen (\ sum_c A_ {ci} \ vasen (h_1) (c) + h_2 (c) \ oikea) \ oikea) ^ m} \ oikea) \ vasen (\ frac {h_1 (j) – h_2 (j)} {\ vasen (\ sum_c A_ {cj} \ vasen (h_1) (c) + h_2 (c) \ oikea) \ oikea) ^ m} \ oikea)} $ ja $ \ frac {0} {0} \ equiv 0 $
Matlab-toteutus näistä etäisyyksistä on saatavana GitHub-arkistostani: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Voit myös etsiä kavereita kuten Yossi Rubner, Ofir Pele, Marco Cuturi ja Haibin Ling uusimmista etäisyyksistä.
Päivitys: Vaihtoehtoinen selitys etäisyyksille näkyy täällä ja siellä kirjallisuudessa, joten luetan ne tässä täydellisyyden vuoksi.
- Canberran etäisyys (toinen versio)
$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $
- Bray-Curtisin erilaisuus, Sorensenin etäisyys (vuodesta histogrammien summa on yhtä suuri, se on yhtä suuri kuin $ D_ {L0} $ )
$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $
- Jaccard-etäisyys (ts. risteys unionin yli, toinen versio)
$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $
kommentit
- Tervetuloa sivuillemme! Kiitos osallistumisesta.
- Tässä on paperilinkki: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
- Kiitos, luettelo on loistava, mutta se ei salli ’ ei salli histogrammin vertailuoperaattorin luomista, esim. sanoa, että
hist1 < hist2
- KS-ero on toteutettu koodissa muodossa $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – \ sum_i h_2 (i) \ rvert $$ Tämä näyttää olevan ristiriidassa yllä olevan yhtälön kanssa. Puuttuuko minusta jotain?
- Luulen, että se on virhe koodissani. Tutkin tätä. Kiitos huomautuksestasi
vastaus
Vakiovastaus tähän kysymykseen on chi-neliötesti . KS-testi koskee avaamatonta dataa, ei sidottua dataa. (Jos sinulla on avaamaton data, käytä kaikin keinoin KS-tyylistä testiä, mutta jos sinulla on vain histogrammi, KS-testi ei ole sopiva.)
Kommentit
- Olet oikeassa, että KS-testi ei sovi histogrammeille, kun se ymmärretään hypoteesitestinä taustalla olevien tietojen jakautumisesta, mutta en näe mitään syytä, miksi KS -tilasto wouldn ’ t eivät toimisi hyvin kahden histogrammin samankaltaisuuden mittana.
- Selitys sille, miksi Kolmogorov-Smirnov-testi ei sovellu yhdistettyihin tietoihin olisi hyödyllistä.
- Tämä ei välttämättä ole yhtä hyödyllistä kuvankäsittelyssä kuin tilastollisessa sopivuuden arvioinnissa. Usein kuvankäsittelyssä datan histogrammia käytetään kuva-alueena kuvan alueelle, ja tavoitteena on, että histogrammien välinen etäisyys heijastaa kuvamerkkien välistä etäisyyttä. Histogrammin saamiseen käytettyjen taustalla olevien kuvadatojen yleisestä populaatiotilastosta saattaa olla tiedossa vain vähän tai ei ollenkaan mitään. Esimerkiksi taustalla olevat väestötilastot käytettäessä suuntautuneiden kaltevuuksien histogrammeja eroaisivat huomattavasti kuvien todellisen sisällön perusteella.
- naught101 ’ kysymykseen vastasi Stokastinen: stats.stackexchange.com/a/108523/37373
vastaus
Etsit Kolmogorov-Smirnov -testiä . Älä unohda jakaa pylväskorkeuksia summan kaikki histogrammin kaikki havainnot.
Huomaa, että KS-testi raportoi myös eron, jos esim jakaumien keskiarvot siirtyvät toistensa suhteen. Jos histogrammin käännöksellä x-akselilla ei ole merkitystä sovelluksessasi, kannattaa ensin vähentää keskiarvo kustakin histogrammista.
Kommentit
- Keskiarvon vähentäminen muuttaa KS-tilaston nollajakaumaa. @David Wright herättää pätevän vastaväitteen KS-testin soveltamisesta histogrammeihin.
Vastaa
Kuten Davidin vastauksessa huomautetaan, että khi-neliötesti on välttämätön yhdistetylle tiedolle, koska KS-testi olettaa jatkuvan jakauman. Mitä tulee KS-testin epäasianmukaisuuteen (naught101: n kommentti), sovelluksessa on keskusteltu asiasta tilastokirjallisuus, jota kannattaa kertoa täällä.
Hauska keskustelu alkoi väitteellä ( García-Berthou ja Alcaraz, 2004 ), että kolmasosa luontopapereista sisältää tilastovirheitä. Kuitenkin seuraava artikkeli ( Jeng, 2006 , ” Virhe tilastollisissa tilastotesteissä ja tilastollisten testien virheet ” – ehkä kaikki suosikki paperin nimi) osoitti, että Garcia-Berthou ja Alcaraz (2005) käyttivät KS-testejä erillisillä tiedoilla, mikä johti heidän ilmoittamaansa epätarkkoihin p-arvoihin metatutkimuksessaan. Jeng (2006) -artikkeli tarjoaa mukavan keskustelun asiasta, jopa osoittamalla, että KS-testi voidaan muokata toimimaan erillisen datan saamiseksi. Tässä erityistapauksessa ero erottuu loppunumeron [0,9], $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \) viimeisen numeron tasaisen jakauman erosta. leq 9) $$ (väärässä KS-testissä) ja deltafunktioiden kampajako, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (oikeassa, muokatussa muodossa).Alkuperäisen virheen seurauksena Garcia-Berthou ja Alcaraz (2004) hylkäsivät virheellisesti nollan, kun taas khi-neliö ja modifioitu KS-testi eivät. Joka tapauksessa khi-neliötesti on standardi valinta tässä skenaariossa, vaikka KS: ää voidaan muokata toimimaan täällä.