Két hisztogramot figyelembe véve, hogyan értékelhetjük, hogy hasonlóak-e vagy sem?
Elegendő egyszerűen megnézni a két hisztogramot ? Az egyszerű egy az egyben történő leképezéssel az a probléma, hogy ha a hisztogram kissé eltér és kissé eltolódik, akkor nem fogjuk elérni a kívánt eredményt.
Van valami javaslat?
Megjegyzések
- Mit jelent a ” hasonló “? A chi-négyzet teszt és a KS teszt például tesztelje, hogy két hisztogram közel van-e azonosakhoz. De ” hasonló ” jelentheti a ” azonos alakú, ” figyelmen kívül hagyva a hely és / vagy a méretarány különbségeit. Tisztázhatná szándékát?
- A $ \ chi ^ 2 $ teszt mellett érdemes elkészíteni egy Bihistogramot ( itl.nist.gov/div898/handbook/eda /section3/bihistog.htm ) A kézikönyvből: ” Ez a kétmintás t-teszt grafikus alternatívája. A bihistogram erősebb lehet, mint a t -teszt abban, hogy az összes disztribúció A hagyományos jellemzők (elhelyezkedés, méretarány, ferdeség, kiugró értékek) egyetlen ábrán nyilvánvalóak. ”
Válasz
Legutóbbi cikk, amelyet érdemes elolvasni:
Cao, Y. Petzold, L. A kémiailag reagáló rendszerek sztochasztikus szimulációjának pontossági korlátai és a hibák mérése, 2006.
Bár a cikk középpontjában a sztochasztikus szimulációs algoritmusok összehasonlítása áll, lényegében a fő ötlet két hisztogram összehasonlítása .
A pdf fájlt a szerző weboldaláról érheti el.
Megjegyzések
- Szia, szép papírom, mint a pdf link megadásához .. Én ‘ biztosan átnézem ezt a cikket ..
- Ehelyett referencia megadásával jó lenne, ha ‘ összefoglalná a cikk főbb pontjait. A linkek elpusztulnak, így a jövőben válasza haszontalanná válhat a folyóirat nem előfizetői számára (és az emberi lakosság túlnyomó többsége nem előfizető).
Válasz
Rengeteg távolság a két hisztogram között. Ezeknek a kategóriáknak a megfelelő besorolását olvashatja el:
K. Meshgi és S. Ishii: „A színek hisztogramjának kibővítése” rácsolással a nyomkövetési pontosság javítása érdekében ”, Proc., MVA15, Tokió, Japán, 2015. május.
A legnépszerűbb távolságfüggvények az Ön kényelmét szolgálják:
- $ L_0 $ vagy Hellinger távolság
$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $
- $ L_1 $ , Manhattan vagy a várostömb távolsága
$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- $ L = 2 $ vagy euklideszi távolság
$ D_ { L2} = \ sqrt {\ sum_ {i} \ balra (h_1 (i) – h_2 (i) \ jobbra) ^ 2} $
- L $ _ {\ infty} $ vagy Csibisev távolsága
$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- L $ _ p $ vagy törtrészes Távolság (a Minkowski távolságcsalád része)
$ D_ {Lp} = \ balra (\ összeg \ korlátok_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ jobbra) ^ {1 / p} $ és $ 0 < p < 1 $
- Hisztogram metszéspontja
$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ bal (perc (h_1 (i) , h_2 (i) \ right)} {min \ left (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $
- Koszinusztávolság
$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $
- Canberra távolság
$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $
- Pearson korrelációs együtthatója
$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ balra (h_2 (i) – \ frac {1} {n} \ jobbra) ^ 2}} $
- Kolmogorov-Smirnov divergancia
$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Egyezési távolság
$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $
- Cramer-von Mises távolság
$ D_ {CM} = \ sum \ limits_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2 $
- $ \ chi ^ 2 $ Statisztika
$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ balra (h_1 (i) – h_2 (i) \ jobbra) ^ 2} {h_1 (i) + h_2 (i)} $
- Bhattacharyya távolság
$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger
- Négyzetes akkord
$ D_ {SC} = \ sum_i \ balra (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ jobbra) ^ 2 $
- Vissza -Liebler divergancia
$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $
- Jefferey divergencia
$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ jobbra) $
- Earth Mover távolsága (ez az első tagja a Szállítási távolságok, amelyek beágyazási információkat $ A $ helyeznek a távolba, további információkért olvassa el a fent említett cikket vagy a Wikipédiát bejegyzés.
$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ bal (\ sum_i h_1 (i) \ sum_j h_2 (j) \ jobb) $ és A $ f_ {ij} $ a $ i $ és a $ j $
- Másodlagos távolság ász
$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ balra (h_1 (i) – h_2 (j) \ jobbra ^ 2} $
- Másodfokú-Chi távolság
$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ balra (\ frac {h_1 (i) – h_2 (i)} {\ balra (\ sum_c A_ {ci} \ balra (h_1) (c) + h_2 (c) \ jobb) \ jobb) ^ m} \ jobb) \ bal (\ frac {h_1 (j) – h_2 (j)} {\ bal (\ sum_c A_ {cj} \ bal (h_1) (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ és $ \ frac {0} {0} \ equiv 0 $
Ezen távolságok némelyikének Matlab-implementációja elérhető a GitHub adattáramból: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Emellett olyan srácok után kutathat, mint Yossi Rubner, Ofir Pele, Marco Cuturi és Haibin Ling a legkorszerűbb távolságokért.
Frissítés: A távolságok alternatív magyarázata itt-ott megjelenik az irodalomban, ezért a teljesség kedvéért ide sorolom őket.
- Canberra távolság (másik verzió)
$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $
- Bray-Curtis eltérés, Sorensen-távolság (a a hisztogramok összege egyenlő eggyel, ez megegyezik a $ D_ {L0} $ )
$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $
- Jaccard távolság (azaz metszéspont az unió felett, egy másik verzió)
$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $
megjegyzések
- Üdvözöljük weboldalunkon! Köszönjük ezt a hozzájárulást.
- Itt van a papír link: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
- Köszönöm, egy lista csodálatos, miközben nem ‘ nem teszi lehetővé összehasonlító operátor létrehozását a hisztogramhoz, pl. azt mondani, hogy
hist1 < hist2
- KS-eltérésed kódban $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – implementálva van – \ sum_i h_2 (i) \ rvert $$ Ez inkonzisztensnek tűnik a fenti egyenlettel. Hiányzik valami?
- Azt hiszem, ez hiba a kódomban. Ezt megvizsgálom. Köszönjük, hogy rámutatott
Válasz
A kérdésre a szokásos válasz a khi-négyzet teszt . A KS teszt nem beillesztett adatokra vonatkozik. (Ha rendelkezik meg nem nyitott adatokkal, akkor mindenképpen használjon KS stílusú tesztet, de ha csak a hisztogrammal rendelkezik, akkor a KS teszt nem megfelelő.)
Megjegyzések
- Abban igazad van, hogy a KS-teszt nem megfelelő a hisztogramokhoz, ha hipotézistesztként értelmezik az alapul szolgáló adatok megoszlását, de nem látok okot arra, hogy a KS statisztika wouldnt ‘ t jól működne bármely két hisztogram egyformaságának méréséül.
- Magyarázat arra, hogy miért nem megfelelő a Kolmogorov-Smirnov-teszt összegyűjtött adatokkal hasznos lenne.
- Ez nem biztos, hogy hasznos a képfeldolgozásban, mint a statisztikai alkalmassági értékelésnél. A képfeldolgozás során gyakran az adatok hisztogramját használják a kép egy régiójának leírójaként, és a cél az, hogy a hisztogramok közötti távolság tükrözze a képfoltok közötti távolságot. Kevés, vagy egyáltalán nem lehet tudni a hisztogram elkészítéséhez használt alapul szolgáló képadatok általános populációs statisztikáiról. Például az alapul szolgáló populációs statisztikák az orientált gradiens hisztogramjainak használatakor jelentősen eltérhetnek a képek tényleges tartalma alapján.
- naught101 ‘ kérdésre válaszolt Stochtastic: stats.stackexchange.com/a/108523/37373
Válasz
A Kolmogorov-Smirnov tesztet keresi. Ne felejtse el megosztani a sávmagasságokat a az egyes hisztogramok összes megfigyelése.
Ne feledje, hogy a KS-teszt eltérést is jelent, ha pl az eloszlások átlaga eltolódik egymáshoz képest. Ha a hisztogramnak az x tengely mentén történő fordítása nem értelmezhető az alkalmazásában, akkor érdemes először levonni az átlagot az egyes hisztogramokból.
Megjegyzések
- Az átlag levonása megváltoztatja a KS statisztika null eloszlását. @David Wright egyébként is kifogásolja a KS-teszt hisztogramokra való alkalmazását.
Válasz
Mint David válasza rámutat, hogy a chi-négyzet tesztre van szükség az összegyűjtött adatokhoz, mivel a KS-teszt folyamatos eloszlásokat feltételez. Tekintettel arra, hogy a KS-teszt miért nem megfelelő (naught101-es megjegyzés), némi vitát folytattunk a kérdésről statisztikai irodalom, amelyet érdemes itt felvetni.
Szórakoztató eszmecsere kezdődött azzal az állítással ( García-Berthou és Alcaraz, 2004 ), miszerint a Nature-cikkek egyharmada tartalmaz statisztikai hibákat. Azonban egy későbbi tanulmány ( Jeng, 2006 , “ Hiba a statisztikai tesztekben a hiba a statisztikai tesztekben ” – talán minden A legkedveltebb dolgozat címe) azt mutatta, hogy Garcia-Berthou és Alcaraz (2005) diszkrét adatokon használták a KS teszteket, ami azt eredményezte, hogy meta-tanulmányukban pontatlan p-értékeket közöltek. A Jeng (2006) tanulmány szép vitát ad a kérdésről, még azt is megmutatja, hogy a KS tesztet úgy lehet módosítani, hogy diszkrét adatokkal működjön. Ebben a konkrét esetben a különbség a [0,9], a $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \ leq 9) $$ (a hibás KS-tesztben) és a delta függvények fésűeloszlása, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (a helyes, módosított formában).Az eredeti hiba eredményeként Garcia-Berthou és Alcaraz (2004) helytelenül utasította el a nullát, míg a khi-négyzet és a módosított KS teszt nem. Mindenesetre a chi-négyzet teszt a szokásos választás ebben a forgatókönyvben, még akkor is, ha a KS módosítható úgy, hogy itt működjön.