Két hisztogramot figyelembe véve, hogyan értékelhetjük, hogy hasonlóak-e vagy sem?

Elegendő egyszerűen megnézni a két hisztogramot ? Az egyszerű egy az egyben történő leképezéssel az a probléma, hogy ha a hisztogram kissé eltér és kissé eltolódik, akkor nem fogjuk elérni a kívánt eredményt.

Van valami javaslat?

Megjegyzések

  • Mit jelent a ” hasonló “? A chi-négyzet teszt és a KS teszt például tesztelje, hogy két hisztogram közel van-e azonosakhoz. De ” hasonló ” jelentheti a ” azonos alakú, ” figyelmen kívül hagyva a hely és / vagy a méretarány különbségeit. Tisztázhatná szándékát?
  • A $ \ chi ^ 2 $ teszt mellett érdemes elkészíteni egy Bihistogramot ( itl.nist.gov/div898/handbook/eda /section3/bihistog.htm ) A kézikönyvből: ” Ez a kétmintás t-teszt grafikus alternatívája. A bihistogram erősebb lehet, mint a t -teszt abban, hogy az összes disztribúció A hagyományos jellemzők (elhelyezkedés, méretarány, ferdeség, kiugró értékek) egyetlen ábrán nyilvánvalóak. ”

Válasz

Legutóbbi cikk, amelyet érdemes elolvasni:

Cao, Y. Petzold, L. A kémiailag reagáló rendszerek sztochasztikus szimulációjának pontossági korlátai és a hibák mérése, 2006.

Bár a cikk középpontjában a sztochasztikus szimulációs algoritmusok összehasonlítása áll, lényegében a fő ötlet két hisztogram összehasonlítása .

A pdf fájlt a szerző weboldaláról érheti el.

Megjegyzések

  • Szia, szép papírom, mint a pdf link megadásához .. Én ‘ biztosan átnézem ezt a cikket ..
  • Ehelyett referencia megadásával jó lenne, ha ‘ összefoglalná a cikk főbb pontjait. A linkek elpusztulnak, így a jövőben válasza haszontalanná válhat a folyóirat nem előfizetői számára (és az emberi lakosság túlnyomó többsége nem előfizető).

Válasz

Rengeteg távolság a két hisztogram között. Ezeknek a kategóriáknak a megfelelő besorolását olvashatja el:

K. Meshgi és S. Ishii: „A színek hisztogramjának kibővítése” rácsolással a nyomkövetési pontosság javítása érdekében ”, Proc., MVA15, Tokió, Japán, 2015. május.

A legnépszerűbb távolságfüggvények az Ön kényelmét szolgálják:

  • $ L_0 $ vagy Hellinger távolság

$ D_ {L0} = \ sum \ limits_ {i} h_1 (i) \ neq h_2 (i) $

  • $ L_1 $ , Manhattan vagy a várostömb távolsága

$ D_ {L1} = \ sum_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • $ L = 2 $ vagy euklideszi távolság

$ D_ { L2} = \ sqrt {\ sum_ {i} \ balra (h_1 (i) – h_2 (i) \ jobbra) ^ 2} $

  • L $ _ {\ infty} $ vagy Csibisev távolsága

$ D_ {L \ infty} = max_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • L $ _ p $ vagy törtrészes Távolság (a Minkowski távolságcsalád része)

$ D_ {Lp} = \ balra (\ összeg \ korlátok_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert ^ p \ jobbra) ^ {1 / p} $ és $ 0 < p < 1 $

  • Hisztogram metszéspontja

$ D _ {\ cap} = 1 – \ frac {\ sum_ {i} \ bal (perc (h_1 (i) , h_2 (i) \ right)} {min \ left (\ vert h_1 (i) \ vert, \ vert h_2 (i) \ vert \ right)} $

  • Koszinusztávolság

$ D_ {CO} = 1 – \ sum_i h_1 (i) h2_ (i) $

  • Canberra távolság

$ D_ {CB} = \ sum_i \ frac {\ lvert h_1 (i) -h_2 (i ) \ rvert} {min \ left (\ lvert h_1 (i) \ rvert, \ lvert h_2 (i) \ rvert \ right)} $

  • Pearson korrelációs együtthatója

$ D_ {CR} = \ frac {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right ) \ left (h_2 (i) – \ frac {1} {n} \ right)} {\ sqrt {\ sum_i \ left (h_1 (i) – \ frac {1} {n} \ right) ^ 2 \ sum_i \ balra (h_2 (i) – \ frac {1} {n} \ jobbra) ^ 2}} $

  • Kolmogorov-Smirnov divergancia

$ D_ {KS} = max_ {i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • Egyezési távolság

$ D_ {MA} = \ sum \ limits_ { i} \ lvert h_1 (i) – h_2 (i) \ rvert $

  • Cramer-von Mises távolság

$ D_ {CM} = \ sum \ limits_ {i} \ left (h_1 (i) – h_2 (i) \ right) ^ 2 $

  • $ \ chi ^ 2 $ Statisztika

$ D _ {\ chi ^ 2 } = \ sum_i \ frac {\ balra (h_1 (i) – h_2 (i) \ jobbra) ^ 2} {h_1 (i) + h_2 (i)} $

  • Bhattacharyya távolság

$ D_ {BH} = \ sqrt {1- \ sum_i \ sqrt {h_1 (i) h_2 (i)}} $ & hellinger

  • Négyzetes akkord

$ D_ {SC} = \ sum_i \ balra (\ sqrt {h_1 (i)} – \ sqrt {h_2 (i)} \ jobbra) ^ 2 $

  • Vissza -Liebler divergancia

$ D_ {KL} = \ sum_i h_1 (i) log \ frac {h_1 (i)} {m (i)} $

  • Jefferey divergencia

$ D_ {JD} = \ sum_i \ left (h_1 (i) log \ frac {h_1 (i)} {m (i)} + h_2 (i) log \ frac {h_2 (i)} {m (i)} \ jobbra) $

  • Earth Mover távolsága (ez az első tagja a Szállítási távolságok, amelyek beágyazási információkat $ A $ helyeznek a távolba, további információkért olvassa el a fent említett cikket vagy a Wikipédiát bejegyzés.

$ D_ {EM} = \ frac {min_ {f_ {ij}} \ sum_ {i, j} f_ {ij} A_ {ij}} {sum_ {i, j} f_ {ij}} $ $ \ sum_j f_ {ij} \ leq h_1 (i), \ sum_j f_ {ij} \ leq h_2 (j), \ sum_ {i, j} f_ {ij} = min \ bal (\ sum_i h_1 (i) \ sum_j h_2 (j) \ jobb) $ és A $ f_ {ij} $ a $ i $ és a $ j $

  • Másodlagos távolság ász

$ D_ {QU} = \ sqrt {\ sum_ {i, j} A_ {ij} \ balra (h_1 (i) – h_2 (j) \ jobbra ^ 2} $

  • Másodfokú-Chi távolság

$ D_ {QC} = \ sqrt {\ sum_ {i, j} A_ {ij} \ balra (\ frac {h_1 (i) – h_2 (i)} {\ balra (\ sum_c A_ {ci} \ balra (h_1) (c) + h_2 (c) \ jobb) \ jobb) ^ m} \ jobb) \ bal (\ frac {h_1 (j) – h_2 (j)} {\ bal (\ sum_c A_ {cj} \ bal (h_1) (c) + h_2 (c) \ right) \ right) ^ m} \ right)} $ és $ \ frac {0} {0} \ equiv 0 $

Ezen távolságok némelyikének Matlab-implementációja elérhető a GitHub adattáramból: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Emellett olyan srácok után kutathat, mint Yossi Rubner, Ofir Pele, Marco Cuturi és Haibin Ling a legkorszerűbb távolságokért.

Frissítés: A távolságok alternatív magyarázata itt-ott megjelenik az irodalomban, ezért a teljesség kedvéért ide sorolom őket.

  • Canberra távolság (másik verzió)

$ D_ {CB} = \ sum_i \ frac {| h_1 (i) -h_2 (i) |} {| h_1 (i) | + | h_2 (i) |} $

  • Bray-Curtis eltérés, Sorensen-távolság (a a hisztogramok összege egyenlő eggyel, ez megegyezik a $ D_ {L0} $ )

$ D_ {BC} = 1 – \ frac {2 \ sum_i h_1 (i) = h_2 (i)} {\ sum_i h_1 (i) + \ sum_i h_2 (i)} $

  • Jaccard távolság (azaz metszéspont az unió felett, egy másik verzió)

$ D_ {IOU} = 1 – \ frac { \ sum_i min (h_1 (i), h_2 (i))} {\ sum_i max (h_1 (i), h_2 (i))} $

megjegyzések

  • Üdvözöljük weboldalunkon! Köszönjük ezt a hozzájárulást.
  • Itt van a papír link: mva-org.jp/Proceedings/2015USB/papers/14-15.pdf
  • Köszönöm, egy lista csodálatos, miközben nem ‘ nem teszi lehetővé összehasonlító operátor létrehozását a hisztogramhoz, pl. azt mondani, hogy hist1 < hist2
  • KS-eltérésed kódban $$ D_ {KS} = max_ {i} \ lvert \ sum_i h_1 (i) – implementálva van – \ sum_i h_2 (i) \ rvert $$ Ez inkonzisztensnek tűnik a fenti egyenlettel. Hiányzik valami?
  • Azt hiszem, ez hiba a kódomban. Ezt megvizsgálom. Köszönjük, hogy rámutatott

Válasz

A kérdésre a szokásos válasz a khi-négyzet teszt . A KS teszt nem beillesztett adatokra vonatkozik. (Ha rendelkezik meg nem nyitott adatokkal, akkor mindenképpen használjon KS stílusú tesztet, de ha csak a hisztogrammal rendelkezik, akkor a KS teszt nem megfelelő.)

Megjegyzések

  • Abban igazad van, hogy a KS-teszt nem megfelelő a hisztogramokhoz, ha hipotézistesztként értelmezik az alapul szolgáló adatok megoszlását, de nem látok okot arra, hogy a KS statisztika wouldnt ‘ t jól működne bármely két hisztogram egyformaságának méréséül.
  • Magyarázat arra, hogy miért nem megfelelő a Kolmogorov-Smirnov-teszt összegyűjtött adatokkal hasznos lenne.
  • Ez nem biztos, hogy hasznos a képfeldolgozásban, mint a statisztikai alkalmassági értékelésnél. A képfeldolgozás során gyakran az adatok hisztogramját használják a kép egy régiójának leírójaként, és a cél az, hogy a hisztogramok közötti távolság tükrözze a képfoltok közötti távolságot. Kevés, vagy egyáltalán nem lehet tudni a hisztogram elkészítéséhez használt alapul szolgáló képadatok általános populációs statisztikáiról. Például az alapul szolgáló populációs statisztikák az orientált gradiens hisztogramjainak használatakor jelentősen eltérhetnek a képek tényleges tartalma alapján.
  • naught101 ‘ kérdésre válaszolt Stochtastic: stats.stackexchange.com/a/108523/37373

Válasz

A Kolmogorov-Smirnov tesztet keresi. Ne felejtse el megosztani a sávmagasságokat a az egyes hisztogramok összes megfigyelése.

Ne feledje, hogy a KS-teszt eltérést is jelent, ha pl az eloszlások átlaga eltolódik egymáshoz képest. Ha a hisztogramnak az x tengely mentén történő fordítása nem értelmezhető az alkalmazásában, akkor érdemes először levonni az átlagot az egyes hisztogramokból.

Megjegyzések

  • Az átlag levonása megváltoztatja a KS statisztika null eloszlását. @David Wright egyébként is kifogásolja a KS-teszt hisztogramokra való alkalmazását.

Válasz

Mint David válasza rámutat, hogy a chi-négyzet tesztre van szükség az összegyűjtött adatokhoz, mivel a KS-teszt folyamatos eloszlásokat feltételez. Tekintettel arra, hogy a KS-teszt miért nem megfelelő (naught101-es megjegyzés), némi vitát folytattunk a kérdésről statisztikai irodalom, amelyet érdemes itt felvetni.

Szórakoztató eszmecsere kezdődött azzal az állítással ( García-Berthou és Alcaraz, 2004 ), miszerint a Nature-cikkek egyharmada tartalmaz statisztikai hibákat. Azonban egy későbbi tanulmány ( Jeng, 2006 , “ Hiba a statisztikai tesztekben a hiba a statisztikai tesztekben ” – talán minden A legkedveltebb dolgozat címe) azt mutatta, hogy Garcia-Berthou és Alcaraz (2005) diszkrét adatokon használták a KS teszteket, ami azt eredményezte, hogy meta-tanulmányukban pontatlan p-értékeket közöltek. A Jeng (2006) tanulmány szép vitát ad a kérdésről, még azt is megmutatja, hogy a KS tesztet úgy lehet módosítani, hogy diszkrét adatokkal működjön. Ebben a konkrét esetben a különbség a [0,9], a $$ P (x) = \ frac {1} {9}, \ (0 \ leq x \ leq 9) $$ (a hibás KS-tesztben) és a delta függvények fésűeloszlása, $$ P (x) = \ frac {1} {10} \ sum_ {j = 0} ^ 9 \ delta (xj) $ $ (a helyes, módosított formában).Az eredeti hiba eredményeként Garcia-Berthou és Alcaraz (2004) helytelenül utasította el a nullát, míg a khi-négyzet és a módosított KS teszt nem. Mindenesetre a chi-négyzet teszt a szokásos választás ebben a forgatókönyvben, még akkor is, ha a KS módosítható úgy, hogy itt működjön.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük