Hogyan állapítható meg, hogy melyik terjesztés felel meg legjobban az adataimnak?

Question

Van egy adatkészletem, és szeretném kideríteni, melyik eloszlás felel meg legjobban az adataimnak.

A fitdistr() függvénnyel becsültem meg a feltételezett eloszlás leírásához szükséges paramétereket (azaz Weibull, Cauchy, Normal). Ezen paraméterek felhasználásával Kolmogorov-Smirnov tesztet tudok végezni annak becslésére, hogy a mintaadataim ugyanarról az eloszlásról származnak-e, mint a feltételezett eloszlásom. ugyanabból az eloszlásból merített. De a p-érték nem ad információt az illeszkedés isteniségéről, nem igaz?

Tehát, ha a mintaadataim p-értéke> 0,05 egy normál eloszláshoz, valamint egy weibull eloszláshoz, honnan tudhatom, melyik eloszlás illik jobban az adataimhoz?

Alapvetően ezt tettem:

> mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 52.45 44.91 29.54 27.13 35.60 [45] 45.34 43.37 54.15 42.77 42.88 44.26 27.14 39.31 24.80 16.62 30.30 [56] 36.39 28.60 28.53 35.84 31.10 34.55 52.65 48.81 43.42 52.49 38.00 [67] 38.65 34.54 37.70 38.11 43.05 29.95 32.48 24.63 35.33 41.34 # estimate shape and scale to perform KS-test for weibull distribution > fitdistr(mydata, "weibull") shape scale 6.4632971 43.2474500 ( 0.5800149) ( 0.8073102) # KS-test for weibull distribution > ks.test(mydata, "pweibull", scale=43.2474500, shape=6.4632971) One-sample Kolmogorov-Smirnov test data: mydata D = 0.0686, p-value = 0.8669 alternative hypothesis: two-sided # KS-test for normal distribution > ks.test(mydata, "pnorm", mean=mean(mydata), sd=sd(mydata)) One-sample Kolmogorov-Smirnov test data: mydata D = 0.0912, p-value = 0.5522 alternative hypothesis: two-sided

A p-értékek 0,8669 a Weibull eloszlásnál és 0,5522 a normális eloszlás. Így feltételezhetem, hogy adataim Weibull mellett normális eloszlást is követnek. De melyik terjesztési függvény írja le jobban az adataimat?

Az elevendollar ra hivatkozva a következő kódot találtam, de nem tudom, hogyan kell értelmezni az eredményeket:

fits <- list(no = fitdistr(mydata, "normal"), we = fitdistr(mydata, "weibull")) sapply(fits, function(i) i$loglik) no we -259.6540 -257.9268

Megjegyzések

Miért szeretné kideríteni, hogy melyik terjesztés felel meg legjobban az adatainak?
Mivel ál- és véletlenszámok, amelyek az adott eloszlást követik.
‘ nem használhatja a KS-t annak ellenőrzésére, hogy az adathalmazból talált paraméterekkel rendelkező eloszlás megfelel-e az adatkészletnek. Például ez az oldal , plusz alternatívák (és a KS-teszt félrevezető lehet más módon).
Egy másik beszélgetés itt kódmintákkal a KS-teszt alkalmazásához, amikor a mintákat megbecsülik.
I used the fitdistr() function … ..Milyen ‘ s fitdistr funkció? Valami az Excelből? Vagy valami, amit magad írtál C-be?

Answer 1

Először íme néhány gyors megjegyzés:

A Kolmovorov $ p $ -értékei -Smirnov-Test (KS-Test) a becsült paraméterekkel elég hibás lesz. Tehát sajnos nem lehet csak elosztást illeszteni, majd a Kolmogorov-Smirnov-teszt becsült paramétereit felhasználni a minta teszteléséhez.
A mintája soha nem követ egy adott pontosan akkor is, ha a KS-tesztből származó $ p $ -értékei érvényesek lennének, és $ > 0,05 $ , ez csak azt jelentené, hogy nem zárhatja ki , hogy az adatai ezt a konkrét terjesztést kövessék. Egy másik megfogalmazás az lenne, hogy a mintád kompatibilis egy bizonyos eloszlással. De a válasz a ” kérdésre pontosan követi-e az xy elosztást? ” mindig nem .
A cél itt nem lehet az, hogy pontosan meghatározzuk, milyen eloszlást követ a mintája. A cél az, amit @whuber (a megjegyzésekben) az adatok párhuzamos hozzávetőleges leírása nak nevez. Egy adott paraméteres eloszlás hasznos lehet az adatok modelljeként.

De végezzünk egy kis feltárást. A kiváló fitdistrplus csomag, amely néhány szép funkciót kínál a disztribúció illesztéséhez. A descdist függvényt nyerjük néhány ötlet a lehetséges jelöltek terjesztéséről.

library(fitdistrplus) library(logspline) x <- c(37.50,46.79,48.30,46.04,43.40,39.25,38.49,49.51,40.38,36.98,40.00, 38.49,37.74,47.92,44.53,44.91,44.91,40.00,41.51,47.92,36.98,43.40, 42.26,41.89,38.87,43.02,39.25,40.38,42.64,36.98,44.15,44.91,43.40, 49.81,38.87,40.00,52.45,53.13,47.92,52.45,44.91,29.54,27.13,35.60, 45.34,43.37,54.15,42.77,42.88,44.26,27.14,39.31,24.80,16.62,30.30, 36.39,28.60,28.53,35.84,31.10,34.55,52.65,48.81,43.42,52.49,38.00, 38.65,34.54,37.70,38.11,43.05,29.95,32.48,24.63,35.33,41.34)

Most használhatjuk a descdist alkalmazást:

descdist(x, discrete = FALSE)

Descdist

A minta kurtosisa és négyzetbeli ferdesége kék pontként ábrázolva, a div neve: div div = “2faea39abb”>

Answer 2

A diagramok többnyire jó módszerek arra, hogy jobban megértsék adatait. Az Ön esetében javasolnám a empirikus kumulatív elosztási függvény (ecdf) ábrázolását az fitdistr-től kapott paraméterekkel ellátott elméleti cdf-ekkel szemben ().

Ezt egyszer megcsináltam az adataimhoz, és a bizalmi intervallumokat is belefoglaltam. Itt van a kép, amelyet a ggplot2 () használatával kaptam.

írja ide a kép leírását

A fekete vonal az empirikus kumulatív elosztási függvény és a színes vonalak különböző eloszlásokból származó cdf-k, a Maximum Likelihood módszerrel kapott paraméterek felhasználásával. Könnyen belátható, hogy az exponenciális és a normál eloszlás nem illik jól az adatokhoz, mert a vonalaknak más formájuk van, mint az ecdf-nek, és a vonalak meglehetősen messze vannak az ecdf-től. Sajnos a többi disztribúció meglehetősen közel áll egymáshoz. De azt mondanám, hogy a logNormal vonal áll a legközelebb a fekete vonalhoz. A távolság mérésével (például MSE) érvényesíteni lehet a feltételezést.

Ha csak két versengő eloszlásod van (például kiválasztod azokat, amelyek a legjobban illeszkednek a diagramhoz), használhatsz egy Likelihood-Ratio-Test annak tesztelésére, hogy melyik eloszlás illik jobban.

Megjegyzések

Üdvözöljük a CrossValidated oldalán! Válasza hasznosabb lehet, ha szerkesztheti (a) a grafika előállításához használt kódot és (b) hogyan olvassa el a grafikát.
Mi van ott ábrázolva? Ez valamiféle exponenciális ábrázolás?
De hogyan döntheti el, hogy melyik terjesztés felel meg az adatainak a legjobban? Csak a grafika szerint nem tudtam ‘ megmondani, hogy a logNormal vagy a weibull illik-e a legjobban az adataidhoz.
Ha ál-véletlenszerű számgenerátort akarsz létrehozni nem használja az empirikus cdf-t? Szeretne olyan számokat rajzolni, amelyek meghaladják a megfigyelt eloszlást?
Ha grafikonját névértékre vesszük, akkor úgy tűnik, hogy a jelölt disztribúciók közül egyik egyáltalán nem felel meg jól az adatoknak. Ezenkívül úgy tűnik, hogy az ecdf vízszintes aszimptotája kevesebb, mint 0,03, aminek ‘ nincs értelme, ezért nem vagyok biztos abban, hogy ‘ ez valójában egy ecdf.

Hogyan állapítható meg, hogy melyik terjesztés felel meg legjobban az adataimnak?

Megjegyzések

Válasz

Kolmogorov-Smirnov tesztszimuláció

Automatikus terjesztés illesztése a GAMLSS-szel

Megjegyzések

Válasz

Megjegyzések

Vélemény, hozzászólás? Kilépés a válaszból