Azt hallottam (sajnálom, hogy nem tudok linket adni egy szöveghez, amit mondtam nekem), hogy a maradványok magas pozitív kurtosisa problémás lehet a pontos hipotézis tesztek és konfidencia intervallumok (és ezért a statisztikai következtetések problémái). Igaz-e ez, és ha igen, miért? A maradványok magas pozitív kurtosisa nem jelezné, hogy a maradványok többsége a 0 maradékátlag-átlag közelében van, és ezért kevésbé maradványok vannak jelen? (Ha van válasza, kérjük, próbáljon választ adni nem sok mélységű matematikával, mivel matematikailag nem vagyok hajlandó).

Megjegyzések

  • Azt hiszem, hogy Ön olyan modellekre összpontosít, amelyek ideális körülményei a normál (Gauss-féle) hibák. (Sok más összefüggésben a maradványok magas kurtosisára számítani lehet.) A magas kurtosis nagy valószínűséggel a normálisnál zsírosabb eloszlást jelent, tehát néhány nagyon magas (+ vagy -) maradvány. Még akkor is, ha nulla közelében van sok, ez csak a jó hír, és a lehetséges rossz hírekre van szükség. De viszont ez bármit jelenthet. A maradék kontra illesztett cselekmény általában informatívabb.
  • Valójában normális feltételezésű modellekre összpontosítottam.

Válasz

hallottam […], hogy a maradványok magas pozitív kurtosisa problematikus lehet a pontos hipotézis tesztek és a konfidencia intervallumok szempontjából (és ezért a statisztikai adatokkal kapcsolatos problémák következtetés). Ez igaz, és ha igen, miért?

Bizonyos típusú hipotézis tesztek esetében ez igaz.

A maradványok magas pozitív kurtosisa nem azt jelzi, hogy a maradványok többsége a 0 maradékátlag-átlag közelében van, és ezért kevesebb nagy maradvány van jelen?

Nem .

Úgy tűnik, hogy összekevered a variancia fogalmát a kurtosiséval. Ha a szórás kisebb lenne, akkor több kis maradékra és kevesebb nagy maradékra való hajlam jönne össze. Képzelje el, hogy a standard deviációt állandóan tartjuk, miközben megváltoztatjuk a kurtosist (tehát határozottan a kurtosis, mint a variancia változásairól beszélünk).

Hasonlítsa össze a különböző varianciákat (de ugyanaz a kurtosis):

ide írja be a kép leírását

különböző kurtosissal, de ugyanazzal a szórással:

ide írja a kép leírását

(képek div id = “afbb5ca663”>

ez a bejegyzés )

A magas kurtosis sok esetben több kisebb eltéréssel jár az átlag $ ^ \ ddagger $ – több kicsi maradvány, mint amit normál eloszlás mellett találna .. de ahhoz, hogy a szórás ugyanazon az értéken maradjon, több nagy maradékkal kell rendelkeznünk (mert több kis maradék esetén kisebb lenne az átlagtól való átlagos távolság). Ahhoz, hogy mind a nagy, mind a kis maradványokból többet kapjon, kevesebb “tipikus méretű” maradvány marad – ezek körülbelül egy szórással térnek el az átlagtól.

$ \ ddagger $ attól függ, hogyan definiálja a “kicsiséget”; egyszerűen nem adhat hozzá sok nagy maradékot, és állandóan tartja a varianciát, szükség van valamire, hogy kompenzálja ezt – de a icsi “néhány adott mértékéhez megtalálhatja a kurtosis növelésének módját anélkül, hogy növelné az adott mérték. (Például a magasabb kurtosis nem jelenti automatikusan a magasabb csúcsot, mint olyan)

A magasabb kurtosis általában nagyobb maradványokkal jár, még akkor is, ha állandóan tartja a varianciát.

[Ezenkívül bizonyos esetekben a kis maradványok koncentrációja valójában több problémához vezethet, mint a legnagyobb maradványok további része – attól függően, hogy milyen dolgokat nézel meg.]

Mindenesetre nézzünk meg egy példát. Vegyünk egy mintás t-tesztet és 10 mintaméretet.

Ha elutasítjuk a nullhipotézist, amikor a t-statisztika abszolút értéke nagyobb, mint 2,262, akkor, ha a megfigyelések függetlenek, azonosak normális eloszlásból eloszlva, és a feltételezett átlag a valódi populációs átlag, az idő 5% -át elutasítjuk a nullhipotézist.

Vegyünk egy adott eloszlást lényegesen magasabb kurtosissal, mint a normál: 75% populációnk értéke normális eloszlásból származik, a fennmaradó 25% pedig normál eloszlásból származik, standard szórással 50-szer akkora.

Ha jól számoltam, ez a 12 (a kurtosis feleslege 9). A kapott eloszlás sokkal magasabb, mint a normál, és nehéz farka van.A sűrűséget összehasonlítjuk az alábbi normál sűrűséggel – láthatja a magasabb csúcsot, de a bal oldali képen nem igazán látható a nehezebb farok, ezért megrajzoltam a sűrűségek logaritmusát is, amely kinyújtja a a képet, és tömöríti a tetejét, megkönnyítve ezzel a csúcs és a farok megtekintését.

írja ide a kép leírását

Ennek az eloszlásnak a tényleges szignifikanciaszintje, ha “5%” egymintás t-tesztet hajt végre $ n = 10 $ 0,9% alatt van. Ez meglehetősen drámai és meglehetősen jelentősen lehúzza a teljesítménygörbét.

(Látni fogja a következőt is: a konfidencia intervallumok lefedettsége.)

Ne feledje, hogy ugyanazzal a kurtosissal eltérő eloszlás más hatással lesz a szignifikancia szintre.


Tehát miért hajtja végre az elutasítás arány csökken? Ez azért van, mert a nehezebb farok néhány nagy kiugró értékhez vezet, ami valamivel nagyobb hatással van a szórásra, mint az átlagra; ez hatással van a t-statisztikára, mert több t-értékhez vezet -1 és 1 között, ennek során csökkenti az értékek arányát a kritikus régióban.

Ha olyan mintát vesz, amely elég konzisztensnek tűnik azzal, hogy normális eloszlásból származik, amelynek átlaga éppen eléggé meghaladja a feltételezett átlagot, azt jelenti, hogy jelentős, és akkor az átlag felett a legmesszebb veszi a megfigyelést, és még messzebb húzza (vagyis még nagyobbá teszi az átlagot, mint $ H_0 $ alatt), valójában tegye a t-statisztikát kisebbé .

Hadd mutassam meg. Itt van a 10. méretű minta:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23 

Képzelje el, hogy tesztelni akarjuk a $ H_0: \ mu = 2 $ (egy mintás t-teszt). Kiderült, hogy a minta átlaga itt 2,68, a minta szórása pedig 0,9424. 2,282 t-statisztikát kap – csak az elutasítási régióban 5% -os teszt (p-értéke 0,0484).

Most tegye a legnagyobb értéket 50-re:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50 

Nyilvánvaló, hogy az átlagot húzzuk felfelé, tehát még ennél is nagyobb különbséget kell jeleznie, nem? Nos, nem, nem. A t-statisztika lefelé megy. Ez most 1.106, és a p-érték meglehetősen nagy (közel 30%). Mi történt? Nos, az átlagot felfelé húztuk (7,257-re), de a szórás 15 fölé emelkedett.

A szórások valamivel érzékenyebbek a kiugró értékekre, mint az átlagok – ha kiugró értéket ad meg, hajlamos az egymintás t-statisztikát 1 vagy -1 felé tolni.

Ha esély van több kiugró értékre, nagyjából ugyanaz történik, csak néha lehetnek ellentétes oldalak (ebben az esetben a szórás még jobban fel van fújva, míg az átlagra gyakorolt hatás egyhez képest csökken outlier), így a t-statisztika hajlamos közelebb kerülni a 0-hoz.

Hasonló dolgok folytatódnak számos más, a normálist feltételező tesztkel – a magasabb kurtosis általában a nehezebb farokkal társul, ami azt jelenti, több kiugró érték, ami azt jelenti, hogy a szórások az átlaghoz képest nagyobbak lesznek, ezért a felvenni kívánt különbségeket “elárasztja” a kiugró értékek tesztre gyakorolt hatása. Vagyis alacsony teljesítmény.

Megjegyzések

  • Hú, köszönöm szépen a nagyon világos és kidolgozott választ. Időjét nagyra értékeljük!
  • Ezt is érdemes megjegyezni, miközben a minta átlagának nagy mintamegoszlása nem függ a kurtosistól (tehát az átlagkonvertáló normalitást feltételező tesztek tényleges szignifikancia szintje ges a nominális szintre, jellemzően .05, mint n- > végtelen, minden véges kurtosis esetében), ugyanez nem igaz a varianciák tesztjeire. A becsült variancia nagy mintamegoszlása a kurtosistól függ, így a klasszikus, a normalitást feltételező varianciatesztek tényleges szignifikancia szintje nem konvergál a névleges szintre, mivel n – > végtelen, ha a kurtosis különbözik a nullától.
  • Ezenkívül a magasabb kurtosis nem jelenti azt, hogy matematikailag ” több eltérés lenne az átlagtól. ” Az egyetlen dolog, amit biztosan elmond, az, hogy több van a farokban.
  • Nem lehet több nagy eltérés és a varianciát állandóan tartani hacsak nem teszel több apró eltérést sem; ha nem tartja meg a varianciát állandóan, akkor több eltérésed kicsi lesz az új skálához képest. Tehát igen, ha a kurtosis vizsgálatára van szükség, a matematika azt mondja, hogy több nagyobb hordozza magában a kisebbet is.
  • @Peter ‘ vegyen $ Z-t $ mint szabványosított $ X $. A kurtosis $ \ kappa = E (Z ^ 4) $, és a $ \ sqrt {\ kappa-1} = E (Z ^ 2) $ monoton a $ \ kappa $ értékben. Ha a valószínűséget tovább mozgatom a $ Z $ farokjába, akkor bizonyos valószínűségnek az átlag felé kell haladnia (vagy ‘ nem tarthatom a $ \ text {Var} (Z) = 1 $ értéket ).Hasonlóképpen, ha a valószínűséget tovább mozgatom a $ X farokjába $ & hagyjuk a varianciát növekedni, a $ \ mu \ pm k \ sigma $ szélesebb, és így legalább a A disztribúció többi részéből további $ k $ e határokon belül esik; amint szabványosítja az új $ X $ értéket ($ X ‘ $ – $ Z ‘ $ mondja), abban több kisebb érték van közvetlen értelem.

Válasz

A kurtosis a kiugró értékeket méri. A kiugró értékek problematikusak a normális eloszláson alapuló standard következtetések (pl. T-tesztek, t-intervallumok) szempontjából. Ez a történet vége! És ez valóban elég egyszerű történet.

Ennek a történetnek a méltányolatlansága azért van, mert az ősi mítosz továbbra is fennáll, miszerint a kurtosis a „csúcsértéket” méri.

Itt van egy egyszerű magyarázat arra, hogy a kurtosis miért méri a szélső értékeket, és nem a „csúcsértéket”.

Vegye figyelembe a következő adatsort.

0, 3, 4, 1 , 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

A kurtosis a (z-értékek várható értéke) ) ^ 4. Itt vannak a (z-értékek) ^ 4:

6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45

Az átlag 2,78, és ez a kurtosis becslése. (Vegyen le 3-at, ha felesleges kurtosist szeretne.)

Most cserélje le az utolsó adatértéket 999-re, hogy az kiugróvá váljon:

0, 3, 4, 1, 2, 3 , 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Most itt vannak a (z-értékek) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Az átlag 18,05, és ez a kurtosis becslése. (Vegyen le 3-at, ha túlzott kurtosist szeretne.)

Nyilvánvaló, hogy csak a kiugró értékek számítanak. Semmi sem a “csúcsról” vagy a középső rész közelében lévő adatokról szól.

Ha standard statisztikai elemzéseket végez a második adatsorral, akkor gondokra kell számítania. A nagy kurtosis figyelmezteti Önt a problémára.

Íme egy cikk, amely részletesen leírja:

Westfall, P.H. (2014). Kurtosis mint Peakedness, 1905 – 2014. R.I.P. Az amerikai statisztikus, 68, 191–195.

Megjegyzések

  • Miért nem csak nem paraméteres teszteket használ? Az ilyen típusú problémákra valószínűleg magasabb rendűek.
  • Egyetértett, ez egy lehetséges út, HA kedveli a tesztelést, amely klasszikus formájában gyorsan egyre kevésbé érdekes. De valójában ez nem az én aggodalmam. Engem inkább a valószínűségi modellezés érdekel általában. Egy alkalmazás: Lehet, hogy valóban érdekli az átlag, pl. Olyan esetekben, amikor a függő változó a megszerzett dollár, a folyamat átlag sokkal érdekesebb, mint a folyamat mediánja. Tehát mit jelentenek az adatok a folyamatról, ha az adatok túlzottan hajlamosak? ‘ nehéz, de fontos probléma, és a pillanatnyi kurtosis releváns a válasz szempontjából. Nem nonpar tesztek.
  • A Cauchy-eloszlás szempontjából a levágott középérték a helyszín jobb mérőszáma lehet, mint a medián, és a hétköznapi átlag nem lenne a hely mértéke. Az, hogy mit használjunk helymérésként, attól függ, hogy mi az eloszlás. Példa arra, hogy a kurtosis nem lenne hasznos indikátorként, az az egyenletes eloszlás, amelynek átlagos szélsőértéke jobban mérhető a helyszínen, mint a medián és az átlag.
  • Nem a lényeg. Ha érdekelnek az összegek, például a dollárok, akkor a szokásos középérték a kívánt hely mértéke.
  • Ha van Cauchy elosztott változója, akkor megteheti az esetet az összes megszerzett dollárért, de a Az átlag nem lesz különösebben hasznos mérési helymeghatározás, ami azt jelenti, hogy a ” várható érték ” nincs ésszerű elvárással társítva. >

Válasz

A kurtosis aszimmetrikus farkakat is jelez. A kétfarkú hipotézis teszt során az egyik farok hosszú, a másik pedig rövid. Az egyik farok> alfa lehet, de < béta. Az egyik farok túllépi a p-értéket, a másik viszont nem.

Alapvetően a statisztikai következtetés standard normát feltételez. Ha ez nem szokványos normál, akkor valamilyen kifinomultabb következtetési mechanikán alapuló következtetéssel lehet boldogulni. Lehetséges, hogy Poisson-következtetéseket fogalmaz meg nekünk, de nem normális eloszlás esetén nem használhatja a normálokon alapuló következtetéseket.

A ferdeség és a kurtosis a nem normalitás mértéke. Megtanulunk átlagokat venni és normális eloszlásokat használni, mielőtt tudnánk, hogy tesztelnünk kell a normalitást. Egy normálhoz 36 vagy több adatpont szükséges minden dimenzióból. 20 adatpontra becsülhet, de akkor is ferde és kurtosis lesz. Amint az eloszlás megközelíti a normalitást, a ferdeség és az eloszlás eltűnik.

Az egyik magyarázat a kurtosist csúcspontnak határozta meg. Egy másik nem.Ez egyelőre rendezetlen harc. A Kurtosis a negyedik pillanat, egy terület. A probléma nem csúcspontján állok.

Egy másik ötlet, ami odakint van, az, hogy ferde helyzetben a medián áttér a háromszöget alkotó módra. Élvezze.

Megjegyzések

  • Nem világos, hogy ‘ nem világos, hogy ez hasznos és mást ad a már kiváló válaszokhoz. pl. ” normal 36 vagy több adatpontot igényel ” (tehát 35 nincs rendben? Mi az alapja ennek az állításnak? ” ferdeség mint csúcspont ” Nem gondolom, hogy ‘ senki sem állítja ezt. ” statisztikai következtetés normál normál ” feltételezést feltételez: általában nem. A kurtosis negyedik pillanat, egy terület: nem; a kurtosis itt definiálva dimenzió nélküli arány negyedik és második pillanat az átlagról.
  • A negyedik pillanat integrál, tehát egy terület. Hogyan fordítható le ez a terület A csúcsra vagy a görbületre elveszett számomra.
  • A kurtosis tipikus magyarázata a csúcspont, de véleményem szerint ez ‘ téves.

Szerkesztem az eredeti válaszomat a ferdeség megváltoztatására, mivel a csúcspont azt mondom, hogy a kurtosis … Köszönöm.

  • A farok nem szimmetrikus. még soha nem láttam semmit az aszimmetrikus farkakat figyelembe vevő statisztikai következtetésekről. A kurtosis kockázata azért fordul elő, mert a farkak elmozdulnak, amikor több adatpont gyűlik össze. A ferdeség és a kurtosis arról szól, hogy nincs elegendő adat a normál normál érték eléréséhez.
  • Nem így van: tömegű elmélet és alkalmazás létezik az exponenciális, gamma, Weibull és sok-sok más, nem normális eloszláshoz. .
  • Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük