Tato otázka již má odpovědi zde :

Komentáře

  • Chtěl bych navrhnout, aby bylo možné nahlédnout do těchto otázek nahrazením " odchylka " nebo " standardní odchylka " nějakou jinou (známější) veličinou, která hraje analogickou roli v kvantitativním popisu, například délkou. Při popisu většiny fyzických objektů uvedou vědci délku. Co vlastně délka znamená? Jaká délka je považována za neobvykle velkou nebo malou? Existují pokyny pro hodnocení velikostí délek? Pokud je délka 90 (nebo 30), je to neobvyklé nebo zcela nepozorovatelné?
  • @whuber Jak vidíte, vyzkoušel jsem, co navrhujete, ve druhé revizi mé otázky, na kterou odpověděl glen_b že z toho nelze odvodit žádný význam. Vzhledem k tomu, že váš komentář je neustále hlasován, možná vy nebo někteří z těch, kteří hlasovali, mohou vysvětlit, co váš komentář znamená, kde jsem se pokazil (s mojí druhou revizí) nebo kde se může mýlit glen_b. V současné době mi váš komentář neposkytuje žádné informace. Zvažte také současnou (doufejme konečnou) revizi mé otázky, kde jsem se pokusil vyjádřit svoji otázku bez jakýchkoli zjevně rušivých příkladů.
  • Co v této otázce chybí a můj komentář je jakýmkoli náznakem měrných jednotek. " 90 " samo o sobě nemá smysl. Dalším rozhodujícím chybějícím prvkem je jakýkoli kontextový referenční rámec, který určuje, zda je 90 velká nebo malá.
  • Vedete mě kruhy. V příkladech v předchozích verzích mé otázky jsem měl měrné jednotky a kontexty. Ty byly těžce kritizovány. Je zřejmé, že nejsem schopen najít vhodné příklady a sám dospět k závěru. Výslovně vás (nebo kohokoli jiného) žádám, abyste dali příklad a vysvětlili mi odpověď.
  • Recenze vašeho původního příspěvku ukazuje, že jste se na tuto otázku ptali s velkou obecností: " Existují pokyny pro hodnocení rozsahu odchylek v datech? " Pokud by se jednalo (řekněme) o fyzikální stránku a někdo by se měl zeptat " existují pokyny pro hodnocení velikosti délky, " si ' nemyslíte otázka by byla okamžitě uzavřena jako příliš široká (nebo příliš vágní nebo obojí)? Jen jsem doufal, že z této analogie bude zřejmé, jak nemožné je zde odpovědět na vaši otázku.

Odpověď

Diskuse o nové otázce:

Například když chci studovat velikost lidského těla a zjistím, že velikost těla dospělého člověka má standard odchylka 2 cm, pravděpodobně bych vyvodil, že velikost těla dospělého člověka je velmi stejnoměrná.

Záleží na tom, s čím porovnáváme. K čemu srovnávací standard, díky kterému je to velmi jednotné? Pokud to porovnáte s variabilitou délek šroubů pro konkrétní typ šroubu, který může být velmi proměnlivý.

zatímco standardní odchylka 2 cm v velikost myší by znamenala, že se myši překvapivě velmi liší velikostí těla.

Ve srovnání se stejnou věcí ve vašem příkladu jednotnějších lidí určitě; pokud jde o délku věcí, které mohou být pouze pozitivní, pravděpodobně má větší smysl porovnávat variační koeficient (jak zdůrazňuji ve své původní odpovědi), což je totéž jako porovnávat sd, což znamená, že zde navrhujete .

Smyslem standardní odchylky je zjevně její vztah k průměru,

Ne, ne vždy. V případě velikostí věcí nebo množství věcí (např. tonáž uhlí, objem peněz) to často dává smysl, ale v jiných kontextech nemá smysl srovnávat s průměrem.

Dokonce i tehdy nemusí být nutně srovnatelné z jedné věci na druhou. Neexistuje žádný standard pro všechny věci jak proměnlivé je něco před proměnnou.

a standardní odchylka kolem desetiny průměru není nijak pozoruhodná (např. pro IQ: SD = 0,15 * M).

Které věci zde porovnáváme? Délka k IQ ? Proč má smysl porovnávat jednu sadu věcí s druhou? Všimněte si, že volba průměru 100 a sd 15 pro jeden druh IQ testu je zcela libovolná. Nemají jednotky. Mohlo to stejně snadno znamenat 0 sd 1 nebo 0.5 a sd 0.1.

Co je však považováno za „malé“ a co je „velké“, pokud jde o vztah mezi směrodatnou odchylkou a střední hodnotou?

Již zahrnuto v mé původní odpovědi, ale výmluvněji obsaženo v komentáři whubera – neexistuje žádný standard a nemůže být.

Některé z mých bodů o Cohenovi stále platí pro tento případ (sd ve vztahu k průměru je alespoň bez jednotek); ale i při něčem jako řekni Cohenův d, vhodný standard v jednom kontextu nemusí být nutně vhodný v jiném.


Odpovědi na dřívější verzi

Vždy počítáme a hlásíme prostředky a standardní odchylky.

No, možná hodně času; Nevím, že vždy to dělám. Existují případy, kdy to není tak relevantní.

Ale co vlastně znamená velikost rozptylu?

Směrodatná odchylka je jakousi průměrnou * vzdáleností od průměru. Odchylka je druhou mocninou směrodatná odchylka. Směrodatná odchylka se měří ve stejných jednotkách jako data; odchylka se uvádí ve čtvercových jednotkách.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

Řeknou vám něco o tom, jak jsou„ rozložena “data (nebo distribuce, v případě, že počítáte sd nebo rozptyl a distribution).

Předpokládejme například, že sledujeme, jaké místo lidé zaujmou v prázdné místnosti. Pokud zjistíme, že většina lidí sedí blízko okna s malými odchylkami,

To není přesně případ záznamu „které místo“, ale záznam „vzdálenost od okna“. (Znalost „většina sedí blízko okna“ vám nutně neřekne nic o střední hodnotě ani o variantě střední hodnoty. Říká vám, že medián vzdálenost od okna musí být malá.)

můžeme to předpokládat tak, že lidé obecně dávají přednost umístění blízko okna a získání výhledu nebo dostatku světla je hlavním motivačním faktorem při výběru sedadla.

To, že medián je malý, vám to samo o sobě neříká. Můžete to odvodit z jiných úvah, ale může existovat celá řada důvodů že nemůžeme žádným způsobem rozeznat data.

Pokud naopak pozorujeme, že zatímco největší podíl sedí blízko okna existuje velká odchylka od ostatních sedadel, která jsou často přijímána také (např. mnozí sedí blízko u dveří, jiní blízko u výdejního stojanu na vodu nebo novin), můžeme předpokládat, že zatímco mnoho lidí dává přednost sedět blízko u okna, zdá se, že být více faktory než světlo nebo pohled, které ovlivňují výběr sezení a různé preference u různých lidí.

Opět přinášíte informace mimo data; může to platit, nebo nemusí. Všechno víme, že světlo je lepší daleko od okna, protože den je zatažený nebo jsou zatažené žaluzie.

Při jakých hodnotách c říkáme, že chování, které jsme pozorovali, je velmi rozmanité (různí lidé rádi sedí na různých místech)?

To, co dělá směrodatnou odchylku velkou nebo malou, není určeno nějakým externím standardem, ale úvahami o předmětu a do jisté míry s čím děláte data a dokonce i osobní faktory.

U pozitivních měření, jako jsou vzdálenosti, je však někdy důležité brát v úvahu směrodatnou odchylku vzhledem k průměru (variační koeficient); je to stále libovolné, ale rozdělení s variačními koeficienty mnohem menšími než 1 (směrodatná odchylka mnohem menší než průměr) jsou v určitém smyslu „jiná“ než ta, kde je mnohem větší než 1 (směrodatná odchylka mnohem větší než průměr , které často mají tendenci být velmi šikmé).

A kdy můžeme odvodit, že toto chování je většinou jednotné (každý rád sedí u okna)

V tomto smyslu si dávejte pozor na slovo „uniformní“, protože je snadné si špatně vyložit váš význam (např. když řeknu, že lidé jsou) rovnoměrně usazený v místnosti „to znamená téměř opak toho, co máte na mysli). Obecněji se při diskusích o statistikách obecně nepoužívejte žargonu v jejich obvyklém smyslu.

a malá obměna, kterou naše data ukazují, je většinou výsledkem náhodných efektů nebo matoucích proměnných (špína na jedné židli, slunce se pohybovalo a více stínu vzadu atd.)?

Ne, opět přinášíte externí informace k statistické veličině, o které diskutujete. Rozptyl vám nic takového neřekne.

Existují pokyny pro hodnocení rozsahu odchylek v datech, podobné jako Cohenovy pokyny pro interpretaci velikosti efektu (korelace 0,5 je velká, 0,3 je střední a 0,1 je malá)?

Ne obecně, ne.

  1. Cohen diskuse [1] o velikostech efektů je jemnější a situační, než uvádíte; dává tabulku 8 různých hodnot malých, středních a velkých podle toho, o čem se diskutuje. Uvedená čísla platí pro rozdíly v nezávislých prostředcích (Cohenovy d).

  2. Cohenovy velikosti efektů jsou upraveny tak, aby byly jednotkové množství . Směrodatná odchylka a rozptyl nejsou – změňte jednotky a obě se změní.

  3. Cohenovy velikosti efektů jsou určeny k použití v konkrétní oblasti použití (ai tak považuji přílišné zaměření na ty standardy toho, co je malé, střední a velké jak poněkud svévolné a poněkud normativnější, než bych chtěl). Jsou více či méně rozumné pro zamýšlenou oblast použití, ale v jiných oblastech mohou být zcela nevhodné (Fyzika vysokých energií například často vyžaduje efekty, které pokrývají mnoho standardních chyb, ale ekvivalenty Cohens velikostí efektů mohou být o mnoho řádů větší, než jaké lze dosáhnout).

Pokud například 90% (nebo pouze 30%) pozorování spadá do jedné standardní odchylky od průměru, je to neobvyklé nebo zcela nepostradatelné ?

Ach, všimněte si, že jste přestali diskutovat o velikosti standardní odchylky / odchylky a začali jste diskutovat o Podíl pozorování v rámci jedné směrodatné odchylky průměru, zcela odlišný koncept. Velmi hrubě řečeno to více souvisí s vrcholností distribuce.

Například, aniž bych vůbec změnil rozptyl, mohu docela snadno změnit podíl populace v rámci 1 sd střední hodnoty. Pokud má populace distribuci $ t_3 $, asi 94% z ní leží v rozmezí 1 sd střední hodnoty, pokud má rovnoměrné rozdělení, asi 58% leží v 1 sd střední hodnoty; as distribucí beta ($ \ frac18, \ frac18 $) je to asi 29%; k tomu může dojít u všech, které mají stejné standardní odchylky, nebo u kterékoli z nich, která je větší nebo menší, aniž by tato procenta změnila – vůbec to nesouvisí s rozšířením, protože jste definovali interval z hlediska směrodatné odchylky.

[1]: Cohen J. (1992),
„Power primer,“
Psychol Bull. , 112 (1), červenec: 155-9.

Komentáře

  • Pokud je distribuce identická, procento by bylo pevné, nemění se.
  • Pokud věci fungují tak, jak mají, ' jej nebudete moci smazat; zatímco " vlastníte " svou otázku, jakmile má otázka odpovědi, <

Nemusíte je mazat, takže otázka – platná otázka s platnými odpověďmi – by měla zůstat, i když to ' není to, na co jste se chtěli zeptat . Navrhuji ' začít novou otázku několika základními koncepty; může se stát, že mnoho vašich současných intuic neplatí '.

  • Je to ' jasnější otázka a bylo dobré se zeptat. Problém však bohužel spočívá v tom, že jste ' dramaticky změnili otázku způsobem, který zneplatňuje odpovědi, které jste dostali (ta druhá docela úplně, moje částečně). Proč by to nemělo být jednoduše vráceno zpět, jak to stálo, když dostalo tyto odpovědi?
  • Namísto odstranění toho, co jste měli dříve, můžete na konec přidat revidovanou otázku a ponechat originál pro kontextu, takže druhá odpověď stále vypadá, že odpovídá na otázku. Je ' sotva fér dát Timovi ' s původně platnou odpověď nebezpečí, že bude označen jako " není odpověď " (a poté smazaná), když jeho odpověď reagovala na důležitou část toho, co jste původně požadovali. Snadný způsob je zkopírovat to, co nyní máte (například do okna poznámkového bloku), vrátit dotaz zpět, pak upravit a znovu vložit nový obsah (a přidat jakékoli vysvětlení změny, kterou považujete za nezbytnou).
  • (a), žádné srovnání s myšmi přišlo později v diskusi. V době, kdy jste to nazvali, " velmi jednotné " nebyly zmínky o myších. (b) Ne, ' neexistuje žádný vztah mezi průměrem a sd pro normální distribuce obecně; normální je rodina v měřítku polohy. Existuje například exponenciální rozdělení. …(ctd)
  • Odpověď

    Autor: Čebyšev nerovnost víme, že pravděpodobnost, že některé $ x $ budou $ k $ krát $ \ sigma $ ze střední hodnoty, je maximálně $ \ frac {1} {k ^ 2} $:

    $$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

    Při vytváření některých distribučních předpokladů však můžete být přesnější, např. Normální aproximace vede k pravidlu 68–95–99,7 . Obecně pomocí jakékoli kumulativní distribuční funkce můžete vyberte nějaký interval, který by měl zahrnovat určité procento případů. Volba šířky intervalu spolehlivosti je však subjektivním rozhodnutím, jak je popsáno v tomto vlákně .

    Příklad
    Nejintuitivnějším příkladem, který mě napadá, je inteligence . Inteligence je něco, co nelze měřit přímo, my nemají přímé „jednotky“ inteligence (mimochodem, centimetry nebo stupně Celsia jsou také nějak libovolné). Testy inteligence jsou hodnoceny tak, že mají průměr 100 a směrodatnou odchylku 15. Co nám to říká? Známe-li průměr a směrodatnou odchylku, můžeme snadno odvodit, která skóre lze považovat za „nízké“, „průměrné“ nebo „vysoké“. Jako „průměrné“ můžeme klasifikovat takové skóre, které získá většina lidí (řekněme 50%), vyšší skóre lze klasifikovat jako „nadprůměrné“, neobvykle vysoké skóre lze klasifikovat jako „nadřazené“ atd., To znamená následující tabulka .

    Wechsler (WAIS – III) Klasifikace IQ testu 1997 Rozsah IQ („odchylka IQ“)

    IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 

    (Zdroj: https://en.wikipedia.org/wiki/IQ_classification )

    Takže směrodatná odchylka nám říká, jak daleko můžeme předpokládat, že jednotlivé hodnoty jsou vzdálené od průměru. $ \ Sigma $ můžete považovat za bezjednotkovou vzdálenost od průměru. Pokud uvažujete o pozorovatelných skóre, řekněme skóre testů inteligence, pak znalost standardních odchylek vám umožní snadno odvodit, jak daleko (kolik $ \ sigma $ „) leží nějaká hodnota od průměru, a tedy jak běžná nebo neobvyklá je. subjektivní, kolik $ \ sigma $ se kvalifikuje jako „daleko“, ale lze to snadno kvalifikovat uvažováním o pravděpodobnosti pozorování hodnot ležících v určité vzdálenosti od průměru.

    To je zřejmé, pokud podívejte se, co je to rozptyl ($ \ sigma ^ 2 $)

    $$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$

    … očekávaná (průměrná) vzdálenost $ X $ od $ \ mu $. Pokud se divíte, můžete si zde přečíst proč je to na druhou .

    Komentáře

    • Vaše interpretace průměru vyžaduje normálnost. IQ není normálně distribuováno (ocasy jsou silnější a křivka je zkosená). Proto pravidlo 3-sigma neplatí. Vaše interpretace je také kruhová, protože klasifikace IQ je náhodně založena na SD a nemůže SD vysvětlit.

    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *