Omówienie nowego pytania:
Na przykład, jeśli chcę zbadać rozmiar ludzkiego ciała i stwierdzę, że rozmiar ciała dorosłego człowieka ma odchylenie 2 cm, prawdopodobnie wnioskowałbym, że rozmiar ciała dorosłego człowieka jest bardzo jednolity
To zależy od tego, do czego porównujemy. Co to jest standard porównania, który czyni to bardzo jednolitym? Jeśli porównasz to ze zmiennością długości śrub dla określonego typu śruby, która może być bardzo zmienna.
, podczas gdy standardowe odchylenie 2 cm w wielkość myszy oznaczałaby, że myszy zaskakująco różnią się wielkością ciała.
Z pewnością w porównaniu z tym samym w twoim bardziej jednolitym przykładzie z ludźmi; jeśli chodzi o długości rzeczy, które mogą być tylko dodatnie, prawdopodobnie bardziej sensowne jest porównanie współczynnika zmienności (jak wskazałem w mojej oryginalnej odpowiedzi), co jest tym samym, co porównanie sd, co oznacza, że sugerujesz tutaj .
Oczywiście znaczenie odchylenia standardowego polega na jego relacji do średniej,
Nie, nie zawsze. W przypadku rozmiarów rzeczy lub ilości rzeczy (np. tonaż węgla, ilość pieniędzy) często ma to sens, ale w innych kontekstach nie ma sensu porównywanie ze średnią.
Nawet wtedy „nie zawsze są one porównywalne z jednej rzeczy do drugiej.” Nie ma żadnego standardu obejmującego wszystkie rzeczy jak zmienne jest coś, zanim będzie zmienną.
i odchylenie standardowe około jednej dziesiątej średniej nie jest niczym niezwykłym (np. dla IQ: SD = 0,15 * M).
Które rzeczy tu porównujemy? Długości do IQ ? Dlaczego warto porównywać jeden zestaw rzeczy z innym? Zauważ, że wybór średniej 100 i sd 15 dla jednego rodzaju testu IQ jest całkowicie arbitralny. Nie mają jednostek. Równie dobrze mogłoby to być średnie 0 sd 1 lub średnie 0.5 i sd 0.1.
Ale co jest uważane za „małe”, a co za „duże”, jeśli chodzi o relację między odchyleniem standardowym a średnią?
Już omówione w mojej pierwotnej odpowiedzi, ale bardziej elokwentnie opisane w komentarzu whubera – nie ma jednego standardu i nie można być.
Niektóre z moich uwag na temat Cohena nadal odnoszą się do tego przypadku (sd względem średniej jest co najmniej bez jednostek); ale nawet w przypadku czegoś takiego jak powiedzmy Cohena, odpowiedni standard w jednym kontekście niekoniecznie jest odpowiedni w innym.
Odpowiedzi do wcześniejszej wersji
Zawsze obliczamy i podajemy średnie i odchylenia standardowe.
Cóż, może często; Nie wiem, czy zawsze to robię. Są przypadki, w których nie jest to aż tak istotne.
Ale co właściwie oznacza wielkość wariancji?
Odchylenie standardowe to rodzaj średniej * odległości od średniej. Wariancja to kwadrat odchylenie standardowe. Odchylenie standardowe jest mierzone w tych samych jednostkach co dane; wariancja jest w jednostkach do kwadratu.
* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )
Mówią ci coś o tym, jak„ rozłożone ”są dane (lub rozkład, w przypadku, gdy obliczasz sd lub wariancję dystrybucja).
Załóżmy na przykład, że obserwujemy, które miejsce zajmują ludzie w pustym pokoju. Jeśli zauważymy, że większość ludzi siedzi blisko okna z niewielkimi odchyleniami,
To nie jest dokładnie przypadek nagrywania „które miejsce”, ale rejestrowanie „odległości od okna”. (Wiedząc, że „większość siedzi blisko okna”, niekoniecznie mówi ci nic o średniej ani o jej zmienności. Mówi ci, że mediana odległość od okna musi być mała.)
możemy założyć, że oznacza to, że ludzie generalnie wolą siedzieć blisko okna i mieć widok lub dostatecznie dużo światła jest głównym czynnikiem motywującym do wyboru miejsca.
To, że mediana jest mała, nie mówi samo w sobie. Możesz to wywnioskować z innych rozważań, ale mogą być różne przyczyny to, że nie możemy „w żaden sposób odróżnić od danych.
Jeśli z drugiej strony zaobserwujemy, że podczas gdy największa część znajduje się blisko okna istnieje duże zróżnicowanie z innymi miejscami zajmowanymi również często (np. wielu siedzi blisko drzwi, inni siedzą blisko dystrybutora wody lub gazet), możemy założyć, że chociaż wiele osób woli siedzieć blisko okna, wydaje się, że więcej czynników niż światło lub widok, które wpływają na wybór miejsca siedzącego i różne preferencje u różnych ludzi.
Ponownie, „przenosisz informacje poza danymi; może mieć zastosowanie albo nie. Z tego co wiemy, światło jest lepsze daleko od okna, ponieważ dzień jest pochmurny lub rolety są zaciągnięte.
Przy jakich wartościach c a mówimy, że obserwowane przez nas zachowanie jest bardzo zróżnicowane (różni ludzie lubią siedzieć w różnych miejscach)?
To, co sprawia, że odchylenie standardowe jest duże lub małe, nie jest określane przez jakąś zewnętrzną normę, ale przez względy tematyczne i do pewnego stopnia to, z czym „robisz” dane, a nawet czynniki osobiste.
Jednak przy dodatnich pomiarach, takich jak odległości, czasami istotne jest rozważenie odchylenia standardowego w stosunku do średniej (współczynnik zmienności); to nadal jest arbitralne, ale rozkłady ze współczynnikami zmienności znacznie mniejszymi niż 1 (odchylenie standardowe znacznie mniejsze niż średnia) są w pewnym sensie „inne” niż te, w których jest znacznie większe niż 1 (odchylenie standardowe znacznie większe niż średnia , które często są mocno przekrzywione w prawo).
A kiedy możemy wywnioskować, że zachowanie jest przeważnie jednolite (każdy lubi siedzieć przy oknie)
Uważaj na używanie słowa „jednolity” w tym znaczeniu, ponieważ łatwo jest błędnie zinterpretować Twoje znaczenie (np. jeśli powiem, że ludzie są) równomiernie siedzący w pokoju ”, co oznacza prawie przeciwieństwo tego, co masz na myśli). Mówiąc bardziej ogólnie, podczas omawiania statystyk, generalnie unikaj używania żargonu w ich zwykłym znaczeniu.
a niewielkie zróżnicowanie, które pokazują nasze dane, jest w większości wynikiem przypadkowych efektów lub czynników zakłócających (brud na jednym krześle, przesunięcie słońca i więcej cienia z tyłu itp.)?
Nie, ponownie „wprowadzasz zewnętrzne informacje do wielkości statystycznej, o której mówisz”. Wariancja nie mówi nic takiego.
Czy istnieją wytyczne dotyczące oceny wielkości wariancji w danych, podobne do wytycznych Cohena dotyczących interpretacji wielkości efektu (korelacja 0,5 jest duża, 0,3 jest umiarkowane, a 0,1 to małe)?
Nie ogólnie, nie.
-
Cohen „s dyskusja [1] na temat rozmiarów efektów jest bardziej zniuansowana i sytuacyjna, niż wskazałeś; podaje tabelę 8 różnych wartości małych, średnich i dużych, w zależności od tego, jaki rodzaj rzeczy jest omawiany. Te liczby, które podajesz, odnoszą się do różnic w niezależnych średnich (d) Cohena .
-
Wszystkie rozmiary efektów Cohena są skalowane tak, aby były wielkościami bez jednostek . Odchylenie standardowe i wariancja nie są – zmień jednostki, a oba ulegną zmianie.
-
Efekty Cohena mają zastosowanie w określonym obszarze zastosowania (i nawet wtedy uważam zbytnio skupiać się na tych standardach, które są „małe, średnie i duże, jako zarówno nieco arbitralne, jak i nieco bardziej nakazowe, niż bym chciał). Są one mniej lub bardziej rozsądne ze względu na zamierzony obszar zastosowania, ale mogą być całkowicie nieodpowiednie w innych obszarach (Na przykład fizyka wysokich energii często wymaga efektów, które obejmują wiele standardowych błędów, ale odpowiedniki wielkości efektu Cohena mogą być o wiele rzędów wielkości większe niż to, co jest osiągalne).
Na przykład, jeśli 90% (lub tylko 30%) obserwacji mieści się w jednym odchyleniu standardowym od średniej, jest to rzadkie lub zupełnie nietypowe ?
Ach, zwróć uwagę, że teraz przestałeś omawiać wielkość odchylenia standardowego / wariancji i zacząłeś omawiać Odsetek obserwacji w ramach jednego odchylenia standardowego średniej, zupełnie inna koncepcja. Mówiąc z grubsza, jest to bardziej związane ze szczytem rozkładu.
Na przykład, nie zmieniając w ogóle wariancji, mogę dość łatwo zmienić proporcję populacji w granicach 1 sd średniej. Jeśli populacja ma rozkład $ t_3 $, około 94% z niego leży w obrębie 1 sd średniej, jeśli ma rozkład równomierny, około 58% leży w 1 sd średniej; a przy rozkładzie beta ($ \ frac18, \ frac18 $) jest to około 29%; może się to zdarzyć, gdy wszystkie z nich mają takie same odchylenia standardowe lub którekolwiek z nich są większe lub mniejsze bez zmiany tych wartości procentowych – nie jest tak naprawdę związane z rozrzutem, ponieważ zdefiniowałeś ten przedział w kategoriach odchylenia standardowego.
[1]: Cohen J. (1992),
„Elementarz mocy”,
Psychol Bull. , 112 (1), lipiec: 155–9.
Komentarze
Autor: Czebyszewa ” nierówność wiemy, że prawdopodobieństwo, że jakieś $ x $ będzie $ k $ razy $ \ sigma $ od średniej wynosi co najwyżej $ \ frac {1} {k ^ 2} $:
$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$
Jednak przyjmując pewne założenia dotyczące dystrybucji, możesz być bardziej precyzyjny, np. Normalny przybliżenie prowadzi do reguły 68–95–99,7 . Generalnie za pomocą dowolnej funkcji rozkładu skumulowanego można wybierz przedział, który powinien obejmować określony procent przypadków. Jednak wybór szerokości przedziału ufności jest subiektywną decyzją, jak omówiono w tym wątku .
Przykład
Najbardziej intuicyjnym przykładem, jaki przychodzi mi do głowy, jest inteligencja . Inteligencja to coś, czego nie można zmierzyć bezpośrednio. nie mają bezpośrednich „jednostek” inteligencji (nawiasem mówiąc, centymetrów lub stopnie Celsjusza są w jakiś sposób arbitralne). Testy inteligencji są punktowane tak, że mają średnią równą 100 i odchylenie standardowe 15. Co nam to mówi? Znając średnią i odchylenie standardowe, możemy łatwo wywnioskować, które wyniki można uznać za „niskie”, „średnie” lub „wysokie”. Jako „średnie” możemy zaklasyfikować takie wyniki, które uzyskuje większość ludzi (powiedzmy 50%), wyższe wyniki można sklasyfikować jako „powyżej średniej”, niezbyt często wysokie wyniki można zaklasyfikować jako „lepsze” itp., Co przekłada się na poniższą tabelę .
Wechsler (WAIS – III) 1997 Klasyfikacja testu IQ IQ Range („IQ odchylenia”)
IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low
(Źródło: https://en.wikipedia.org/wiki/IQ_classification )
Odchylenie standardowe mówi nam, jak daleko możemy przyjąć, że poszczególne wartości są odległe od średniej. Możesz myśleć o $ \ sigma $ jako o bezjednostkowej odległości od średniej. Jeśli myślisz o możliwych do zaobserwowania wynikach, powiedzmy wynikach testów inteligencji, to znajomość odchyleń standardowych pozwala łatwo wywnioskować, jak daleko (o ile $ \ sigma $ „s) leży jakaś wartość od średniej, a więc jak częste lub rzadkie jest to. subiektywne, ile $ \ sigma $ „s kwalifikuje się jako” daleko „, ale można to łatwo określić, myśląc w kategoriach prawdopodobieństwa zaobserwowania wartości leżących w pewnej odległości od średniej.
Jest to oczywiste, jeśli zobacz, jaka jest wariancja ($ \ sigma ^ 2 $)
$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$
… oczekiwana (średnia) odległość $ X $ „s od $ \ mu $. Jeśli się zastanawiasz, to tutaj możesz przeczytać dlaczego jest do kwadratu .
Komentarze