Oto moje zapytanie.
Mam 6 uczestników, w przypadku których odczyty glukozy są wykonywane co 30 minut, 60 … do 150 minut. Dlatego w sumie mam 30 punktów danych
Dla każdego przedziału czasowego obliczyłem średni odczyt glukozy dla wszystkich 6 uczestników np. 1. średnia uczestników po 30 minutach wynosi 7,96, SD wynosi 0,92, SEM wynosi 0,38 2. Średnia uczestników po 60 minutach wynosi 7,68, SD wynosi 0,93, SEM wynosi 0,38
Pozostałe wartości SEM to 0,27 , 0,35, 0,25.
Teraz do obliczenia statystycznego muszę obliczyć średnią ± SEM ze wszystkich punktów danych. Średnia jest łatwa – po prostu uśrednij wszystkie 30. Ale jeśli spróbuję aby obliczyć to normalną metodą Excela, otrzymuję wartość 0,089 .. co przy raportowaniu daje mi 7,79 ± 0,08. Co jest oczywiście za małe, ponieważ wartości mieszczą się w przedziale 6,69-9,17.
Czy jest jakieś obliczenie, którego mi brakuje? Czy mam po prostu podsumować / uśrednić SEM dla punktów czasowych?
Z góry dziękuję!
Udało mi się przesłać zdjęcie tabeli danych:
Komentarze
- Czy mógłbyś dokładnie wyjaśnić co musisz zgłosić? Jak sugeruje @Cherny, dokładny sposób, w jaki to zrobisz, zależy od dokładnego pytania, na które musisz odpowiedzieć. Jeśli nie jesteś pewien, podaj wszelkie wskazówki lub pytanie, które chcesz odpowiedzieć w tej analizie.
Odpowiedź
błąd standardowy to odchylenie standardowe estymatora ; SEM powstaje zatem, gdy używasz średniej próbki jako estymatora prawdziwej średniej populacji bazowej. W takim przypadku szacowany błąd standardowy będzie na ogół znacznie mniejszy niż odchylenie standardowe próbki oryginalnych punktów danych, ponieważ średni estymator jest mniej zmienny niż same dane.
Aby zobaczyć, jak to działa bardziej szczegółowo niech $ X_1, …, X_n \ sim \ text {IID Dist} $ będą obserwowalnymi wartościami próbki i niech $ \ bar {X} = \ sum_ {i = 1} ^ n X_i / n $ będzie próbką wynikową mean, która jest traktowana jako estymator populacji bazowej, średnia $ \ mu = \ mathbb {E} (X_i) $. Jeśli przyjmiemy, że podstawową wariancją populacji będzie $ \ sigma ^ 2 = \ mathbb {V} (X_i) $, to prawdziwy błąd standardowy średniej próbki to:
$$ \ begin {equation} \ begin {aligned} \ text {se} \ equiv \ text {se} (\ bar {X}) \ equiv \ mathbb {S} (\ bar {X}) & = \ sqrt {\ mathbb {V} (\ bar {X})} \\ [6pt] & = \ sqrt {\ mathbb {V} \ Big (\ frac {1} { n} \ sum_ {i = 1} ^ n X_i \ Big)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ { i = 1} ^ n \ mathbb {V} (X_i)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ {i = 1} ^ n \ sigma ^ 2} \\ [6pt] & = \ sqrt {\ frac {n \ sigma ^ 2} {n ^ 2}} \\ [6pt ] & = \ sqrt {\ frac {\ sigma ^ 2} {n}} \\ [6pt] & = \ frac { \ sigma ^ 2} {\ sqrt {n}}. \\ [6pt] \ end {aligned} \ end {equation} $$
Zastępowanie nieznanego parametru $ \ sigma $ obserwowalnym odchyleniem standardowym próbki $ s $ daje szacowany błąd standardowy :
$$ \ widehat {\ text {se}} = \ frac {s ^ 2} {\ sqrt {n}}. $$
Szacowany błąd standardowy to , a nie oszacowanie rozproszenia podstawowe dane; jest to oszacowanie rozrzutu estymatora w twoim problemie, który jest w tym przypadku średnią z próby. Ponieważ średnie próbki ze wszystkich obserwowanych wartości są znacznie mniej zmienne niż te wartości początkowe. W szczególności z powyższego wyniku widać, że szacowany błąd standardowy średniej jest równy odchyleniu standardowemu próbki danych bazowych podzielonemu przez $ \ sqrt {n} $. Teraz, oczywiście, gdy $ n $ wzrośnie, SEM będzie znacznie mniejszy niż odchylenie standardowe próbki danych bazowych.
Po obliczeniu szacunkowej SEM zwykle używa się tego do podaj przedział ufności dla prawdziwej średniej populacji bazowej $ \ mu $ na określonym poziomie ufności $ 1- \ alpha $. Można to zrobić za pomocą standardowego wzoru na interwał dla średniej populacji:
$$ \ text {CI} _ \ mu (1- \ alpha) = \ Big [\ bar {X} \ pm t_ { n-1, \ alpha / 2} \ cdot \ widehat {se} \ Big] = \ Big [\ bar {X} \ pm \ frac {t_ {n-1, \ alpha / 2}} {\ sqrt {n }} \ cdot s \ Big]. $$
W przeciwieństwie do celu podanego w pytaniu, nigdy nie jest dobrym pomysłem zgłaszanie interwału $ \ bar {X} \ pm \ widehat {se} $; jest to tylko przedział ufności wykorzystujący dziwne wymaganie, aby $ t_ {n-1, \ alpha / 2} = 1 $, co prawdopodobnie wprowadzi czytelnika w błąd. Zamiast tego powinieneś wybrać rozsądny poziom ufności $ 1- \ alpha $ i podać odpowiedni przedział ufności, zgłaszając swój poziom ufności czytelnikowi.
Zastosowanie do Twoich danych: Z analizy wynika, że chcesz zagregować Twoje dane, ignorując współzmienne wartości czasu, a tym samym analizując je jako pojedynczą próbkę IID. Niekoniecznie jest to najlepszy sposób analizy danych, ale będę postępować w ten sposób, aby skorzystać z Twojej metody i skupić się na aspektach SEM w Twoim pytaniu. Na tej podstawie masz $ n = 30 $ i $ s = 0,7722 $ (które obliczyłem z trzydziestu wartości w twojej tabeli). Szacunkowy błąd standardowy średniej powinien zatem wynosić $ \ widehat {\ text {se}} = 0,7722 / \ sqrt {30} = 0,1410 $. Nie jest dla mnie jasne, w jaki sposób otrzymałeś przeciwną wartość w swoim pytaniu.
W każdym razie możesz zobaczyć, że szacowany błąd standardowy $ \ widehat {\ text {se}} = 0,1410 $ jest zasadniczo niższe niż odchylenie standardowe próby $ s = 0,7722 $. Jak zauważono powyżej, nie jest to zaskakujące, ponieważ to pierwsze jest szacowanym odchyleniem standardowym średniej próbki, a średnia próbki jest mniej zmienna ze względu na uśrednianie w wielu punktach danych. Biorąc $ \ alpha = 0,05 $, otrzymujemy $ t_ {n-1, \ alpha / 2} = t_ {29,0.025} = 2,0452 $, więc wynikowy przedział ufności 95 $% dla prawdziwej średniej populacji to:
$$ \ text {CI} _ \ mu (0.95) = \ Big [7.7920 \ pm 2.0452 \ cdot 0.1410 \ Big] = \ Big [7,7920 \ pm 0.2884 \ Big] = \ Big [7,5038, 8.0804 \ Duży]. $$
Jak już wspomniano, ta analiza ignoruje dane dotyczące czasu i po prostu traktuje wszystkie wartości jako jedną próbkę IID, dlatego ważne jest, aby pamiętać, że ten przedział ufności zależy od traktowania dane (które wydają się być tym, czego szukasz). To nie jest najlepsza forma analizy; lepszym podejściem byłoby użycie współzmiennej czasu w modelu regresji.
Odpowiedź
Zauważ, że SEM nie jest błędem próbki w porównaniu do średniej, jest to STD średnich estymatorów.
Aby było jaśniej, STD rozkładu powinno pozostać mniej więcej takie same, jak w przypadku dużej liczby próbek, ale średni estymator w rzeczywistości jest zbieżna i błąd idzie do 0.