Jak vypočítat standardní chybu průměru (SEM) za více časových bodů

Tady je můj dotaz.

Mám 6 účastníci, kde se odečty glukózy odečítají za 30 minut, 60 … až 150 minut. Celkově tedy mám 30 datových bodů.

Pro každý časový úsek jsem vypočítal průměrnou hodnotu glukózy pro všech 6 účastníků např. 1. průměr účastníků za 30 minut je 7,96, SD je 0,92, SEM je 0,38 2. průměr účastníků za 60 minut je 7,68, SD je 0,93, SEM je 0,38

Ostatní hodnoty SEM jsou 0,27 , 0,35, 0,25.

Nyní pro statistický výpočet potřebuji vypočítat průměr ± SEM za všechny datové body .. Průměr je snadný – stačí průměr všech 30. Ale pro SEM, pokud se pokusím k výpočtu pomocí normální metody aplikace Excel skončím s hodnotou 0,089 .. což mi při hlášení dává 7,79 ± 0,08. Což je na to zjevně příliš malé, protože hodnoty se pohybují od 6,69 do 9,17.

Existuje nějaký výpočet, který mi chybí? Měl bych pouze sčítat / zprůměrovat SEM pro časové body?

Předem děkuji!

Podařilo se nahrát obrázek datové tabulky:

Komentáře

Mohli byste přesně objasnit co potřebujete nahlásit? Jak @Cherny navrhuje přesný způsob, jak to udělat, závisí na přesné otázce, na kterou musíte odpovědět. Pokud si nejste jisti, uveďte jakékoli pokyny, které máte, nebo jakou otázku chcete pomocí této analýzy vyřešit.

Odpovědět

Standardní chyba je standardní odchylka odhadce ; SEM tedy vzniká, když používáte průměr vzorku jako odhad skutečného základního průměru populace. V takovém případě bude odhadovaná standardní chyba obecně mnohem menší než standardní směrodatná odchylka původních datových bodů, protože průměrný odhad je méně variabilní než samotná data.

Chcete-li zjistit, jak to konkrétněji funguje , ať $ X_1, …, X_n \ sim \ text {IID Dist} $ jsou vaše pozorovatelné hodnoty vzorku a nechte $ \ bar {X} = \ sum_ {i = 1} ^ n X_i / n $ být výsledným vzorkem střední hodnota, která se považuje za odhad základní populace střední hodnota $ \ mu = \ mathbb {E} (X_i) $. Necháme-li jako základní populační rozptyl $ \ sigma ^ 2 = \ mathbb {V} (X_i) $, pak skutečná standardní chyba vzorového průměru je:

$$ \ begin {rovnice} \ begin {zarovnáno} \ text {se} \ ekviv \ text {se} (\ bar {X}) \ equiv \ mathbb {S} (\ bar {X}) & = \ sqrt {\ mathbb {V} (\ bar {X})} \\ [6pt] & = \ sqrt {\ mathbb {V} \ Big (\ frac {1} { n} \ sum_ {i = 1} ^ n X_i \ Big)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ { i = 1} ^ n \ mathbb {V} (X_i)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ {i = 1} ^ n \ sigma ^ 2} \\ [6pt] & = \ sqrt {\ frac {n \ sigma ^ 2} {n ^ 2}} \\ [6pt ] & = \ sqrt {\ frac {\ sigma ^ 2} {n}} \\ [6pt] & = \ frac { \ sigma ^ 2} {\ sqrt {n}}. \\ [6pt] \ end {aligned} \ end {equation} $$

Nahrazením neznámého paraetru $ \ sigma $ pozorovatelnou standardní směrodatnou odchylkou $ s $ se získá odhadovaná standardní chyba :

$$ \ widehat {\ text {se}} = \ frac {s ^ 2} {\ sqrt {n}}. $$

Odhadovaná standardní chyba je ne odhad rozptylu podkladové údaje; jedná se o odhad rozptylu odhadce ve vašem problému, což je v tomto případě průměr vzorku. Vzhledem k tomu, že průměrné průměry vzorku přes všechny pozorované hodnoty, je mnohem méně variabilní než tyto počáteční hodnoty. Z výše uvedeného výsledku konkrétně vidíme, že odhadovaná standardní chyba průměru se rovná vzorové směrodatné odchylce podkladových dat vydělené $ \ sqrt {n} $. Nyní, samozřejmě, jak se $ n $ zvětšuje, bude SEM podstatně menší než standardní směrodatná odchylka podkladových dat.

Jakmile vypočítáte odhadovaný SEM, je obvyklé použít toto k dát interval spolehlivosti pro skutečnou základní populaci znamenat $ \ mu $ při určité zadané úrovni spolehlivosti $ 1- \ alpha $. To lze provést pomocí standardního vzorce intervalu pro střední hodnotu populace:

$$ \ text {CI} _ \ mu (1- \ alpha) = \ Big [\ bar {X} \ pm t_ { n-1, \ alpha / 2} \ cdot \ widehat {se} \ Big] = \ Big [\ bar {X} \ pm \ frac {t_ {n-1, \ alpha / 2}} {\ sqrt {n }} \ cdot s \ Big]. $$

Na rozdíl od cíle uvedeného ve vaší otázce, nikdy není dobrý nápad interval nahlásit $ \ bar {X} \ pm \ widehat {se} $; toto je jen interval spolehlivosti s použitím zvláštního požadavku, že $ t_ {n-1, \ alpha / 2} = 1 $, což je pro vašeho čtenáře pravděpodobně zavádějící. Místo toho byste měli zvolit rozumnou úroveň spolehlivosti $ 1- \ alpha $ a poskytnout správný interval spolehlivosti a hlásit svou úroveň spolehlivosti čtenáři.

Aplikace na vaše data: Z vaší analýzy vyplývá, že se snažíte agregovat vaše data, ignorují se proměnné časové hodnoty, a proto je analyzujete jako jediný vzorek IID. To není nutně nejlepší způsob, jak analyzovat data, ale budu postupovat tímto způsobem, abych použil vaši metodu, abych se zaměřil na aspekty SEM ve vaší otázce. Na tomto základě máte $ n = 30 $ a $ s = 0,7722 $ (což jsem vypočítal z třiceti hodnot v tabulce). Odhadovaná standardní chyba průměru by pak měla být $ \ widehat {\ text {se}} = 0,7722 / \ sqrt {30} = 0,1410 $. Není mi jasné, jak jste ve své otázce uvedli opačnou hodnotu.

V každém případě můžete vidět, že odhadovaná standardní chyba $ \ widehat {\ text {se}} = 0,1410 $ je podstatně nižší než standardní směrodatná odchylka $ s = 0,7722 $. Jak je uvedeno výše, to není překvapující, protože první z nich je odhadovaná standardní odchylka střední hodnoty vzorku a střední hodnota vzorku je méně variabilní kvůli průměrování přes více datových bodů. Vezmeme-li $ \ alpha = 0,05 $, získáme $ t_ {n-1, \ alpha / 2} = t_ {29,0,025} = 2,0452 $, takže výsledný interval spolehlivosti $ 95 $% pro skutečný průměr populace je:

$$ \ text {CI} _ \ mu (0,95) = \ velký [7,7920 \ pm 2,0452 \ cdot 0,1410 \ velký] = \ velký [7,7920 \ pm 0,2884 \ velký] = \ velký [7,5038, 8,0804 \ Velké]. $$

Jak již bylo uvedeno, tato analýza ignoruje časová data a jednoduše zachází se všemi hodnotami jako s jedním vzorkem IID, takže je důležité si uvědomit, že tento interval spolehlivosti závisí na tom, jak data (což se zdá být tím, co sledujete). Toto není nejlepší forma analýzy; lepším přístupem by bylo použití časové proměnné v regresním modelu.

Odpověď

Všimněte si, že SEM není chybou vzorky ve srovnání s průměrem, je to STD průměrných odhadů.

Aby bylo jasnější, STD distribuce by měla zůstat přibližně stejná, jako byste šli do velkého počtu vzorků, ale průměrný odhadce ve skutečnosti konverguje a jeho chyba se změní na 0.

Komentáře

Odpovědět

Odpověď

Napsat komentář Zrušit odpověď na komentář