Sådan beregnes standardfejlen for middelværdien (SEM) over flere tidspunkter

Her er min forespørgsel.

Jeg har 6 deltagere, hvor glukoseaflæsninger tages 30 minutter, 60 .. op til 150 minutter. Derfor har jeg i alt 30 datapunkter

For hver tidsperiode har jeg beregnet en gennemsnitlig glukoseaflæsning for alle 6 deltagere fx 1. gennemsnit af deltagere ved 30 minutter er 7,96, SD er 0,92, SEM er 0,38 2. gennemsnit af deltagere ved 60 minutter er 7,68, SD er 0,93, SEM er 0,38

De andre SEM-værdier er 0,27 , 0,35, 0,25.

For en statistisk beregning skal jeg nu beregne gennemsnittet ± SEM over alle datapunkter. Gennemsnittet er let – bare gennemsnitligt alle 30. Men for SEM, hvis jeg prøver for at beregne det via den normale excel-metode ender jeg med en værdi på 0,089 .. som ved rapportering giver mig 7,79 ± 0,08, hvilket naturligvis er for lille til dette, da værdierne spænder fra 6,69-9,17.

Er der en beregning, som jeg mangler? Skal jeg bare opsummere / beregne SEM for tidspunkterne?

Tak på forhånd!

Det lykkedes at uploade et billede af datatabellen:

Kommentarer

Kunne du præcisere nøjagtigt hvad skal du rapportere? Som @Cherny antyder den nøjagtige måde, du gør dette på, afhænger af det nøjagtige spørgsmål, du skal besvare. Hvis du ikke er sikker, bedes du give den vejledning, du har, eller hvilket spørgsmål du søger at tage op med denne analyse

Svar

standardfejl er standardafvigelsen for en estimator ; SEM opstår derfor, når du bruger stikprøveværdien som en estimator af det sande underliggende populationsgennemsnit. I dette tilfælde vil den anslåede standardfejl generelt være meget mindre end prøvestandardafvigelsen for de originale datapunkter, da den gennemsnitlige estimator er mindre variabel end selve dataene.

For at se hvordan dette fungerer mere specifikt , lad $ X_1, …, X_n \ sim \ text {IID Dist} $ være dine observerbare prøveværdier, og lad $ \ bar {X} = \ sum_ {i = 1} ^ n X_i / n $ være den resulterende prøve middelværdi, der anses for at være en estimator af den underliggende befolkning betyder $ \ mu = \ mathbb {E} (X_i) $. Hvis vi lader $ \ sigma ^ 2 = \ mathbb {V} (X_i) $ være den underliggende populationsvarians, så er den sande standardfejl i prøve middelværdien:

$$ \ begin {ligning} \ begin {align} \ text {se} \ equiv \ text {se} (\ bar {X}) \ equiv \ mathbb {S} (\ bar {X}) & = \ sqrt {\ mathbb {V} (\ bar {X})} \\ [6pt] & = \ sqrt {\ mathbb {V} \ Big (\ frac {1} { n} \ sum_ {i = 1} ^ n X_i \ Big)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ { i = 1} ^ n \ mathbb {V} (X_i)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ {i = 1} ^ n \ sigma ^ 2} \\ [6pt] & = \ sqrt {\ frac {n \ sigma ^ 2} {n ^ 2}} \\ [6pt ] & = \ sqrt {\ frac {\ sigma ^ 2} {n}} \\ [6pt] & = \ frac { \ sigma ^ 2} {\ sqrt {n}}. \\ [6pt] \ end {align} \ end {ligning} $$

Ved at erstatte den ukendte paraeter $ \ sigma $ med den observerbare prøve standardafvigelse $ s $ giver estimeret standardfejl :

$$ \ widehat {\ text {se}} = \ frac {s ^ 2} {\ sqrt {n}}. $$

Den anslåede standardfejl er ikke et skøn over spredningen af de underliggende data det er et skøn over spredningen af estimatoren i dit problem, hvilket er eksemplets gennemsnit i dette tilfælde. Da gennemsnittet af stikprøven er gennemsnitlig over alle de observerede værdier, er den meget mindre variabel end de oprindelige værdier. Specifikt kan vi se fra ovenstående resultat, at den estimerede standardfejl af middelværdien er lig med prøvestandardafvigelsen for de underliggende data divideret med $ \ sqrt {n} $. Nu, selvfølgelig, når $ n $ bliver større, vil SEM være væsentligt mindre end prøvestandardafvigelsen for de underliggende data.

Når du har beregnet det estimerede SEM, er det normalt at bruge dette til give et konfidensinterval for den sande underliggende population betyder $ \ mu $ på et bestemt konfidensniveau $ 1- \ alpha $. Dette kan gøres ved hjælp af standardintervalformlen for et populationsmiddel:

$$ \ text {CI} _ \ mu (1- \ alpha) = \ Big [\ bar {X} \ pm t_ { n-1, \ alpha / 2} \ cdot \ widehat {se} \ Big] = \ Big [\ bar {X} \ pm \ frac {t_ {n-1, \ alpha / 2}} {\ sqrt {n }} \ cdot s \ Big]. $$

I modsætning til det mål, der er angivet i dit spørgsmål, er det aldrig en god ide at rapportere intervallet $ \ bar {X} \ pm \ widehat {se} $; dette er bare et konfidensinterval, der bruger det mærkelige krav, at $ t_ {n-1, \ alpha / 2} = 1 $, hvilket sandsynligvis vil være vildledende for din læser. I stedet skal du vælge et fornuftigt konfidensniveau $ 1- \ alpha $ og give et korrekt konfidensinterval og rapportere dit konfidensniveau til din læser.

Anvendelse på dine data: Det fremgår af din analyse, at du søger at samle dine data, ignorerer tidsværdierne, og analyserer dem derfor som en enkelt IID-prøve. Dette er ikke nødvendigvis den bedste måde at analysere dataene på, men jeg vil fortsætte på denne måde for at bruge din metode til at fokusere på aspekterne af SEM i dit spørgsmål. På dette grundlag har du $ n = 30 $ og $ s = 0.7722 $ (som jeg beregnet ud fra de tredive værdier i din tabel). Den estimerede standardfejl for middelværdien skal derefter være $ \ widehat {\ text {se}} = 0.7722 / \ sqrt {30} = 0.1410 $. Det er uklart for mig, hvordan du fik den modsatte værdi rapporteret i dit spørgsmål.

Under alle omstændigheder kan du se, at den estimerede standardfejl $ \ widehat {\ text {se}} = 0,1410 $ er i det væsentlige lavere end prøven standardafvigelse $ s = 0,7722 $. Som nævnt ovenfor er dette ikke overraskende, da førstnævnte er den estimerede standardafvigelse for et prøve gennemsnit, og prøven er mindre variabel på grund af gennemsnittet på tværs af flere datapunkter. Hvis vi tager $ \ alpha = 0,05 $, opnår vi $ t_ {n-1, \ alpha / 2} = t_ {29,0.025} = 2.0452 $, så det resulterende $ 95 $% konfidensinterval for det sande befolknings gennemsnit er:

$$ \ text {CI} _ \ mu (0.95) = \ Big [7.7920 \ pm 2.0452 \ cdot 0.1410 \ Big] = \ Big [7.7920 \ pm 0.2884 \ Big] = \ Big [7.5038, 8.0804 \ Big]. $$

Som bemærket ignorerer denne analyse tidsdataene og behandler simpelthen alle værdierne som en enkelt IID-prøve, så det er vigtigt at huske, at dette konfidensinterval er betinget af denne behandling af dataene (som synes at være, hvad du leder efter). Dette er ikke den bedste form for analyse; en bedre tilgang ville være at bruge tidskovariatet i en regressionsmodel.

Svar

Bemærk, at SEM ikke er fejlen i prøverne sammenlignet med gennemsnittet, det er STD for de gennemsnitlige estimatorer.

For at være klarere, skal STDen for fordelingen forblive omtrent den samme, når du går til et stort antal prøver, men den gennemsnitlige estimator faktisk konvergerer, og fejlen går til 0.

Kommentarer

Svar

Svar

Skriv et svar Annuller svar