これが私のクエリです。
6つあります参加者、グルコース測定値は30分、60 ..最大150分で取得されます。したがって、合計で30のデータポイントがあります
各タイムスロットについて、6人の参加者すべての平均グルコース測定値を計算しました例1.30分での参加者の平均は7.96、SDは0.92、SEMは0.38 2. 60分での参加者の平均は7.68、SDは0.93、SEMは0.38
他のSEM値は0.27 、0.35、0.25。
ここで、統計計算のために、すべてのデータポイントの平均±SEMを計算する必要があります。平均は簡単です。30個すべてを平均するだけです。しかし、SEMの場合、試してみると通常のexcel法で計算すると、0.089 ..の値になります。これは、レポート時に7.79±0.08になります。値の範囲が6.69〜9.17であるため、これには明らかに小さすぎます。
私が欠けている計算はありますか?ある時点でSEMを合計/平均化する必要がありますか?
よろしくお願いします!
コメント
- 正確に明確にできますか何を報告する必要がありますか? @Chernyが提案しているように、これを行う正確な方法は、答える必要のある正確な質問によって異なります。よくわからない場合は、この分析でどのようなガイダンスや対処しようとしている質問を提供してください。
回答
標準誤差は、推定量の標準偏差です。したがって、SEMは、真の基礎となる母平均の推定量として標本平均を使用している場合に発生します。この場合、平均推定量はデータ自体よりも変動が少ないため、推定標準誤差は通常、元のデータポイントのサンプル標準偏差よりもはるかに小さくなります。
これがどのように機能するかをより具体的に確認するには、$ X_1、…、X_n \ sim \ text {IID Dist} $を観測可能なサンプル値とし、$ \ bar {X} = \ sum_ {i = 1} ^ n X_i / n $を結果のサンプルとします。平均。これは、基礎となる母集団の平均$ \ mu = \ mathbb {E}(X_i)$の推定量と見なされます。 $ \ sigma ^ 2 = \ mathbb {V}(X_i)$を基礎となる母分散とすると、サンプル平均の真の標準誤差は次のようになります。
$$ \ begin {equation} \ begin {aligned} \ text {se} \ equiv \ text {se}(\ bar {X})\ equiv \ mathbb {S}(\ bar {X})& = \ sqrt {\ mathbb {V}(\ bar {X})} \\ [6pt] & = \ sqrt {\ mathbb {V} \ Big(\ frac {1} { n} \ sum_ {i = 1} ^ n X_i \ Big)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ { i = 1} ^ n \ mathbb {V}(X_i)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ {i = 1} ^ n \ sigma ^ 2} \\ [6pt] & = \ sqrt {\ frac {n \ sigma ^ 2} {n ^ 2}} \\ [6pt ] & = \ sqrt {\ frac {\ sigma ^ 2} {n}} \\ [6pt] & = \ frac { \ sigma ^ 2} {\ sqrt {n}}。 \\ [6pt] \ end {aligned} \ end {equation} $$
未知のパラメータ$ \ sigma $を観測可能なサンプル標準偏差$ s $に置き換えると、推定標準誤差:
$$ \ widehat {\ text {se}} = \ frac {s ^ 2} {\ sqrt {n}}。$$
推定標準誤差はではありませんの分散の推定値基礎となるデータ。これは、問題における推定量の分散の推定値であり、この場合のサンプル平均です。サンプルの平均はすべての観測値の平均であるため、これらの初期値よりも変動がはるかに少なくなります。具体的には、上記の結果から、平均の推定標準誤差は、基になるデータのサンプル標準偏差を$ \ sqrt {n} $で割ったものに等しいことがわかります。さて、明らかに$ n $が大きくなると、SEMは基礎となるデータのサンプル標準偏差よりも大幅に小さくなります。
推定SEMを計算したら、これを使用して通常は信頼区間を、指定された信頼水準$ 1- \ alpha $での真の基礎となる母集団の平均$ \ mu $に指定します。これは、母平均の標準区間式を使用して実行できます。
$$ \ text {CI} _ \ mu(1- \ alpha)= \ Big [\ bar {X} \ pm t_ { n-1、\ alpha / 2} \ cdot \ widehat {se} \ Big] = \ Big [\ bar {X} \ pm \ frac {t_ {n-1、\ alpha / 2}} {\ sqrt {n }} \ cdot s \ Big]。$$
質問で述べた目標に反して、間隔を報告することは決して良い考えではありません $ \ bar {X} \ pm \ widehat {se} $;これは、$ t_ {n-1、\ alpha / 2} = 1 $という奇妙な要件を使用した信頼区間であり、読者に誤解を与える可能性があります。代わりに、適切な信頼水準$ 1- \ alpha $を選択し、適切な信頼区間を指定して、読者に信頼水準を報告する必要があります。
データへの適用:分析から、集計しようとしているようです時間値の共変量を無視し、したがってそれらを単一のIIDサンプルとして分析するデータ。これは必ずしもデータを分析するための最良の方法ではありませんが、あなたの方法を使用して、質問のSEMの側面に焦点を当てるために、この方法で進めます。これに基づいて、$ n = 30 $および$ s = 0.7722 $(テーブルの30個の値から計算)があります。その場合、平均の推定標準誤差は$ \ widehat {\ text {se}} = 0.7722 / \ sqrt {30} = 0.1410 $になります。質問で報告された反対の値をどのように取得したかは私にはわかりません。
いずれの場合でも、推定標準誤差$ \ widehat {\ text {se}} = 0.1410 $は実質的にサンプルの標準偏差$ s = 0.7722 $よりも低い。上記のように、前者はサンプル平均の推定標準偏差であり、複数のデータポイントにわたる平均化によりサンプル平均の変動が少ないため、これは驚くべきことではありません。 $ \ alpha = 0.05 $を取ると、$ t_ {n-1、\ alpha / 2} = t_ {29,0.025} = 2.0452 $が得られるため、真の母平均の結果の$ 95 $%信頼区間は次のようになります。
$$ \ text {CI} _ \ mu(0.95)= \ Big [7.7920 \ pm 2.0452 \ cdot 0.1410 \ Big] = \ Big [7.7920 \ pm 0.2884 \ Big] = \ Big [7.5038、8.0804 \ Big]。$$
前述のように、この分析では時間データが無視され、すべての値が単一のIIDサンプルとして扱われるため、この信頼区間は次の処理に依存することを覚えておくことが重要です。データ(あなたが求めているもののようです)。これは最良の分析形式ではありません。より良いアプローチは、回帰モデルで時間共変量を使用することです。
回答
SEMはのエラーではないことに注意してください。サンプルを平均と比較すると、これは平均推定量のSTDです。
より明確にするために、分布のSTDは、サンプル数が多い場合とほぼ同じである必要がありますが、実際には平均推定量です。収束し、エラーは0になります。