Cómo calcular el error estándar de la media (SEM) en varios puntos de tiempo

Aquí está mi consulta.

Tengo 6 participantes, donde las lecturas de glucosa se toman a los 30 minutos, 60 … hasta 150 minutos. Por lo tanto, en total tengo 30 puntos de datos

Para cada intervalo de tiempo he calculado una lectura de glucosa promedio para los 6 participantes por ejemplo, 1. el promedio de participantes a los 30 minutos es 7,96, la DE es 0,92, el SEM es 0,38 2. el promedio de los participantes a los 60 minutos es 7,68, la DE es 0,93, el SEM es 0,38

Los otros valores de SEM son 0,27 , 0.35, 0.25.

Ahora, para un cálculo estadístico, necesito calcular el promedio ± SEM sobre todos los puntos de datos. El promedio es fácil, solo promediar los 30. Pero para el SEM, si intento para calcularlo a través del método normal de Excel termino con un valor de 0.089 .. que cuando reporto me da 7.79 ± 0.08. Lo cual es obviamente demasiado pequeño para esto ya que los valores oscilan entre 6.69-9.17.

¿Hay algún cálculo que me falta? ¿Debería simplemente sumar / promediar el SEM para los puntos de tiempo?

¡Gracias de antemano!

Logré subir una imagen de la tabla de datos:

Comentarios

¿Podría aclarar exactamente que necesitas reportar? Como sugiere @Cherny, la forma exacta en que lo hace depende de la pregunta exacta que necesita responder. Si no está seguro, proporcione la orientación que tenga o la pregunta que desea abordar con este análisis.

Respuesta

El error estándar es la desviación estándar de un estimador ; por lo tanto, el SEM surge cuando se utiliza la media muestral como un estimador de la media poblacional subyacente verdadera. En este caso, el error estándar estimado será generalmente mucho menor que la desviación estándar muestral de los puntos de datos originales, ya que el estimador medio es menos variable que los datos en sí.

Para ver cómo funciona esto de manera más específica , deje que $ X_1, …, X_n \ sim \ text {IID Dist} $ sean sus valores de muestra observables y deje que $ \ bar {X} = \ sum_ {i = 1} ^ n X_i / n $ sea la muestra resultante mean, que se toma como un estimador de la media de la población subyacente $ \ mu = \ mathbb {E} (X_i) $. Si dejamos que $ \ sigma ^ 2 = \ mathbb {V} (X_i) $ sea la varianza de la población subyacente, entonces el verdadero error estándar de la media de la muestra es:

$$ \ begin {ecuación} \ begin {alineado} \ text {se} \ equiv \ text {se} (\ bar {X}) \ equiv \ mathbb {S} (\ bar {X}) & = \ sqrt {\ mathbb {V} (\ bar {X})} \\ [6pt] & = \ sqrt {\ mathbb {V} \ Big (\ frac {1} { n} \ sum_ {i = 1} ^ n X_i \ Big)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ { i = 1} ^ n \ mathbb {V} (X_i)} \\ [6pt] & = \ sqrt {\ frac {1} {n ^ 2} \ sum_ {i = 1} ^ n \ sigma ^ 2} \\ [6pt] & = \ sqrt {\ frac {n \ sigma ^ 2} {n ^ 2}} \\ [6pt ] & = \ sqrt {\ frac {\ sigma ^ 2} {n}} \\ [6pt] & = \ frac { \ sigma ^ 2} {\ sqrt {n}}. \\ [6pt] \ end {alineado} \ end {ecuación} $$

Sustituir el parámetro desconocido $ \ sigma $ con la desviación estándar de la muestra observable $ s $ produce el error estándar estimado :

$$ \ widehat {\ text {se}} = \ frac {s ^ 2} {\ sqrt {n}}. $$

El error estándar estimado es no una estimación de la dispersión de los datos subyacentes; es una estimación de la dispersión del estimador en su problema, que es la media muestral en este caso. Dado que la media de la muestra promedia todos los valores observados, es mucho menos variable que esos valores iniciales. Específicamente, podemos ver del resultado anterior que el error estándar estimado de la media es igual a la desviación estándar de la muestra de los datos subyacentes, dividida por $ \ sqrt {n} $. Ahora, obviamente, a medida que $ n $ crece, el SEM será sustancialmente menor que la desviación estándar de la muestra de los datos subyacentes.

Una vez que haya calculado el SEM estimado, es habitual usarlo para proporcione un intervalo de confianza para la media de la población subyacente real $ \ mu $ en un nivel de confianza especificado $ 1- \ alpha $. Esto se puede hacer usando la fórmula de intervalo estándar para una media poblacional:

$$ \ text {CI} _ \ mu (1- \ alpha) = \ Big [\ bar {X} \ pm t_ { n-1, \ alpha / 2} \ cdot \ widehat {se} \ Big] = \ Big [\ bar {X} \ pm \ frac {t_ {n-1, \ alpha / 2}} {\ sqrt {n }} \ cdot s \ Big]. $$

Contrariamente al objetivo establecido en su pregunta, nunca es una buena idea informar el intervalo $ \ bar {X} \ pm \ widehat {se} $; este es solo un intervalo de confianza que utiliza el extraño requisito de que $ t_ {n-1, \ alpha / 2} = 1 $, que probablemente engañe a su lector. En su lugar, debe elegir un nivel de confianza razonable $ 1- \ alpha $ y dar un intervalo de confianza adecuado, informando su nivel de confianza a su lector.

Aplicación a sus datos: A partir de su análisis, parece que está buscando agregar sus datos, ignorando las covariables de valor de tiempo y, por lo tanto, analizándolos como una sola muestra de IID. Esta no es necesariamente la mejor manera de analizar los datos, pero procederé de esta manera para usar su método, para enfocarme en los aspectos del SEM en su pregunta. Sobre esta base, tiene $ n = 30 $ y $ s = 0,7722 $ (que calculé a partir de los treinta valores de su tabla). El error estándar estimado de la media debería ser $ \ widehat {\ text {se}} = 0,7722 / \ sqrt {30} = 0,1410 $. No me queda claro cómo obtuvo el valor contrario informado en su pregunta.

En cualquier caso, puede ver que el error estándar estimado $ \ widehat {\ text {se}} = 0.1410 $ es sustancialmente menor que la desviación estándar de la muestra $ s = 0,7722 $. Como se señaló anteriormente, esto no es sorprendente, ya que la primera es la desviación estándar estimada de la media de una muestra y la media de la muestra es menos variable debido al promedio de varios puntos de datos. Tomando $ \ alpha = 0.05 $ obtenemos $ t_ {n-1, \ alpha / 2} = t_ {29,0.025} = 2.0452 $, por lo que el intervalo de confianza de $ 95 $% resultante para la media real de la población es:

$$ \ text {CI} _ \ mu (0.95) = \ Big [7.7920 \ pm 2.0452 \ cdot 0.1410 \ Big] = \ Big [7.7920 \ pm 0.2884 \ Big] = \ Big [7.5038, 8.0804 \ Big]. $$

Como se señaló, este análisis ignora los datos de tiempo y simplemente trata todos los valores como una sola muestra de IID, por lo que es importante recordar que este intervalo de confianza depende del tratamiento de los datos (que parece ser lo que buscas). Ésta no es la mejor forma de análisis; un mejor enfoque sería usar la covariable de tiempo en un modelo de regresión.

Respuesta

Tenga en cuenta que SEM no es el error de las muestras en comparación con el promedio, es el STD de los estimadores de la media.

Para ser más claro, el STD de la distribución debe permanecer más o menos igual a medida que avanza hacia el número de muestras grandes, pero el estimador de la media en realidad converge y el error pasa a 0.

Comentarios

Respuesta

Respuesta

Deja una respuesta Cancelar la respuesta