Discusión de la nueva pregunta:
Por ejemplo, si quiero estudiar el tamaño del cuerpo humano y encuentro que el tamaño del cuerpo humano adulto tiene un estándar desviación de 2 cm, probablemente inferiría que el tamaño del cuerpo humano adulto es muy uniforme
Depende de lo que estemos comparando. ¿Cuál es el estándar de comparación que lo hace muy uniforme? Si lo compara con la variabilidad en la longitud de los pernos para un tipo particular de perno que puede ser muy variable.
mientras que una desviación estándar de 2 cm en el el tamaño de los ratones significaría que los ratones difieren sorprendentemente mucho en el tamaño del cuerpo.
En comparación con lo mismo en su ejemplo de humanos más uniformes, ciertamente; cuando se trata de longitudes de cosas, que solo pueden ser positivas, probablemente tenga más sentido comparar el coeficiente de variación (como señalo en mi respuesta original), que es lo mismo que comparar sd para significar que estás sugiriendo aquí .
Obviamente, el significado de la desviación estándar es su relación con la media,
No, no siempre. En el caso de tamaños de cosas o cantidades de cosas (p. ej., tonelaje de carbón, volumen de dinero), a menudo tiene sentido, pero en otros contextos, no tiene sentido compararlos con la media.
Incluso entonces, no son necesariamente comparables de una cosa a otra. No existe un estándar aplicable a todas las cosas qué tan variable es algo antes de su variable.
y una desviación estándar alrededor de una décima parte de la media no es nada destacable (p. ej., para IQ: SD = 0.15 * M).
¿Qué cosas estamos comparando aquí? Longitudes con IQ «s ? ¿Por qué tiene sentido comparar un conjunto de cosas con otro? Tenga en cuenta que la elección de la media 100 y de 15 para un tipo de prueba de CI es completamente arbitraria. No tienen unidades. Podría fácilmente haber sido una media de 0 sd 1 o una media de 0.5 y sd 0.1.
Pero, ¿qué se considera «pequeño» y qué es «grande» cuando se trata de la relación entre la desviación estándar y la media?
Ya cubierto en mi respuesta original, pero cubierto de manera más elocuente en el comentario de whuber: no hay un estándar y no puede » ser.
Algunos de mis puntos sobre Cohen todavía se aplican a este caso (sd relativo a mean es al menos libre de unidades); pero incluso con algo como, por ejemplo, la d de Cohen, un estándar adecuado en un contexto no es necesariamente adecuado en otro.
Respuestas a una versión anterior
Siempre calculamos e informamos medias y desviaciones estándar.
Bueno, tal vez la mayor parte del tiempo; No sé si siempre lo hago. Hay casos en los que no es tan relevante.
Pero ¿Qué significa realmente el tamaño de la varianza?
La desviación estándar es una especie de distancia promedio * de la media. La varianza es el cuadrado de la desviación estándar. La desviación estándar se mide en las mismas unidades que los datos; la varianza se expresa en unidades cuadradas.
* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )
Te dicen algo acerca de cuán» dispersos «están los datos (o la distribución, en el caso de que estés calculando la sd o la varianza de una distribución).
Por ejemplo, supongamos que estamos observando qué asiento toman las personas en una habitación vacía. Si observamos que la mayoría de la gente se sienta cerca de la ventana con poca variación,
Ese «no es exactamente un caso de registrar» qué asiento «sino registrar «distancia desde la ventana». (Saber que «la mayoría se sienta cerca de la ventana» no necesariamente te dice nada sobre la media ni la variación sobre la media. Lo que te dice es que la mediana la distancia desde la ventana debe ser pequeña.)
Podemos asumir que esto significa que las personas generalmente prefieren ubicarse cerca de la ventana y obtener una vista o suficiente luz es el principal factor motivador a la hora de elegir asiento.
Que la mediana sea pequeña no lo dice en sí mismo. Puede inferirlo a partir de otras consideraciones, pero puede haber todo tipo de razones para es que no podemos de ninguna manera discernir a partir de los datos.
Si, por otro lado, observamos que mientras la mayor proporción se sienta cerca de la ventana Hay una gran variación con otros asientos que se toman a menudo también (por ejemplo, muchos se sientan cerca de la puerta, otros se sientan cerca del dispensador de agua o los periódicos), podríamos suponer que si bien muchas personas prefieren sentarse cerca de la ventana ser más factores que la luz o la vista que influyen en la elección del asiento y las diferentes preferencias de diferentes personas.
Una vez más, está aportando información fuera de los datos; puede aplicarse o no. Por lo que sabemos, la luz está mejor lejos de la ventana, porque el día está nublado o las persianas están corridas.
¿A qué valores c ¿Y decimos que el comportamiento que hemos observado es muy variado (a diferentes personas les gusta sentarse en diferentes lugares)?
Lo que hace que una desviación estándar sea grande o pequeña no está determinado por algún estándar externo, sino por consideraciones de la materia y, hasta cierto punto, lo que está haciendo con los datos e incluso factores personales.
Sin embargo, con medidas positivas, como distancias, a veces es relevante considerar la desviación estándar en relación con la media (el coeficiente de variación); sigue siendo arbitrario, pero las distribuciones con coeficientes de variación mucho más pequeños que 1 (desviación estándar mucho más pequeña que la media) son «diferentes» en cierto sentido que aquellas en las que es mucho mayor que 1 (desviación estándar mucho mayor que la media , que a menudo tenderá a ser muy sesgado a la derecha).
Y cuándo podemos inferir que el comportamiento es mayormente uniforme (a todos les gusta sentarse en la ventana)
Tenga cuidado de usar la palabra «uniforme» en ese sentido, ya que «es fácil malinterpretar su significado (por ejemplo, si digo que las personas son» sentado uniformemente en la sala «eso significa casi lo contrario de lo que usted quiere decir). De manera más general, cuando hable de estadísticas, evite usar términos de jerga en su sentido ordinario.
y la pequeña variación que muestran nuestros datos es principalmente el resultado de efectos aleatorios o variables de confusión (suciedad en una silla, el sol se ha movido y más sombra en el respaldo, etc.)
No, nuevamente, estás aportando información externa a la cantidad estadística que estás discutiendo. La variación no le dice nada de eso.
¿Existen pautas para evaluar la magnitud de la varianza en los datos, similares a las pautas de Cohen para interpretar el tamaño del efecto (una correlación de 0.5 es grande, 0.3 es moderada y 0.1 es pequeña)?
No en general, no.
-
Cohen «s la discusión [1] sobre los tamaños del efecto es más matizada y situacional de lo que indica; da una tabla de 8 valores diferentes de pequeño, mediano y grande, según el tipo de tema que se esté discutiendo. Los números que proporcione se aplican a las diferencias en las medias independientes (d) de Cohen .
-
Los tamaños del efecto de Cohen están todos escalados para ser cantidades sin unidades . La desviación estándar y la varianza no lo son; cambie las unidades y ambas cambiarán.
-
Los tamaños del efecto de Cohen están destinados a aplicarse en un área de aplicación particular (e incluso entonces considero demasiado enfoque en los estándares de lo que es pequeño, mediano y grande como algo arbitrario y algo más prescriptivo de lo que me gustaría). Son más o menos razonables para su área de aplicación prevista, pero pueden ser completamente inadecuados en otras áreas (La física de alta energía, por ejemplo, con frecuencia requiere efectos que cubren muchos errores estándar, pero los equivalentes de tamaños de efecto de Cohen pueden ser muchos órdenes de magnitud más de lo que se puede lograr).
Por ejemplo, si el 90% (o solo el 30%) de las observaciones caen dentro de una desviación estándar de la media, ¿es poco común o completamente normal? ?
Ah, tenga en cuenta que ha dejado de discutir el tamaño de la desviación / varianza estándar y ha comenzado a discutir el La proporción de observaciones dentro de una desviación estándar de la media, un concepto completamente diferente. Hablando muy aproximadamente, esto está más relacionado con el pico de la distribución.
Por ejemplo, sin cambiar la varianza en absoluto, puedo cambiar la proporción de una población dentro de 1 sd de la media con bastante facilidad. Si la población tiene una distribución $ t_3 $, aproximadamente el 94% se encuentra dentro de 1 sd de la media, si tiene una distribución uniforme, aproximadamente el 58% se encuentra dentro de 1 sd de la media; y con una distribución beta ($ \ frac18, \ frac18 $), es alrededor del 29%; esto puede suceder si todos tienen las mismas desviaciones estándar, o si cualquiera de ellos es mayor o menor sin cambiar esos porcentajes. en realidad no está relacionado con la propagación, porque definiste el intervalo en términos de desviación estándar.
[1]: Cohen J. (1992),
«A power primer,»
Psychol Bull. , 112 (1), julio: 155-9.
Comentarios
Por Chebyshev «s desigualdad sabemos que la probabilidad de que algunos $ x $ sean $ k $ multiplicados por $ \ sigma $ de la media es como máximo $ \ frac {1} {k ^ 2} $:
$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$
Sin embargo, con algunas suposiciones de distribución puede ser más preciso, por ejemplo, Normal la aproximación conduce a la regla 68–95–99.7 . Por lo general, con cualquier función de distribución acumulativa , puede elija un intervalo que deba abarcar un cierto porcentaje de casos. Sin embargo, elegir el ancho del intervalo de confianza es una decisión subjetiva, como se explica en este hilo .
Ejemplo
El ejemplo más intuitivo que me viene a la mente es la escala de inteligencia . La inteligencia es algo que no se puede medir directamente, no tienen «unidades» directas de inteligencia (por cierto, centímetros o grados Celsius también son de alguna manera arbitrarios). Las pruebas de inteligencia se puntúan de modo que tengan una media de 100 y una desviación estándar de 15. ¿Qué nos dice? Al conocer la desviación estándar y la media, podemos inferir fácilmente qué puntuaciones pueden considerarse «bajas», «medias» o «altas». Como «promedio» podemos clasificar los puntajes que obtienen la mayoría de las personas (digamos 50%), los puntajes más altos se pueden clasificar como «por encima del promedio», los puntajes excepcionalmente altos se pueden clasificar como «superiores», etc., esto se traduce en la tabla siguiente .
Wechsler (WAIS-III) 1997 Clasificación de prueba de CI Rango de CI («desviación de CI»)
IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low
(Fuente: https://en.wikipedia.org/wiki/IQ_classification )
Entonces, la desviación estándar nos dice qué tan lejos podemos asumir que los valores individuales están distantes de la media. Puede pensar en $ \ sigma $ como una distancia sin unidades de la media. Si piensa en puntajes observables, digamos puntajes de pruebas de inteligencia, entonces conocer las desviaciones estándar le permite inferir fácilmente qué tan lejos (cuántos $ \ sigma $ «s) se encuentra un valor de la media y qué tan común o poco común es. subjetivo cuántos $ \ sigma $ «s califican como» lejos «, pero esto se puede calificar fácilmente pensando en términos de probabilidad de observar valores que se encuentran a cierta distancia de la media.
Esto es obvio si observe qué varianza ($ \ sigma ^ 2 $) es
$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$
… la distancia esperada (promedio) de $ X $ «s desde $ \ mu $. Si se pregunta, aquí puede leer por qué está al cuadrado .
Comentarios