¿Por qué el primer momento está estandarizado antes de calcular momentos superiores, pero los momentos superiores no?

Wikipedia dice :

Para el segundo y los momentos superiores, los momentos centrales (momentos sobre la media, siendo c la media) se utilizan normalmente en lugar de los momentos sobre cero, porque proporcionan información más clara sobre la forma de la distribución.

¿Alguien podría explicarme / convencerme de por qué esto es cierto? ¿Por qué hay una discrepancia?
Esto siempre me ha molestado y nunca he visto un una buena explicación: no entiendo por qué / cómo la estandarización proporciona información «clara» en un caso, pero no en otro.

Por ejemplo:

Para calcular la asimetría, ¿por qué no estandarizar tanto la media y la varianza?
Para calcular la curtosis, ¿por qué no estandarizar la media, la varianza, y la asimetría?
…
Para calcular el n ^ésimo momento, ¿por qué no estandarizar primero todos los m ^ésimo momentos para m < n?
Si la estandarización es útil entonces ¿por qué solo hacer esto para m = 1?

Comentarios

¿Cómo entiendes » forma «? Supongo que es la colección de todas las propiedades de una distribución que no se alteran por ningún cambio de ubicación o escala , en otras palabras, propiedades que persisten en un gráfico de la distribución cuando todas las etiquetas de los ejes se borran. Si comparte esta comprensión, entonces (a) la respuesta a su pregunta debería ser obvia y (b) será evidente que los momentos centrales no son la única manera de resolver el problema de describir formas; son simplemente una forma de establecer una ubicación y escala para (la mayoría) de las distribuciones.
La palabra » normalizar » es uno de los muchos en la ciencia estadística que cambia de significado de un campo a otro, en la medida en que es peligroso. Usarlo para implicar » mean-restracted » no es ‘ t estándar para muchos de nosotros . Me excedería en mi conocimiento si dijera que no es estándar para todos, pero lo desafío a citar literatura en la que » normalice » es idéntico a » reste la media «.
» El segundo tipo de normalización se origina en las estadísticas y elimina la unidad de medida transformando los datos en nuevas puntuaciones con una media de 0 y una desviación estándar de 1 . » @NickCox Creo que mi uso de la palabra no era ‘ t era demasiado extravagante y tenía suficiente sentido para hacer entender el punto, así que ‘ s no ir por la tangente aquí.
Lo siento; que ‘ no es lo que pregunté. Tu pregunta era por qué usar momentos sobre la media en lugar de momentos sobre cero. Por ejemplo, el segundo momento de la media es la varianza; ‘ no se escala por la desviación estándar. Naturalmente, estoy de acuerdo en que la asimetría y la curtosis a menudo se definen como relaciones de momento, lo que también equivale a escalar por la desviación estándar, pero ninguna de las dos se menciona en su pregunta. En resumen, mi comentario se refiere a la redacción de su pregunta. Usted ‘ ha proporcionado evidencia para mi afirmación, ya que restar la media y dividir por SD se denomina comúnmente estandarización.
Yo no ‘ t digo que me sentí confundido; Lamentablemente, sigo opinando que es probable que otros no vean claramente el significado exacto de su pregunta. Un artículo con sabor a tutorial en stata-journal.com/sjpdf.html?articlenum=st0204 puede resultar de interés para las personas que sienten curiosidad por los momentos.

Respuesta

Dado que la pregunta se actualizó, actualizo mi respuesta:

La primera parte (para calcular el sesgo, ¿por qué no estandarizar tanto la media como la varianza?) es fácil: ¡así es precisamente como se hace! Consulte las definiciones de sesgo y curtosis en wiki.

La segunda parte es fácil y difícil. Por un lado, podríamos decir que es imposible normalizar una variable aleatoria para satisfacer tres condiciones de momento, ya que la transformación lineal $ X \ a aX + b $ solo permite dos. Pero, por otro lado, ¿por qué deberíamos limitarnos a las transformaciones lineales? Claro, el desplazamiento y la escala son, con mucho, los más prominentes suficiente la mayor parte del tiempo, digamos para teoremas límite), pero ¿qué pasa con los polinomios de orden superior o tomando troncos, o convolviéndose consigo mismo?De hecho, ¿no es de eso de lo que se trata la transformación Box-Cox? ¿Eliminar el sesgo?

Pero en el caso de transformaciones más complicadas, creo que el contexto y la transformación en sí se vuelven importantes, así que tal vez por eso ya no hay «momentos con nombres». Eso no quiere decir que los rvs no se transformen y que los momentos no se calculen, al contrario. Simplemente eliges tu transformación, calcula lo que necesitas y sigue adelante.

La vieja respuesta sobre por qué los momentos centralizados representan la forma mejor que la forma cruda:

La palabra clave es forma . Como sugirió whuber, por forma queremos considerar el propiedades de la distribución que son invariantes a la traducción y la escala. Es decir, cuando se considera la variable $ X + c $ en lugar de $ X $, se obtiene la misma función de distribución (simplemente desplazada hacia la derecha o hacia la izquierda), por lo que nos gustaría decir que su forma se mantuvo igual.

Los momentos en bruto cambian cuando traduces la variable, por lo que reflejan no solo la forma, sino también una También una ubicación. De hecho, puede tomar cualquier variable aleatoria y cambiarla $ X \ a X + c $ apropiadamente para obtener cualquier valor para su, digamos, tercer momento crudo.

La misma observación es válida para todos los momentos impares y en menor medida para momentos pares (están delimitados desde abajo y el límite inferior depende de la forma).

El momento centralizado, por otro lado, no cambia cuando traduce la variable, por lo que » s por qué son más descriptivos de la forma. Por ejemplo, si tu momento par centralizado es grande, sabes que la variable aleatoria tiene una masa no demasiado cercana a la media. O si tu momento impar es cero, sabes que tu variable aleatoria tiene algo de simetría alrededor de la media.

El mismo argumento se extiende a la escala, que es la transformación $ X \ a cX $. La normalización habitual en este caso es la división por desviación estándar, y los momentos correspondientes se denominan momentos normalizados, al menos por wikipedia .

Comentarios

¿Podrías explicarme ¿Su afirmación sobre » moverlo para obtener cualquier valor de tercer momento «? ¿Qué quiere decir exactamente con » moverlo, » qué relación tiene esta operación en la forma distributiva? , y ¿por qué cambia el tercer momento?
Claro: al moverme me refería a traducciones $ X \ a X + c $. Obviamente, cambia el valor del tercer momento y puede obtener que sea igual a cualquier valor. No cambia la forma de la distribución por tu bonita definición de forma anterior.
Ah … te refieres al tercer momento crudo en lugar del tercer momento central. En este contexto, donde estamos discutiendo varios tipos de momentos, perdí la noción de cuál te referías realmente. Esa mala interpretación fue seguramente culpa mía, pero cuando modifiques esta publicación para aclarar qué significa » moverla «, podrías considerar hacer algunas ediciones menores para ayudar a evitar que otros caigan en la misma trampa.
(+1) Muchas gracias por convertir esto en una publicación realmente clara y autorizada.
¡Aaahh! Ahora lo entiendo. La pregunta es: ¿por qué no ‘ t normalizamos requiriendo, digamos, que el tercer momento era igual a cero y que el décimo era igual a uno? De acuerdo, esa ‘ es una pregunta completamente diferente, déjame pensarlo 🙂

Comentarios

Respuesta

Comentarios

Deja una respuesta Cancelar la respuesta