Wikipedia diz :

Para o segundo momento e os momentos mais altos, os momentos centrais (momentos sobre a média, com c sendo a média) são normalmente usados em vez dos momentos sobre zero, porque eles fornecem informações mais claras sobre a forma da distribuição.

Alguém poderia me explicar / me convencer por que isso é verdade? Por que há uma discrepância?
Isso sempre me incomodou e nunca vi um boa explicação para isso – eu simplesmente não entendo por que / como a padronização fornece informações “claras” em um caso, mas não em outro.

Por exemplo:

  1. Para calcular a assimetria, por que não padronizar ambos a média e a variação?
  2. Para calcular a curtose, por que não padronizar a média, a variância e a assimetria?
  3. Para calcule o n º momento, por que não padronizar primeiro todos os m º momentos para m < n?
    Se padronização é útil, então por que fazer isso apenas para m = 1?

Comentários

  • Como você entende ” forma “? Eu considero que seja a coleção de todas as propriedades de uma distribuição que não são alteradas por qualquer mudança de local ou escala – em outras palavras, propriedades que persistem em um gráfico da distribuição quando todos os rótulos de eixo são apagados. Se você compartilha desse entendimento, então (a) a resposta à sua pergunta deve se tornar óbvia e (b) será evidente que os momentos centrais não são a única maneira de resolver o problema de descrever formas; eles são apenas uma maneira de estabelecer uma localização e escala para (a maioria) das distribuições.
  • A palavra ” normalizar ” é um dos muitos na ciência estatística que muda o significado de campo para campo, a ponto de ser perigoso. Usá-lo para implicar ” subtraído pela média ” não ‘ o padrão para muitos de nós . Eu estaria excedendo meu conhecimento para dizer que não é padrão para todos, mas eu o desafio a citar literatura onde ” normalize ” é idêntico a ” subtraia a média “.
  • ” O segundo tipo de normalização se origina das estatísticas e elimina a unidade de medida transformando os dados em novos escores com uma média de 0 e um desvio padrão de 1 . ” @NickCox Acho que meu uso da palavra não foi ‘ t muito estranho e faz sentido o suficiente para passar o ponto, portanto, que ‘ s não vá pela tangente aqui.
  • Desculpe; que ‘ não é o que perguntei. Sua pergunta era por que usar momentos sobre a média em vez de momentos sobre zero. Por exemplo, o segundo momento sobre a média é a variância; ele ‘ não é escalado pelo desvio padrão. Naturalmente, concordo que a assimetria e a curtose são frequentemente definidas como razões de momento, o que também é equivalente à escala pelo desvio padrão, mas nenhuma delas é mencionada em sua pergunta. Em suma, meu comentário é sobre o texto da sua pergunta. Você ‘ forneceu evidências para minha afirmação, já que subtrair a média e dividir por SD é comumente chamado de padronização.
  • Não ‘ t diga que me senti confuso; infelizmente, continuo a acreditar que o significado preciso de sua pergunta provavelmente não será claro para os outros. Um artigo com sabor de tutorial em stata-journal.com/sjpdf.html?articlenum=st0204 pode ter interesse para pessoas curiosas sobre momentos.

Resposta

Desde que a pergunta foi atualizada, eu atualizo minha resposta:

A primeira parte (para calcular o distorção, por que não padronizar a média e a variância?) é fácil: é exatamente assim que se faz! Veja as definições de distorção e curtose no wiki.

A segunda parte é fácil e difícil. Por um lado, poderíamos dizer que é impossível normalizar variáveis aleatórias para satisfazer três condições de momento, já que a transformação linear $ X \ para aX + b $ permite apenas dois. Mas, por outro lado, por que devemos nos limitar às transformações lineares? Claro, deslocamento e escala são de longe os mais proeminentes (talvez porque sejam suficiente na maioria das vezes, digamos para teoremas de limite), mas e os polinômios de ordem superior ou pegando logs, ou convulsionando consigo mesmo?Na verdade, não é disso que se trata a transformação Box-Cox – remover distorções?

Mas, no caso de transformações mais complicadas, eu acho, o contexto e a própria transformação se tornam importantes, então talvez é por isso que não existem mais “momentos com nomes”. Isso não significa que os rvs não sejam transformados e que os momentos não sejam calculados, pelo contrário. Você apenas escolhe a sua transformação, calcula o que precisa e segue em frente.


A velha resposta sobre por que os momentos centralizados representam a forma melhor do que bruta:

A palavra-chave é forma . Como sugerido, pela forma queremos considerar o propriedades da distribuição que são invariantes à tradução e ao escalonamento. Ou seja, quando você considera a variável $ X + c $ em vez de $ X $, você obtém a mesma função de distribuição (apenas deslocada para a direita ou esquerda), então gostaríamos dizer que sua forma permaneceu a mesma.

Os momentos brutos mudam quando você traduz a variável, então eles refletem não apenas a forma, mas um Também um local. Na verdade, você pode pegar qualquer variável aleatória e deslocá-la $ X \ para X + c $ apropriadamente para obter qualquer valor para seu, digamos, terceiro momento bruto.

A mesma observação vale para todos os momentos ímpares e em menor extensão para momentos pares (eles são limitados por baixo e o limite inferior depende da forma).

O momento centralizado, por outro lado, não muda quando você traduz a variável, de modo que ” É por isso que eles são mais descritivos da forma. Por exemplo, se o seu momento centralizado par é grande, você sabe que a variável aleatória tem uma massa não muito próxima da média. Ou se o seu momento ímpar é zero, você sabe que a sua variável aleatória tem alguma simetria em torno da média.

O mesmo argumento se estende à escala, que é a transformação $ X \ em cX $. A normalização usual neste caso é a divisão pelo desvio padrão, e os momentos correspondentes são chamados de momentos normalizados, pelo menos pela wikipedia .

Comentários

  • Você poderia me explicar nossa afirmação sobre ” movê-lo para obter qualquer valor do terceiro momento “? O que exatamente você quer dizer com ” movê-lo, ” qual o rumo desta operação na forma de distribuição , e por que isso muda o terceiro momento?
  • Claro: por mover, eu quis dizer traduções $ X \ para X + c $. Obviamente, isso muda o valor do terceiro momento e você pode fazer com que seja igual a qualquer valor. Isso não muda a forma da distribuição pela sua bela definição de forma acima.
  • Ah … você quer dizer o terceiro momento bruto em vez do terceiro momento central. Nesse contexto, em que estamos discutindo vários tipos de momentos, perdi a noção de qual você realmente quis dizer. Essa leitura incorreta foi certamente minha culpa, mas quando você modificar esta postagem para esclarecer o que ” move-lo significa ” você pode considerar fazer algumas pequenas edições para ajudar a evitar que outros caiam na mesma armadilha.
  • (+1) Muito obrigado por transformar isso em uma postagem realmente clara e confiável.
  • Aaahh! Agora eu entendi. A questão é: por que ‘ não normalizamos exigindo, digamos, que o terceiro momento fosse igual a zero e que o décimo um fosse igual a um? OK, essa ‘ é uma pergunta completamente diferente, deixe-me pensar sobre isso 🙂

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *