Eu li este link , na seção 2, primeiro parágrafo sobre a apresentação que “” preserva a distribuição dos valores dos itens “”.
Não entendo que, se um e o mesmo doador for usado para muitos destinatários, isso pode distorcer a distribuição ou eu sinto falta de algo aqui?
Além disso, o O resultado da imputação do Hot Deck deve depender do algoritmo de correspondência usado para fazer a correspondência entre os doadores e os destinatários?
De modo mais geral, alguém conhece referências que comparam o Hot Deck com a imputação múltipla?
Comentários
- Eu não sei sobre imputação de hot deck, mas a técnica soa como correspondência média preditiva (pmm). Talvez você possa encontrar a resposta aí?
- Não há muito sentido prático comparar um método de imputação único (como hot-deck) com múltiplo imputação: a imputação múltipla sempre é excelente e quase sempre menos útil.
Resposta
Imputação de itens faltantes valores é um dos métodos de imputação simples mais simples.
O método – que é intuitivamente óbvio – é que um caso com valor ausente recebe um valor válido de um caso escolhido aleatoriamente daqueles casos que são maximamente semelhantes ao falta uma, com base em algumas variáveis de fundo especificadas pelo usuário (essas variáveis também são chamadas de “variáveis de deck”). O conjunto de casos de doadores é chamado de “deck”.
No cenário mais básico – sem características de fundo – você pode declarar que pertence aos mesmos n
-casos dataset para ser isso e apenas “variável de fundo”; então a imputação será apenas uma seleção aleatória de n-m
casos válidos para serem doadores para os m
casos com valores ausentes. A substituição aleatória está no centro do hot-deck.
Para permitir a ideia de valores que influenciam a correlação, a correspondência em variáveis de fundo mais específicas é usada. Por exemplo, você pode querer imputar a resposta em falta de um homem branco na faixa de 30-35 anos de doadores pertencentes a essa combinação específica de características. As características de fundo devem estar – pelo menos teoricamente – associadas à característica analisada (a ser imputada); a associação, entretanto, não deve ser aquela que é o objeto do estudo – do contrário, estamos fazendo uma contaminação via imputação.
A imputação de hot-deck é antiga ainda popular porque é simples em ideia e, ao mesmo tempo, adequado para situações em que tais métodos de processamento de valores ausentes como exclusão listwise ou substituição de média / mediana não funcionarão porque os erros são alocados nos dados não caoticamente – não de acordo com o padrão MCAR (Missing Completely At Random). Hot-deck é razoavelmente adequado para o padrão MAR (para MNAR, a imputação múltipla é a única solução decente). Hot-deck, sendo um empréstimo aleatório, não influencia a distribuição marginal, pelo menos potencialmente. No entanto, afeta potencialmente os parâmetros regressionais de correlação e vieses; este efeito, no entanto, pode ser minimizado com versões mais complexas / sofisticadas do procedimento hot-deck.
Uma deficiência da imputação hot-deck é que ela exige que as variáveis de fundo mencionadas acima sejam certamente categóricas (devido ao categórico, nenhum “algoritmo de correspondência” especial é necessário); variáveis quantitativas do deck – discretize-as em categorias. Quanto às variáveis com valores ausentes – podem ser de qualquer tipo, e este é o trunfo do método (muitas formas alternativas de imputação única podem imputar apenas a características quantitativas ou contínuas).
Outra fraqueza do quente – a imputação de deck é esta: quando você imputa faltas em várias variáveis, por exemplo X e Y, ou seja, executa uma função de imputação uma vez com X, depois com Y, e se o caso i estava faltando em ambas as variáveis, a imputação de i em Y não estar relacionado com qual valor foi imputado em i em X; em outras palavras, a possível correlação entre X e Y não é levada em consideração ao imputar Y. Em outras palavras, a entrada é “univariada”, ela não reconhece a natureza multivariada potencial do “dependente” (ou seja, destinatário, tendo valores ausentes) variáveis. $ ^ 1 $
Não use incorretamente a imputação de hot-deck. Qualquer imputação de erros é recomendada somente se não houver mais de 20% dos casos em falta em uma variável. O deck de potencial os doadores devem ser grandes o suficiente. Se houver um doador, é arriscado que, se for um caso atípico, você expanda a atipicidade sobre outros dados.
Seleção de doadores com ou sem substituição . É possível fazer de qualquer maneira: em regime de não substituição, um caso de doador, selecionado aleatoriamente, pode atribuir valor apenas a um caso de receptor.No regime de substituição de permissão, um caso de doador pode se tornar doador novamente se for selecionado aleatoriamente novamente, imputando assim a vários casos de receptor. O segundo regime pode causar viés distributivo grave se os casos de destinatários forem muitos, enquanto os casos de doadores adequados para imputar existem poucos, pois então um doador imputará seu valor a muitos recipientes; ao passo que, quando há muitos doadores para escolher, o viés será tolerável. A forma de não substituição não leva a nenhum preconceito, mas pode deixar muitos casos sem imputação se houver poucos doadores.
Adicionando ruído . A imputação de hot-deck clássica apenas toma emprestado (copia) um valor como está. No entanto, é possível conceber a adição de ruído aleatório a um valor emprestado / imputado se o valor for quantitativo.
Correspondência parcial nas características do deck . Se houver várias variáveis de fundo, um caso doador é elegível para escolha aleatória se corresponder a alguns casos de destinatário por todas as variáveis de fundo. Com mais de 2 ou 3 dessas características de deck ou quando contêm muitas categorias que tornam provável que não sejam encontrados doadores elegíveis. Para superar, é possível exigir apenas uma correspondência parcial conforme necessário para tornar um doador elegível. Por exemplo, exija a correspondência em k
qualquer do total g
de variáveis de deck. Ou solicite a correspondência em k
primeiro da lista g
de variáveis de deck. Quanto maior tiver ocorrido que k
para um doador em potencial, maior será sua potencialidade de ser selecionado aleatoriamente. [Correspondência parcial, bem como substituição / noreposição são implementadas em minha macro hot-dock para SPSS.]
$ ^ 1 $ Se você insiste em levar isso em consideração, podem ser recomendadas duas alternativas : (1) ao imputar Y, adicione o X já imputado à lista de variáveis de fundo (você deve fazer X variável categórica) e use uma função de imputação de hot-deck que permite a correspondência parcial nas variáveis de fundo; (2) estender sobre Y a solução imputacional que surgiu na imputação de X, isto é, usar o mesmo caso de doador. Esta segunda alternativa é rápida e fácil, mas é a reprodução estrita em Y da imputação feita em X, – nada de independência entre os dois processos de imputação permanece aqui – portanto, esta alternativa não é boa .