Leí en este enlace , en la sección 2, primer párrafo sobre Hot Deck que «» conserva la distribución de los valores de los elementos «».

No entiendo que, si se usa el mismo donante para muchos destinatarios, esto puede distorsionar la distribución o ¿me pierdo algo aquí?

Además, el ¿El resultado de la imputación Hot Deck debe depender del algoritmo de coincidencia utilizado para hacer coincidir los donantes con los destinatarios?

Más general, ¿alguien conoce referencias que comparen Hot Deck con la imputación múltiple?

Comentarios

  • No sé acerca de la imputación hot deck, pero la técnica suena como coincidencia de medias predictiva (pmm). ¿Quizás pueda encontrar la respuesta allí?
  • No tiene mucho sentido práctico comparar un método de imputación único (como hot-deck) con múltiple imputación: la imputación múltiple siempre sobresale y casi siempre es menos útil.

Respuesta

Imputación de faltas valores es uno de los métodos de imputación única más simples.

El método, que es intuitivamente obvio, es que un caso con un valor perdido recibe un valor válido de un caso elegido aleatoriamente de aquellos casos que son máximamente similares al falta uno, basado en algunas variables de fondo especificadas por el usuario (estas variables también se denominan «variables de cubierta»). El grupo de casos de donantes se llama «mazo».

En el escenario más básico, sin características de fondo, puede declarar la pertenencia a los mismos n -cases conjunto de datos para ser eso y sólo «variable de fondo»; entonces la imputación será simplemente una selección aleatoria de n-m casos válidos para ser donantes para los m casos con valores perdidos. La sustitución aleatoria está en el núcleo de la plataforma caliente.

Para permitir la idea de que la correlación influye en los valores, se utiliza la coincidencia en variables de fondo más específicas. Por ejemplo, es posible que desee imputar la respuesta faltante de un hombre blanco de 30 a 35 años en el rango de donantes que pertenecen a esa combinación específica de características. Las características de fondo deben estar asociadas, al menos teóricamente, con la característica analizada (a imputar); la asociación, sin embargo, no debería ser la que es el tema del estudio; de lo contrario, estamos haciendo una contaminación a través de la imputación.

La imputación hot-deck sigue siendo popular porque es simple en idea y, al mismo tiempo, adecuado para situaciones en las que los métodos de procesamiento de valores perdidos como eliminación por lista o sustitución media / media no funcionan porque los datos perdidos se asignan no caóticamente, no de acuerdo con el patrón MCAR (Falta completamente al azar). Hot-deck es razonablemente adecuado para el patrón MAR (para MNAR, la imputación múltiple es la única solución decente). Hot-deck, al ser un préstamo aleatorio, no sesga la distribución marginal, al menos potencialmente. Sin embargo, afecta potencialmente las correlaciones y sesga los parámetros regresivos; este efecto, sin embargo, podría minimizarse con versiones más complejas / sofisticadas del procedimiento hot-deck.

Una deficiencia de la imputación hot-deck es que exige que las variables de fondo mencionadas anteriormente sean ciertamente categóricas (debido a que es categórico, no se requiere ningún «algoritmo de coincidencia» especial); Variables cuantitativas de la plataforma: discretícelas en categorías. En cuanto a las variables con valores perdidos, pueden ser de cualquier tipo, y este es el activo del método (muchas formas alternativas de imputación única pueden imputar solo a características cuantitativas o continuas).

Otra debilidad de hot -La imputación de cubierta es la siguiente: cuando imputas faltas en varias variables, por ejemplo X e Y, es decir, ejecuta una función de imputación una vez con X, luego con Y, y si faltaba el caso i en ambas variables, la imputación de i en Y será no estar relacionado con el valor imputado en i en X; en otras palabras, la posible correlación entre X e Y no se tiene en cuenta al imputar Y. En otras palabras, la entrada es «univariante», no «no reconoce la naturaleza multivariante potencial del» dependiente «(es decir, el receptor, que tiene valores faltantes) variables. $ ^ 1 $

No abusar de la imputación hot-deck. Se recomienda realizar cualquier imputación de errores solo si no hay más del 20% de los casos que faltan en una variable. Los donantes deben ser lo suficientemente grandes. Si hay un donante, es arriesgado que si se trata de un caso atípico, amplíe la atipicidad sobre otros datos.

Selección de donantes con o sin reemplazo . Es posible hacerlo de cualquier manera. En el régimen sin reemplazo, un caso de donante, seleccionado al azar, puede imputar valor sólo a un caso receptor.En el régimen de permiso de reemplazo, un caso de donante puede volver a ser donante si se selecciona nuevamente al azar, imputando así a varios casos de receptor. El segundo régimen puede causar un severo sesgo distributivo si los casos de receptores son muchos, mientras que los casos de donantes aptos para imputar son pocos, pues entonces un donante imputará su valor a muchos receptores; mientras que cuando hay muchos donantes para elegir, el sesgo será tolerable. La forma de no reemplazar no conduce a sesgos, pero puede dejar muchos casos sin imputar si hay pocos donantes.

Agregar ruido . La imputación clásica de hot-deck simplemente toma prestado (copia) un valor tal cual. Sin embargo, es posible concebir la adición de ruido aleatorio a un valor prestado / imputado si el valor es cuantitativo.

Coincidencia parcial en las características del mazo . Si hay varias variables de fondo, un caso de donante es elegible para una elección aleatoria si coincide con algunos casos de receptor por todas las variables de fondo. Con más de 2 o 3 de estas características de mazo o cuando contienen muchas categorías, es probable que no se encuentren donantes elegibles en absoluto. Para superar, es posible requerir solo una compatibilidad parcial según sea necesario para que un donante sea elegible. Por ejemplo, requiere la coincidencia en k cualquiera del total g de las variables del mazo. O bien, requiera que coincida con el k primero de la lista g de variables del mazo. Cuanto mayor haya ocurrido k para un donante potencial, mayor será su potencial para ser seleccionado al azar. [La coincidencia parcial, así como la sustitución / no sustitución se implementan en mi macro de acoplamiento activo para SPSS.]


$ ^ 1 $ Si insiste en tenerlo en cuenta, es posible que le recomienden dos alternativas : (1) al imputar Y, agregue la X ya imputada a la lista de variables de fondo (debe hacer que X sea una variable categórica) y use una función de imputación hot-deck que permita una coincidencia parcial en las variables de fondo; (2) extender sobre Y la solución imputacional que había surgido en la imputación de X, es decir, utilizar el mismo caso de donante. Esta segunda alternativa es rápida y sencilla, pero es la reproducción estricta en Y de la imputación realizada en X, – aquí no queda nada de independencia entre los dos procesos imputacionales – por lo tanto esta alternativa no es buena .


ingrese la descripción de la imagen aquí

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *