Jai lu dans ce lien , sous la section 2, premier paragraphe sur le hot deck qui « » il préserve la distribution des valeurs des éléments « ».
Je ne comprends pas que, si un seul et même donateur est utilisé pour beaucoup de destinataires, cela peut fausser la distribution ou est-ce que je rate quelque chose ici?
Aussi, le Le résultat de limputation Hot Deck doit dépendre de lalgorithme dappariement utilisé pour faire correspondre les donneurs aux destinataires?
Plus général, est-ce que quelquun connaît des références comparant hot deck à limputation multiple?
Commentaires
- Je ne connais pas limputation hot deck, mais la technique ressemble à lappariement prédictif de la moyenne (pmm). Peut-être pouvez-vous trouver la réponse ici?
- Il ny a pas beaucoup de sens pratique à comparer une méthode dimputation simple (telle que hot-deck) avec multiple imputation: limputation multiple excelle toujours et est presque toujours moins pratique.
Réponse
Imputation hot-deck des manquants valeurs est lune des méthodes dimputation unique les plus simples.
La méthode – qui est intuitivement évidente – est quun cas avec une valeur manquante reçoit une valeur valide dun cas choisi au hasard parmi les cas qui sont au maximum similaires manquant, basé sur certaines variables darrière-plan spécifiées par lutilisateur (ces variables sont également appelées «variables de pont»). Le pool de cas donneurs est appelé « deck ».
Dans le scénario le plus basique – pas de caractéristiques darrière-plan – vous pouvez déclarer lappartenance aux mêmes n
-cases lensemble de données doit être cela et seulement « variable darrière-plan »; alors limputation sera simplement une sélection aléatoire parmi les n-m
cas valides pour être donneurs pour les cas m
avec des valeurs manquantes. La substitution aléatoire est au cœur du hot-deck.
Pour permettre lidée de la corrélation influençant les valeurs, la correspondance sur des variables darrière-plan plus spécifiques est utilisée. Par exemple, vous pouvez imputer la réponse manquante dun homme blanc de 30 à 35 ans provenant de donneurs appartenant à cette combinaison spécifique de caractéristiques. Les caractéristiques de fond doivent être – au moins théoriquement – associées à la caractéristique analysée (à imputer); Lassociation, cependant, ne devrait pas être celle qui fait lobjet de létude – sinon, nous faisons une contamination par imputation.
Limputation hot-deck est ancienne mais populaire car elle est à la fois simple en idée et, en même temps, adapté aux situations où des méthodes de traitement des valeurs manquantes telles que la suppression par liste ou la substitution moyenne / médiane ne feront pas laffaire car des manquements sont attribués dans les données pas de manière chaotique – pas selon le modèle MCAR (Missing Completely At Random). Le hot-deck est raisonnablement adapté au modèle MAR (pour le MNAR, limputation multiple est la seule solution décente). Le hot-deck, étant des emprunts aléatoires, ne biaise pas la distribution marginale, du moins potentiellement. Cependant, elle affecte potentiellement les corrélations et biaise les paramètres de régression; cet effet, cependant, pourrait être minimisé avec des versions plus complexes / sophistiquées de la procédure hot-deck.
Un inconvénient de limputation hot-deck est quelle exige que les variables darrière-plan mentionnées ci-dessus soient certainement catégoriques (à cause de catégorique, aucun « algorithme de correspondance » spécial nest requis); variables quantitatives du deck – les discrétiser en catégories. Quant aux variables avec des valeurs manquantes – elles peuvent être de nimporte quel type, et cest latout de la méthode (de nombreuses formes alternatives dimputation unique ne peuvent imputer quà des caractéristiques quantitatives ou continues).
Une autre faiblesse de hot -deck imputation est la suivante: lorsque vous imputez des manquements dans plusieurs variables, par exemple X et Y, cest-à-dire exécutez une fonction dimputation une fois avec X, puis avec Y, et si le cas i manquait dans les deux variables, limputation de i dans Y sera ne pas être lié à la valeur imputée dans i dans X; en dautres termes, la corrélation possible entre X et Y nest pas prise en compte lors de limputation de Y. En dautres termes, la saisie est « univariée », elle ne reconnaît pas la nature multivariée potentielle du « dépendant » (cest-à-dire le destinataire, ayant des valeurs manquantes) variables. $ ^ 1 $
Ne pas abuser de limputation hot-deck. Toute imputation domissions est recommandée uniquement sil ny a pas plus de 20% dobservations manquantes dans une variable. les donateurs doivent être suffisamment importants. Sil y a un donateur, il est risqué que, sil sagit dun cas atypique, vous étendiez latypicité à dautres données.
Sélection des donateurs avec ou sans remplacement . Dans un régime sans remplacement, un cas donneur, sélectionné au hasard, ne peut attribuer de valeur quà un seul cas receveur.Dans le régime dautorisation de remplacement, un cas de donneur peut redevenir donneur sil est à nouveau sélectionné au hasard, imputant ainsi à plusieurs cas de receveur. Le deuxième régime peut entraîner un biais de distribution grave si les cas de receveurs sont nombreux alors que les cas de donneurs susceptibles dêtre imputés sont peu nombreux, car alors un donneur imputera sa valeur à de nombreux destinataires; alors que lorsquil y a beaucoup de donateurs parmi lesquels choisir, le biais sera tolérable. La méthode sans remplacement ne conduit à aucun biais mais peut laisser de nombreux cas non imputés sil y a peu de donneurs.
Ajout de bruit . Limputation hot-deck classique emprunte (copie) une valeur telle quelle. Il est cependant possible de concevoir dajouter du bruit aléatoire à une valeur empruntée / imputée si la valeur est quantitative.
Correspondance partielle sur les caractéristiques du deck . Sil existe plusieurs variables darrière-plan, un cas donneur est éligible pour un choix aléatoire sil correspond à certains cas receveurs par toutes les variables darrière-plan. Avec plus de 2 ou 3 caractéristiques de ce deck ou lorsquils contiennent de nombreuses catégories, il est probable quil ne trouve pas du tout de donateurs éligibles. Pour surmonter, il est possible de ne demander quune correspondance partielle si nécessaire pour rendre un donateur éligible. Par exemple, exigez une correspondance sur k
nimporte quel du total g
des variables de deck. Ou, exigez une correspondance sur k
premier de la liste g
des variables de deck. Plus il est arrivé que k
pour un donneur potentiel soit élevé, plus sa capacité à être sélectionné au hasard sera élevée. [La correspondance partielle ainsi que le remplacement / non-remplacement sont implémentés dans ma macro hot-dock pour SPSS.]
$ ^ 1 $ Si vous insistez pour en tenir compte, deux alternatives pourraient vous être recommandées : (1) lors de limputation de Y, ajoutez le X déjà imputé à la liste des variables darrière-plan (vous devriez créer une variable catégorielle X) et utilisez une fonction dimputation hot-deck qui permet une correspondance partielle sur les variables darrière-plan; (2) étendre sur Y la solution dimputation qui avait émergé lors de limputation de X, cest-à-dire utiliser le même cas de donneur. Cette 2ème alternative est rapide et facile, mais cest la reproduction stricte sur Y de limputation ayant été faite sur X, – il ne reste rien dindépendance entre les deux processus dimputation – donc cette alternative nest pas bonne .