Ho letto in questo link , nella sezione 2, primo paragrafo sullhot deck che “” preserva la distribuzione dei valori degli articoli “”.

Non capisco che, se lo stesso donatore viene utilizzato per molti destinatari, questo potrebbe distorcere la distribuzione o mi manca qualcosa qui?

Inoltre, il il risultato dellimputazione di Hot Deck deve dipendere dallalgoritmo di corrispondenza utilizzato per abbinare i donatori ai destinatari?

Più in generale, qualcuno conosce i riferimenti che confrontano hot deck con imputazioni multiple?

Commenti

  • Non conosco limputazione di hot deck, ma la tecnica suona come la corrispondenza predittiva della media (pmm). Forse puoi trovare la risposta lì?
  • Non ha molto senso pratico confrontare un singolo metodo di imputazione (come hot-deck) con più imputazione: limputazione multipla eccelle sempre ed è quasi sempre meno utile.

Risposta

Imputazione hot-deck di mancanti valori è uno dei più semplici metodi di assegnazione singola.

Il metodo, che è intuitivamente ovvio, è che un caso con valore mancante riceve un valore valido da un caso scelto casualmente da quei casi che sono al massimo simili al ne manca una, in base ad alcune variabili di sfondo specificate dallutente (queste variabili sono anche chiamate “variabili di mazzo”). Il pool di casi di donatori è chiamato “mazzo”.

Nello scenario più elementare – senza caratteristiche di sfondo – potresti dichiarare lappartenenza allo stesso n -casi set di dati per essere quello e solo “variabile di sfondo”; quindi limputazione sarà solo una selezione casuale da n-m casi validi per essere donatori per i m casi con valori mancanti. La sostituzione casuale è al centro dellhot-deck.

Per consentire lidea di correlazione che influenza i valori, viene utilizzata la corrispondenza su variabili di sfondo più specifiche. Ad esempio, potresti voler imputare la risposta mancante di un maschio bianco di 30-35 anni da donatori appartenenti a quella specifica combinazione di caratteristiche. Le caratteristiche di fondo dovrebbero essere – almeno teoricamente – associate alla caratteristica analizzata (da imputare); lassociazione, tuttavia, non dovrebbe essere quella oggetto dello studio, altrimenti si tratta di una contaminazione tramite imputazione.

Limputazione hot-deck è vecchia ancora popolare perché è sia semplice in idea e, allo stesso tempo, adatto a situazioni in cui metodi di elaborazione di valori mancanti come eliminazione listwise o sostituzione media / mediana non vanno bene perché i mancati sono allocati nei dati non caoticamente – non secondo il modello MCAR (Missing Completely At Random). Hot-deck è ragionevolmente adatto per il pattern MAR (per MNAR, limputazione multipla è lunica soluzione decente). Hot-deck, essendo un prestito casuale, non influenza la distribuzione marginale, almeno potenzialmente. Tuttavia, influisce potenzialmente sulle correlazioni e altera i parametri di regressione; questo effetto, tuttavia, potrebbe essere ridotto al minimo con versioni più complesse / sofisticate della procedura hot-deck.

Un difetto dellimputazione hot-deck è che richiede che le variabili di sfondo sopra menzionate siano certamente categoriali (a causa del categorico, non è richiesto uno speciale “algoritmo di corrispondenza”); variabili quantitative del mazzo: discretizzale in categorie. Per quanto riguarda le variabili con valori mancanti, possono essere di qualsiasi tipo, e questa è la risorsa del metodo (molte forme alternative di singola imputazione possono essere imputate solo a caratteristiche quantitative o continue).

Un altro punto debole di hot -imputazione del banco è questa: quando imputi mancanze in diverse variabili, ad esempio X e Y, cioè esegui una funzione di imputazione una volta con X, poi con Y, e se il caso i mancava in entrambe le variabili, lassegnazione di i in Y sarà non essere correlato con quale valore era stato imputato in i in X; in altre parole, la possibile correlazione tra X e Y non viene presa in considerazione nellimputazione di Y. In altre parole, linput è “univariata”, non “riconosce la potenziale natura multivariata del” dipendente “(cioè destinatario, con valori mancanti) variabili. $ ^ 1 $

Non utilizzare impropriamente limputazione hot-deck. Si consiglia di eseguire qualsiasi imputazione di errori solo se in una variabile non manca più del 20% dei casi. Il mazzo di potenziali i donatori devono essere abbastanza grandi. Se cè un donatore è rischioso che se si tratta di un caso atipico si estenda latipicità rispetto ad altri dati.

Selezione di donatori con o senza sostituzione . È possibile farlo in entrambi i casi: in regime di non sostituzione, un caso donatore, selezionato casualmente, può attribuire valore solo a un caso ricevente.Nel regime di sostituzione autorizzata, un caso di donatore può diventare nuovamente donatore se viene nuovamente selezionato in modo casuale, imputando così a diversi casi riceventi. Il 2 ° regime può causare gravi distorsioni distributive se i casi riceventi sono molti mentre i casi di donatori idonei ad imputarli sono pochi, poiché allora un donatore imputerà il suo valore a molti riceventi; mentre quando ci sono molti donatori tra cui scegliere, il bias sarà tollerabile. La modalità senza sostituzione non porta a pregiudizi, ma può lasciare molti casi non contestati se ci sono pochi donatori.

Aggiungere rumore . Limputazione classica del mazzo caldo prende in prestito (copia) un valore così comè. Tuttavia, è possibile concepire laggiunta di rumore casuale a un valore preso in prestito / imputato se il valore è quantitativo.

Corrispondenza parziale sulle caratteristiche del mazzo . Se sono presenti più variabili di sfondo, un caso di donatore è idoneo per la scelta casuale se corrisponde ad alcuni casi di destinatario in base a tutte le variabili di sfondo. Con più di 2 o 3 di tali caratteristiche del mazzo o quando contengono molte categorie, è probabile che non trovi affatto donatori idonei. Per superare, è possibile richiedere solo una corrispondenza parziale, se necessario per rendere ammissibile un donatore. Ad esempio, richiedi la corrispondenza su k qualsiasi del totale g delle variabili del mazzo. Oppure richiedi la corrispondenza sul k primo dellelenco g di variabili del mazzo. Maggiore è successo che k per un potenziale donatore, maggiore sarà la sua potenzialità di essere selezionato casualmente. [La corrispondenza parziale e la sostituzione / sostituzione sono implementate nella mia macro hot-dock per SPSS.]


$ ^ 1 $ Se insisti a tenerne conto, potresti consigliarti due alternative : (1) nellimputazione di Y, aggiungi la X già assegnata allelenco delle variabili di sfondo (dovresti creare la variabile categoriale X) e usa una funzione di imputazione hot-deck che consente la corrispondenza parziale sulle variabili di sfondo; (2) estendere su Y la soluzione imputazionale che era emersa nellimputazione di X, ovvero utilizzare lo stesso caso del donatore. Questa seconda alternativa è semplice e veloce, ma è la riproduzione rigorosa su Y dellimputazione fatta su X, – qui non rimane nulla di indipendenza tra i due processi di imputazione – quindi questa alternativa non è buona .


inserisci qui la descrizione dellimmagine

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *