Am citit în acest link , în secțiunea 2, primul paragraf despre hot deck care „” păstrează distribuția valorilor articolelor „”.
Nu înțeleg că, dacă se folosește unul și același donator pentru mulți destinatari, atunci acest lucru poate distorsiona distribuția sau îmi lipsește ceva aici?
De asemenea, rezultatul imputării Hot Deck trebuie să depindă de algoritmul de potrivire utilizat pentru a potrivi donatorii cu destinatarii?
Mai general, știe cineva referințe care compară hot deck-ul cu imputarea multiplă?
Comentarii
- Nu știu despre imputarea hot deck, dar tehnica sună ca o potrivire predictivă medie (pmm). Poate găsiți răspunsul acolo?
- Nu există prea mult sens practic să comparați o metodă de imputare single (cum ar fi hot-deck) cu multiple imputare: imputarea multiplă excelează întotdeauna și este aproape întotdeauna mai puțin utilă.
Răspuns
Imputarea hot-deck a celor lipsă valori este una dintre cele mai simple metode de imputare simplă.
Metoda – ceea ce este intuitiv evident – este că un caz cu valoare lipsă primește valoare validă dintr-un caz ales aleatoriu din acele cazuri care sunt asemănătoare maxim cu lipsește una, pe baza unor variabile de fundal specificate de utilizator (aceste variabile se mai numesc „variabile de punte”). Grupul de cazuri de donatori se numește „punte”.
În scenariul cel mai de bază – fără caracteristici de fundal – ați putea declara apartenența la aceleași n
setul de date să fie acela și numai „variabila de fundal”; atunci imputarea va fi doar o selecție aleatorie din n-m
cazuri valabile pentru a fi donatori pentru m
cazuri cu valori lipsă. Înlocuirea aleatorie se află în centrul hot-deck-ului.
Pentru a permite ideea de corelare care influențează valorile, se utilizează potrivirea cu variabile de fundal mai specifice. De exemplu, poate doriți să imputați răspunsul lipsă al unui bărbat alb de 30-35 de ani de la donatori care aparțin acelei combinații specifice de caracteristici. Caracteristicile de fundal ar trebui să fie – cel puțin teoretic – asociate cu caracteristica analizată (de imputat); asocierea, totuși, nu ar trebui să fie cea care face obiectul studiului – în caz contrar, facem o contaminare prin imputare.
Imputarea hot-deck este veche, încă populară, deoarece este simplă atât în ideea și, în același timp, potrivită pentru situațiile în care astfel de metode de procesare a valorilor lipsă, cum ar fi ștergerea prin listă sau substituirea medie / mediană , nu vor fi valabile deoarece lipsurile sunt alocate în date nu haotic – nu conform modelului MCAR (lipsă complet la întâmplare). Hot-deck este potrivit în mod rezonabil pentru modelul MAR (pentru MNAR, imputarea multiplă este singura soluție decentă). Hot-deck, fiind împrumut aleator, nu influențează distribuția marginală, cel puțin potențial. Cu toate acestea, afectează potențial corelațiile și părtinirile parametrilor regresivi; acest efect, cu toate acestea, ar putea fi minimizat cu versiuni mai complexe / sofisticate ale procedurii hot-deck.
Un neajuns al imputării hot-deck este că solicită ca variabilele de fundal menționate mai sus să fie cu siguranță categorice (din cauza categoriei, nu este necesar un „algoritm de potrivire” special); variabile cantitative de punte – discretați-le în categorii. În ceea ce privește variabilele cu valori lipsă – acestea pot fi de orice tip și acesta este avantajul metodei (multe forme alternative de imputare unică pot fi imputate doar caracteristicilor cantitative sau continue).
O altă slăbiciune a hot -imputarea punții este aceasta: atunci când imputați lipsuri în mai multe variabile, de exemplu X și Y, adică rulați o funcție de imputare o dată cu X, apoi cu Y și dacă cazul i lipsea în ambele variabile, imputarea lui i în Y va fi să nu fie legat de ce valoare fusese imputată în i în X; cu alte cuvinte, posibila corelație între X și Y nu este luată în considerare la imputarea lui Y. Cu alte cuvinte, introducerea este „univariantă”, nu „recunoaște natura potențială multivariată a„ dependentului ”(adică destinatarul, care are valori lipsă) variabile. $ ^ 1 $
Nu utilizați în mod abuziv imputarea hot-deck. Orice imputare a ratărilor este recomandată numai dacă nu există mai mult de 20% din cazuri lipsesc într-o variabilă. donatorii trebuie să fie suficient de mari. Dacă există un donator, este riscant ca, dacă este un caz atipic, să extindeți atipicitatea asupra altor date.
Selecția donatorilor cu sau fără înlocuire . Este posibil să o faceți în orice mod. În regimul de neînlocuire, un caz donator, selectat aleatoriu, poate imputa valoare doar unui caz destinatar.În regimul de înlocuire a permiselor, un caz de donator poate deveni din nou donator dacă este selectat din nou aleatoriu, imputând astfel mai multor cazuri de primitori. Al doilea regim poate provoca o prejudecată distribuțională severă dacă cazurile destinatarilor sunt numeroase, în timp ce cazurile de donatori adecvate pentru a fi imputate sunt puține, deoarece atunci un donator își va imputa valoarea pentru mulți destinatari; întrucât atunci când există o mulțime de donatori dintre care să aleagă, prejudecata va fi tolerabilă. Modul de înlocuire nu duce la prejudecăți, dar poate lăsa multe cazuri neimputate dacă există puțini donatori.
Adăugarea zgomotului . Imitarea clasică a hot-deck doar împrumută (copiază) o valoare așa cum este. Cu toate acestea, este posibil să concepem adăugarea unui zgomot aleatoriu la o valoare împrumutată / imputată dacă valoarea este cantitativă.
Potrivire parțială pe caracteristicile punții . Dacă există mai multe variabile de fundal, un caz de donator este eligibil pentru alegerea aleatorie dacă se potrivește cu unele cazuri de destinatar cu toate variabilele de fond. Cu mai mult de 2 sau 3 astfel de caracteristici de punte sau atunci când conțin mai multe categorii, este posibil să nu găsiți deloc donatori eligibili. Pentru a depăși, este posibil să se solicite doar o potrivire parțială, după cum este necesar, pentru a face eligibil un donator. De exemplu, solicitați potrivirea pe k
oricare din totalul g
al variabilelor de punte. Sau, solicitați potrivirea pe k
first din lista g
a variabilelor de punte. Cu cât este mai mare că k
pentru un donator potențial, cu atât potențialul său va fi selectat aleatoriu. [Potrivirea parțială, precum și înlocuirea / noreplacement-ul sunt implementate în macro-ul meu hot-dock pentru SPSS.]
$ ^ 1 $ Dacă insistați să țineți cont de aceasta, vi se pot recomanda două alternative : (1) la imputarea Y, adăugați X-ul deja imputat la lista de variabile de fundal (ar trebui să faceți variabilă categorică X) și utilizați o funcție de imputare hot-deck care permite potrivirea parțială a variabilelor de fundal; (2) extindeți peste Y soluția imputațională care a apărut în imputarea lui X, adică utilizați același caz de donator. Această a 2-a alternativă este rapidă și ușoară, dar este reproducerea strictă pe Y a imputării care a fost făcută pe X, – nimic de independență între cele două procese de imputație nu rămâne aici – de aceea această alternativă nu este bună .