Przeczytałem w tym linku , w sekcji 2, pierwszy akapit o gorącej talii, że „” zachowuje rozkład wartości pozycji „”.

Nie rozumiem, że jeśli jeden i ten sam dawca jest używany dla wielu biorców, może to zniekształcić dystrybucję lub czy coś mi tu brakuje?

Ponadto wynik imputacji Hot Deck musi zależeć od algorytmu dopasowującego używanego do dopasowania dawców do biorców?

Mówiąc bardziej ogólnie, czy ktoś zna odniesienia porównujące hot deck do wielokrotnego imputacji?

Komentarze

  • Nie wiem o przypisywaniu gorącej talii, ale ta technika brzmi jak przewidywanie średniej dopasowania (pmm). Może znajdziesz tam odpowiedź?
  • Nie ma praktycznego sensu porównywanie pojedynczej metody imputacji (takiej jak hot-deck) z wielokrotnymi imputacja: wielokrotne imputacja zawsze wyróżnia się i prawie zawsze jest mniej przydatne.

Odpowiedź

Przypisywanie brakujących danych na gorąco wartości jest jedną z najprostszych metod imputacji pojedynczej.

Metoda – co jest intuicyjnie oczywiste – polega na tym, że przypadek z brakującą wartością otrzymuje prawidłową wartość z przypadku losowo wybranego z przypadków, które są maksymalnie podobne do brak jednej, na podstawie niektórych zmiennych tła określonych przez użytkownika (te zmienne są również nazywane „zmiennymi pokładowymi”). Pula przypadków dawców nazywa się „talią”.

W najbardziej podstawowym scenariuszu – bez cech tła – możesz zadeklarować przynależność do tych samych n przypadków jako zbiór danych i jedyną „zmienną tła”; wtedy imputacja będzie po prostu losowym wyborem spośród n-m prawidłowych przypadków, które będą dawcami dla m przypadków z brakującymi wartościami. Losowe podstawianie jest podstawą gorącej talii.

Aby uwzględnić ideę korelacji wpływających na wartości, stosuje się dopasowywanie na bardziej szczegółowych zmiennych tła. Na przykład możesz zechcieć przypisać brakującą odpowiedź białego mężczyzny w wieku 30-35 lat od dawców należących do tej konkretnej kombinacji cech. Cechy tła powinny być – przynajmniej teoretycznie – związane z analizowaną cechą (do przypisania); skojarzenie nie powinno być jednak tym, które jest przedmiotem badania – w przeciwnym razie dochodzi do skażenia przez imputację.

Imputacja na gorąco jest stara, wciąż popularna, ponieważ jest zarówno prosta w pomysł i jednocześnie nadaje się do sytuacji, w których takie metody przetwarzania brakujących wartości, jak usuwanie listowe lub podstawianie średniej / mediany nie sprawdzą się, ponieważ brakujące wartości są alokowane w danych nie chaotycznie – nie według wzorca MCAR (Missing Completely At Random). Hot-deck jest rozsądnie dostosowany do wzoru MAR (dla MNAR, wielokrotne imputacja jest jedynym przyzwoitym rozwiązaniem). Hot-deck, będący przypadkowym pożyczaniem, nie wpływa na dystrybucję marginalną, przynajmniej potencjalnie. Potencjalnie wpływa jednak na korelacje i odchylenia parametry regresji; efekt ten można jednak zminimalizować dzięki bardziej złożonym / wyrafinowanym wersjom procedury gorącej talii.

Wadą przypisywania gorącej talii jest to, że wymaga ona, aby wspomniane powyżej zmienne tła były z pewnością kategorialne (ze względu na kategorię nie jest wymagany żaden specjalny „algorytm dopasowywania”); ilościowe zmienne talii – podziel je na kategorie. Jeśli chodzi o zmienne z brakami wartości – mogą być dowolnego typu i jest to zaleta metody (wiele alternatywnych form imputacji pojedynczej można przypisać tylko cechom ilościowym lub ciągłym).

Kolejna słabość metody hot -deck imputation polega na tym, że kiedy imputujesz braki w kilku zmiennych, na przykład X i Y, tj. uruchamiasz funkcję imputacji raz z X, potem z Y, i jeśli przypadek i nie występuje w obu zmiennych, przypisanie i w Y będzie nie ma związku z tym, jaką wartość przypisano w i w X; innymi słowy, możliwa korelacja między X i Y nie jest brana pod uwagę przy przypisywaniu Y. Innymi słowy, dane wejściowe są „jednowymiarowe”, nie rozpoznają potencjalnej wielowymiarowej natury „zależnego” (tj. odbiorcy, który ma brakujące wartości) zmienne. $ ^ 1 $

Nie nadużywaj imputacji „gorącej talii”. Wszelkie przypisywanie braków jest zalecane tylko wtedy, gdy w zmiennej brakuje nie więcej niż 20% przypadków. Talia potencjalnych ilość dawców musi być wystarczająco duża. Jeśli jest jeden dawca, ryzykowne jest, że w nietypowym przypadku rozszerzysz nietypowość na inne dane.

Wybór dawców z wymianą lub bez niej . Można to zrobić w obie strony W systemie bez wymiany przypadek dawcy, wybrany losowo, może przypisać wartość tylko jednemu przypadkowi biorcy.W systemie wymiany zezwolenia przypadek dawcy może ponownie stać się dawcą, jeśli zostanie ponownie wybrany losowo, co można przypisać kilku przypadkom biorców. Drugi system może powodować poważne odchylenia w dystrybucji, jeśli przypadków biorców jest wiele, podczas gdy przypadków dawców nadających się do przypisania jest niewielu, ponieważ wtedy jeden dawca przypisuje swoją wartość wielu biorcom; mając na uwadze, że gdy jest wielu dawców do wyboru, błąd ten będzie znośny. Metoda bez zamiany prowadzi do braku stronniczości, ale może pozostawić wiele przypadków bez przypisania, jeśli jest niewielu dawców.

Dodawanie szumu . Klasyczne imputacje typu hot-deck po prostu pożyczają (kopiują) wartość taką, jaka jest. Można jednak wyobrazić sobie dodanie przypadkowego szumu do pożyczonej / przypisanej wartości, jeśli wartość jest ilościowa.

Częściowe dopasowanie charakterystyk pokładu . Jeśli istnieje kilka zmiennych tła, przypadek dawcy kwalifikuje się do losowego wyboru, jeśli pasuje do niektórych przypadków biorców na podstawie wszystkich zmiennych tła. Z więcej niż 2 lub 3 takimi cechami talii lub gdy zawiera ona wiele kategorii, co sprawia, że prawdopodobnie w ogóle nie można znaleźć kwalifikujących się dawców. Aby przezwyciężyć, można wymagać tylko częściowego dopasowania, jeśli jest to konieczne, aby dawca kwalifikował się. Na przykład wymagaj dopasowania k dowolnej z łącznej liczby g zmiennych talii. Lub wymagaj dopasowania k pierwszej listy g zmiennych talii. Im większe wystąpiło, że k w przypadku potencjalnego dawcy, tym większa będzie jego możliwość losowego wyboru. [Częściowe dopasowanie, jak również zastąpienie / brak zastępowania są zaimplementowane w moim makrze hot-dock dla SPSS.]


$ ^ 1 $ Jeśli nalegasz na wzięcie tego pod uwagę, możesz otrzymać dwie alternatywy : (1) przy imputacji Y, dodaj już przypisane X do listy zmiennych tła (powinieneś uczynić zmienną kategorialną X) i użyj funkcji imputacji hot-deck, która pozwala na częściowe dopasowanie zmiennych tła; (2) rozciągnąć na Y rozwiązanie imputacyjne, które pojawiło się przy imputacji X, tj. Wykorzystać ten sam przypadek dawcy. Ta druga alternatywa jest szybka i łatwa, ale jest to ścisłe odtworzenie na Y przypisania dokonanego na X – nic z niezależności między dwoma procesami imputacji nie pozostaje tutaj – dlatego ta alternatywa jest nie dobra .


tutaj wprowadź opis obrazu

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *