Přečetl jsem si tento odkaz v části 2, první odstavec o horké palubě, která „“ zachovává distribuci hodnot položek „“.

Nerozumím tomu, že pokud je pro mnoho příjemců použit jeden a ten samý dárce, může to narušit distribuci nebo mi zde něco chybí?

Také výsledek imputace Hot Deck musí záviset na algoritmu shody použitém k přiřazení dárců k příjemcům?

Obecněji, zná někdo reference porovnávající hot deck s vícenásobnou imputací?

Komentáře

  • Nevím o imputaci hot deck, ale tato technika zní jako prediktivní průměrování (pmm). Možná tam najdete odpověď?
  • Neexistuje příliš praktický smysl srovnávat jednoduchou metodu imputace (například hot-deck) s více imputace: vícenásobná imputace vždy vyniká a je téměř vždy méně praktická.

Odpověď

Imputace hot-deck chybějících values je jednou z nejjednodušších metod jednoduché imputace.

Metoda – která je intuitivně zřejmá – spočívá v tom, že případ s chybějící hodnotou obdrží platnou hodnotu z případu náhodně vybraného z těch případů, které jsou maximálně podobné chybí jedna, na základě některých proměnných pozadí určených uživatelem (tyto proměnné se také nazývají „proměnné balíčku“). Soubor dárcovských případů se nazývá „balíček“.

V nejzákladnějším scénáři – bez charakteristik pozadí – můžete deklarovat příslušnost ke stejným n případům datová sada, která je jedinou a pouze „proměnnou pozadí“; pak imputace bude jen náhodný výběr z n-m platných případů, které budou dárci pro případy m s chybějícími hodnotami. Náhodné nahrazování je jádrem hot-deck.

Pro umožnění myšlenky ovlivňování hodnot korelace se používá shoda na konkrétnějších proměnných pozadí. Můžete například chtít zapsat chybějící odpověď bílého muže o délce 30–35 let od dárců patřících k dané konkrétní kombinaci charakteristik. Charakteristiky pozadí by měly být – alespoň teoreticky – spojeny s analyzovanou charakteristikou (bude započítáno); asociace by však neměla být tou, která je předmětem studie – jinak dojde ke kontaminaci pomocí imputace.

Imputace hot-deck je stará stále populární, protože je v nápad a zároveň vhodný pro situace, kdy takové metody zpracování chybějících hodnot, jako je listové smazání nebo střední / střední substituce , nebudou fungovat, protože v datech jsou alokovány chybějící údaje ne chaoticky – ne podle vzoru MCAR (chybí zcela náhodně). Hot-deck je přiměřeně vhodný pro MAR vzor (pro MNAR je vícenásobná imputace jediným slušným řešením). Hot-deck, který je náhodným půjčováním, nezatěžuje okrajové rozdělení, alespoň potenciálně. Potenciálně to však ovlivňuje korelace a ovlivňuje regresní parametry; tento efekt by však bylo možné minimalizovat složitějšími / sofistikovanějšími verzemi procedury hot-deck.

Nedostatkem imputace hot-deck je, že vyžaduje, aby výše uvedené proměnné pozadí byly určitě kategorické (z důvodu kategorického není vyžadován žádný speciální „algoritmus shody“); kvantitativní proměnné balíčku – diskretizujte je do kategorií. Pokud jde o proměnné s chybějícími hodnotami – mohou to být jakýkoli typ, a to je výhodou metody (mnoho alternativních forem jediné imputace lze přičítat pouze kvantitativním nebo spojitým funkcím).

Další slabinou horkých -deck imputation is this: when you impute missing in several variables, for example X and Y, ie run an imputation function once with X, then with Y, and if case i was missing in both variables, the imputation of i in Y will nesouvisí s tím, jaká hodnota byla imputována v i v X; jinými slovy možná korelace mezi X a Y se při imputování Y nebere v úvahu. Jinými slovy, vstup je „univariate“, nerozpoznává potenciální multivariantní povahu „závislého“ (tj. příjemce, který má chybějící hodnoty) proměnné. $ ^ 1 $

Nezneužívejte imputaci hot-deck. Doporučujeme provádět jakoukoli imputaci zmeškaných, pouze pokud v proměnné chybí více než 20% případů. Balíček potenciálu dárci musí být dostatečně velcí. Pokud existuje jeden dárce, je riskantní, že pokud se jedná o atypický případ, rozšíří se atypicita o jiné údaje.

Výběr dárců s náhradou nebo bez ní . Je možné to udělat oběma způsoby: V režimu bez náhrady může případ dárce, náhodně vybraný, přičítat hodnotu pouze jednomu případu příjemce.V režimu náhradní výměny se případ dárce může znovu stát dárcem, pokud je znovu náhodně vybrán, což se přičítá několika případům příjemce. Druhý režim může způsobit vážné distribuční zkreslení, pokud je případů příjemců mnoho, zatímco případů dárců vhodných k imputaci je málo, protože pak jeden dárce přičte svou hodnotu mnoha příjemcům; vzhledem k tomu, že pokud je na výběr mnoho dárců, bude předpojatost přijatelná. Způsob bez náhrady vede k žádnému zkreslení, ale může ponechat mnoho případů nepopiratelných, pokud existuje několik dárců.

Přidání šumu . Klasická imputace hot-deck si pouze půjčí (zkopíruje) hodnotu, jaká je. Je však možné si představit přidání náhodného šumu k vypůjčené / imputované hodnotě, pokud je tato hodnota kvantitativní.

Částečná shoda na vlastnostech balíčku . Pokud existuje několik proměnných pozadí, je případ dárce způsobilý pro náhodnou volbu, pokud odpovídá některým případům příjemce všemi proměnnými pozadí. S více než 2 nebo 3 takovými charakteristikami balíčku nebo pokud obsahují mnoho kategorií, je pravděpodobné, že vůbec nenajde způsobilé dárce. K překonání je možné požadovat pouze částečnou shodu, která je nezbytná, aby byl dárce způsobilý. Například vyžadovat shodu s jakýmkoli z celkového g proměnných balíčku. Nebo vyžadovat shodu k první seznamu g proměnných balíčku. Čím větší je, že k pro potenciálního dárce bude tím vyšší, že bude náhodně vybrán. [Částečná shoda i nahrazení / nahrazení jsou implementovány v mém hot-dockovém makru pro SPSS.]


$ ^ 1 $ Pokud na tom trváte, možná vám budou doporučeny dvě alternativy : (1) při imputování Y přidejte již přičtené X do seznamu proměnných pozadí (měli byste vytvořit X kategorické proměnné) a použijte funkci imputace hot-deck, která umožňuje částečnou shodu proměnných pozadí; (2) rozšířit nad Y imputační řešení, které se objevilo při imputaci X, tj. Použít stejný dárcovský případ. Tato druhá alternativa je rychlá a snadná, ale je to striktní reprodukce imputace na Y, která byla provedena na X, – nezůstává zde nic o nezávislosti mezi dvěma imputačními procesy – proto tato alternativa není dobrá .


zde zadejte popis obrázku

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *