Ik las in deze link , onder sectie 2, eerste alinea over hot deck dat “” het behoudt de verdeling van itemwaarden “”.

Ik begrijp niet dat, als één en dezelfde donor voor veel ontvangers wordt gebruikt, dit de distributie kan verstoren of mis ik hier iets?

Ook de het resultaat van de Hot Deck-imputatie moet afhangen van het matching-algoritme dat wordt gebruikt om de donors te matchen met de ontvangers?

Meer algemeen: kent iemand referenties die hot deck vergelijken met meervoudige imputatie?

Opmerkingen

  • Ik weet niets over hot deck-imputatie, maar de techniek klinkt als predictive mean matching (pmm). Misschien kun je daar het antwoord vinden?
  • Het heeft niet veel praktisch nut om een enkele imputatiemethode (zoals hot-deck) te vergelijken met meerdere imputatie: meervoudige imputatie blinkt altijd uit en is bijna altijd minder handig.

Antwoord

Hot-deck imputatie van ontbrekende waarden is een van de eenvoudigste methoden voor enkelvoudige imputatie.

De methode – die intuïtief voor de hand ligt – is dat een casus met ontbrekende waarde een geldige waarde ontvangt van een casus die willekeurig is gekozen uit die gevallen die maximaal gelijk zijn aan de ontbreekt er een, gebaseerd op een aantal achtergrondvariabelen gespecificeerd door de gebruiker (deze variabelen worden ook wel “deckvariabelen” genoemd). De pool van donorgevallen wordt “kaartspel” genoemd.

In het meest basisscenario – geen achtergrondkenmerken – zou je kunnen aangeven dat ze behoren tot dezelfde n -gevallen dataset als enige “achtergrondvariabele”; dan zal de imputatie een willekeurige selectie zijn uit n-m geldige gevallen om donor te zijn voor de m gevallen met ontbrekende waarden. Willekeurige substitutie vormt de kern van hot-deck.

Om het idee van waarden die de correlatie beïnvloeden mogelijk te maken, wordt matching op meer specifieke achtergrondvariabelen gebruikt. U wilt bijvoorbeeld de ontbrekende respons van een blanke man van 30-35 jaar van donoren die tot die specifieke combinatie van kenmerken behoren, toeschrijven. Achtergrondkenmerken dienen – tenminste theoretisch – verband te houden met het geanalyseerde kenmerk (toe te schrijven); de associatie zou echter niet het onderwerp van de studie moeten zijn – anders komt het dat we een besmetting doen via imputatie.

Hot-deck imputatie is oud nog steeds populair omdat het beide eenvoudig is in idee en, tegelijkertijd, geschikt voor situaties waarin methoden voor het verwerken van ontbrekende waarden zoals lijstgewijze verwijdering of gemiddelde / mediaan substitutie niet werken omdat missers worden toegewezen in de gegevens niet chaotisch – niet volgens MCAR-patroon (volledig willekeurig ontbreekt). Hot-deck is redelijk geschikt voor MAR-patroon (voor MNAR is multiple-imputation de enige goede oplossing). Omdat Hot-Deck willekeurig wordt geleend, vertekent het de marginale distributie niet, althans potentieel. Het beïnvloedt echter mogelijk correlaties en vertekent regressieparameters; dit effect zou echter kunnen worden geminimaliseerd met meer complexe / geavanceerde versies van hot-deck-procedure.

Een tekortkoming van hot-deck-imputatie is dat het vereist dat de bovengenoemde achtergrondvariabelen zeker categorisch (vanwege categorisch is er geen speciaal “matching-algoritme” vereist); kwantitatieve deckvariabelen – breng ze in categorieën onder. Wat betreft de variabelen met ontbrekende waarden – ze kunnen van elk type zijn, en dit is de troef van de methode (veel alternatieve vormen van enkelvoudige imputatie kunnen alleen worden toegeschreven aan kwantitatieve of continue kenmerken).

Nog een zwak punt van hot -deck-imputatie is dit: wanneer je missings in verschillende variabelen toerekent, bijvoorbeeld X en Y, dwz een imputatiefunctie één keer uitvoert met X, dan met Y, en als geval i ontbrak in beide variabelen, zal de imputatie van i in Y niet gerelateerd zijn aan welke waarde werd toegerekend in i in X; met andere woorden, mogelijke correlatie tussen X en Y wordt niet in aanmerking genomen bij het toerekenen van Y. Met andere woorden, invoer is univariate, het herkent de potentiële multivariate aard van het afhankelijke niet (dwz de ontvanger, met ontbrekende waarden) variabelen. $ ^ 1 $

Maak geen misbruik van hot-deck-imputatie. Elke imputatie van misssings wordt alleen aanbevolen als er niet meer dan 20% van de gevallen ontbreekt in een variabele. donors moeten groot genoeg zijn. Als er één donor is, is het riskant dat als het een atypisch geval is, je de atypicaliteit uitbreidt ten opzichte van andere gegevens.

Selectie van donors met of zonder vervanging . Het is mogelijk om het op beide manieren te doen: in een niet-vervangingsregime kan een willekeurig gekozen donorzaak slechts waarde toekennen aan één ontvangend geval.Bij een vervangingsregime kan een donorcasus weer donor worden als deze opnieuw willekeurig wordt geselecteerd, waardoor meerdere ontvangende gevallen worden toegerekend. Het tweede regime kan ernstige distributievooroordelen veroorzaken als er veel ontvangende gevallen zijn, terwijl er weinig donorgevallen zijn die geschikt zijn om toe te rekenen, want dan zal één donor zijn waarde aan veel ontvangers toerekenen; terwijl wanneer er veel donoren zijn om uit te kiezen, de vooringenomenheid aanvaardbaar zal zijn. De niet-vervangende manier leidt tot geen vooringenomenheid, maar kan veel gevallen onberekend laten als er weinig donoren zijn.

Ruis toevoegen . Klassieke hot-deck-imputatie leent (kopieert) gewoon een waarde zoals deze is. Het is echter mogelijk om willekeurige ruis toe te voegen aan een geleende / toegekende waarde als de waarde kwantitatief is.

Gedeeltelijke overeenkomst op dekkenmerken . Als er meerdere achtergrondvariabelen zijn, komt een donorzaak in aanmerking voor willekeurige keuze als deze overeenkomt met enkele ontvangende zaken door alle achtergrondvariabelen. Met meer dan 2 of 3 van dergelijke kaartkarakteristieken of wanneer ze veel categorieën bevatten, waardoor het waarschijnlijk is dat er helemaal geen geschikte donateurs zullen worden gevonden. Om dit te overwinnen, is het mogelijk om slechts een gedeeltelijke match te eisen als dat nodig is om een donor in aanmerking te laten komen. Vereist bijvoorbeeld matching op k elke van het totale g deck variabelen. Of vereist matching op k eerste van de lijst g van deckvariabelen. Hoe groter het is dat k voor een potentiële donor is, des te hoger zal de mogelijkheid zijn om willekeurig te worden geselecteerd. [Gedeeltelijke overeenkomst en vervanging / vervanging zijn geïmplementeerd in mijn hot-dock macro voor SPSS.]


$ ^ 1 $ Als u erop staat hiermee rekening te houden, kunt u twee alternatieven worden aanbevolen : (1) bij het imputeren van Y, voeg de reeds geïmputeerde X toe aan de lijst met achtergrondvariabelen (je zou X categorische variabele moeten maken) en gebruik een hot-deck imputatiefunctie die gedeeltelijke match op de achtergrondvariabelen mogelijk maakt; (2) over Y de imputationele oplossing uitbreiden die naar voren was gekomen bij de imputatie van X, d.w.z. gebruik dezelfde donorzaak. Dit tweede alternatief is snel en gemakkelijk, maar het is de strikte reproductie op Y van de imputatie die op X is gedaan, – hier blijft niets van onafhankelijkheid tussen de twee imputatieprocessen over – daarom is dit alternatief niet goed .


voer hier een afbeeldingsbeschrijving in

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *