Jeg læste i dette link , under afsnit 2, første afsnit om hot deck, der “” det bevarer fordelingen af elementværdier “”.

Jeg forstår ikke, at hvis en og samme donor bruges til mange modtagere, så kan dette fordreje distributionen eller savner jeg noget her?

Også resultatet af Hot Deck-imputering skal afhænge af den matchende algoritme, der bruges til at matche donorerne til modtagerne?

Mere generelt, kender nogen referencer, der sammenligner hot deck med multiple imputation?

Kommentarer

  • Jeg kender ikke imputation til hot deck, men teknikken lyder som forudsigende gennemsnitlig matchning (pmm). Måske kan du finde svaret der?
  • Der er ikke meget praktisk mening at sammenligne en enkelt imputationsmetode (såsom hot-deck) med multiple imputation: multipel imputation udmærker sig altid og er næsten altid mindre praktisk.

Svar

Hot-deck imputation of missing værdier er en af de enkleste metoder til enkeltimputering.

Metoden – som er intuitivt åbenbar – er, at en sag med manglende værdi modtager en gyldig værdi fra en sag, der tilfældigt er valgt blandt de tilfælde, der maksimalt ligner mangler en, baseret på nogle baggrundsvariabler, der er specificeret af brugeren (disse variabler kaldes også “dækvariabler”). Puljen af donorsager kaldes “deck”.

I det mest basale scenario – ingen baggrundskarakteristika – kan du muligvis erklære, at de tilhører de samme n -tilfælde datasæt til at være det og kun “baggrundsvariabel”; så vil tilregningen bare være tilfældig udvælgelse fra n-m gyldige sager for at være donorer til m sager med manglende værdier. Tilfældig erstatning er kernen i hot-deck.

For at give mulighed for ideen om korrelerethed, der påvirker værdier, anvendes matching på mere specifikke baggrundsvariabler. For eksempel kan du tilregne det manglende svar fra en hvid mand på 30-35 år fra donorer, der tilhører den specifikke kombination af egenskaber. Baggrundskarakteristika skal – i det mindste teoretisk set – være knyttet til den analyserede karakteristik (skal tilregnes); foreningen skulle dog ikke være den, der er genstand for undersøgelsen – ellers kommer vi, der gør en forurening via imputation.

Hot-deck imputation er gammel, stadig populær, fordi den begge er enkel i idé og på samme tid velegnet til situationer, hvor sådanne metoder til behandling af manglende værdier som sletning af listen eller middel / medianerstatning ikke vil gøre, fordi missioner tildeles i data ikke kaotisk – ikke i henhold til MCAR-mønster (Mangler helt tilfældigt). Hot-deck er med rimelighed velegnet til MAR-mønster (for MNAR er multiple imputation den eneste anstændige løsning). Hot-deck, som tilfældig låntagning, påvirker ikke i det mindste potentiel marginalfordeling. Det påvirker dog potentielt korrelationer og forstyrrer regressionsparametre; denne effekt kunne dog minimeres med mere komplekse / sofistikerede versioner af hot-deck-proceduren.

En mangel ved hot-deck-imputation er, at den kræver, at de ovennævnte baggrundsvariabler skal være kategoriske (på grund af kategorisk kræves ingen speciel “matchende algoritme”); kvantitative dækvariabler – diskretiser dem i kategorier. Med hensyn til variabler med manglende værdier – de kan være af enhver type, og dette er metoden med aktiver (mange alternative former for enkelt imputering kan kun tilskrives kvantitative eller kontinuerlige funktioner).

En anden svaghed ved hot -dæk imputation er dette: når du tilskriver mangler i flere variabler, for eksempel X og Y, dvs. kører en imputationsfunktion en gang med X, så med Y, og hvis tilfælde jeg manglede i begge variabler, vil imputationen af i i Y ikke være relateret til hvilken værdi der blev tilregnet i i i X; med andre ord, mulig sammenhæng mellem X og Y tages ikke i betragtning ved tilregning af Y. Med andre ord er input “univariat”, det genkender ikke den potentielle multivariate karakter af den “afhængige” (dvs. modtager, der mangler værdier) variabler. $ ^ 1 $

Misbrug ikke hot-deck-imputering. Enhver imputering af savner anbefales kun at gøre, hvis der ikke er mere end 20% af tilfældene, der mangler i en variabel. donorer skal være store nok. Hvis der er en donor, er det risikabelt, at hvis det i et atypisk tilfælde udvides atypiciteten i forhold til andre data.

Valg af donorer med eller uden erstatning . Det er muligt at gøre det på begge måder. I ikke-erstatningsregime kan en donorsag, tilfældigt valgt, kun tilskrive en modtager-sag værdi.I tilladelsesudskiftningsregimet kan en donorsag blive donor igen, hvis den tilfældigt vælges igen og dermed tilskrives flere modtagersager. Det andet regime kan forårsage alvorlig fordeling af fordelingen, hvis modtagersagerne er mange, mens donorsager, der er egnede til at tilregne, er få, for da tildeler en donor sin værdi til mange modtagere; der henviser til, at når der er mange donorer at vælge imellem, vil bias være acceptabel. Den måde, der ikke udskiftes, fører til ingen skævhed, men kan efterlade mange tilfælde uimputeret, hvis der er få donorer.

Tilføjelse af støj . Klassisk hot-deck imputation låner bare (kopier) en værdi, som den er. Det er dog muligt at forestille sig at tilføje tilfældig støj til en lånt / imputeret værdi, hvis værdien er kvantitativ.

Delvis match på dækkarakteristika . Hvis der er flere baggrundsvariabler, er en donorsag berettiget til tilfældigt valg, hvis den matcher nogle modtagersager af alle baggrundsvariablerne. Med mere end 2 eller 3 sådanne dækegenskaber, eller når de indeholder mange kategorier, der gør det sandsynligvis slet ikke at finde kvalificerede donorer. For at overvinde er det muligt kun at kræve delvist match efter behov for at gøre en donor berettiget. Kræv f.eks. At matche k enhver af det samlede g af dækvariabler. Eller kræv matchning på k første på listen g af dækvariabler. Jo større er forekommet, at k for en potentiel donor jo højere vil dens potentiale til at blive tilfældigt valgt. [Delvist match såvel som erstatning / noreplacement er implementeret i min hot-dock-makro til SPSS.]


$ ^ 1 $ Hvis du insisterer på at tage hensyn til det, kan du blive anbefalet to alternativer : (1) ved imputing Y, tilføj det allerede imputerede X til listen over baggrundsvariabler (du skal gøre X kategorisk variabel) og brug en hot-deck imputationsfunktion, der giver mulighed for delvis matchning af baggrundsvariablerne; (2) stræk Y over den imputerende løsning, der var opstået ved imputation af X, dvs. brug den samme donorsag. Dette 2. alternativ er hurtigt og nemt, men det er den strenge gengivelse på Y af imputationen, der er udført på X, – intet af uafhængighed mellem de to imputerende processer forbliver her – derfor er dette alternativ ikke godt .


indtast billedebeskrivelse her

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *