Hot deck imputation, ' ' det bevarer fordelingen av elementverdiene ' ', hvordan kan det være?

Jeg leste i denne lenken , under seksjon 2, første avsnitt om hot deck som «» det bevarer fordelingen av elementverdier «».

Jeg forstår ikke at hvis en og samme giver brukes til mange mottakere, kan dette forvride distribusjonen eller savner jeg noe her?

Også resultatet av Hot Deck-imputering må avhenge av den matchende algoritmen som brukes til å matche donorene til mottakerne?

Mer generelt, er det noen som kjenner referanser som sammenligner hot deck med multiple imputasjon?

Kommentarer

Jeg vet ikke om imponering av hot deck, men teknikken høres ut som prediktiv gjennomsnittlig matching (pmm). Kanskje du finner svaret der?
Det er ikke mye praktisk mening å sammenligne en enkelt imputeringsmetode (for eksempel hot-deck) med multiple imputasjon: flere imputeringer utmerker seg alltid og er nesten alltid mindre nyttige.

Svar

Hot-deck imputation of missing verdier er en av de enkleste metodene for enkeltimputering.

Metoden – som er intuitivt åpenbar – er at en sak med manglende verdi mottar gyldig verdi fra en sak som er tilfeldig valgt fra de tilfellene som maksimalt ligner mangler en, basert på noen bakgrunnsvariabler spesifisert av brukeren (disse variablene kalles også «dekkvariabler»). Utvalget av donorsaker kalles «dekk».

I det mest grunnleggende scenariet – ingen bakgrunnsegenskaper – kan du erklære at det tilhører de samme n -tilfellene datasettet skal være den eneste «bakgrunnsvariabelen»; da vil tilregningen bare være tilfeldig valg fra n-m gyldige saker for å være givere for m tilfeller med manglende verdier. Tilfeldig erstatning er kjernen i hot-deck.

For å tillate ideen om korrelasjon som påvirker verdier, brukes samsvar på mer spesifikke bakgrunnsvariabler. For eksempel kan det være lurt å tilskrive den manglende responsen til en hvit mann på 30-35 år, fra givere som tilhører den spesifikke kombinasjonen av egenskaper. Bakgrunnskarakteristika bør – i det minste teoretisk sett – knyttes til den analyserte karakteristikken (skal tilregnes); foreningen, skjønt, bør ikke være den som er gjenstand for studien – ellers kommer det at vi gjør en forurensning via imputasjon.

Hot-deck imputasjon er gammel, fortsatt populær fordi den begge er enkel i ide og samtidig egnet for situasjoner der slike metoder for å behandle manglende verdier som sletting av listen eller middel / median erstatning ikke vil gjøre fordi mangler er allokert i dataene ikke kaotisk – ikke i henhold til MCAR-mønster (Missing Completely At Random). Hot-deck er rimelig egnet for MAR-mønster (for MNAR er multiple imputasjon den eneste anstendige løsningen). Hot-dekk, som er tilfeldig lån, bias ikke marginal fordeling, i det minste potensielt. Det påvirker imidlertid potensielt korrelasjoner og forstyrrer regresjonsparametere; denne effekten kan imidlertid minimeres med mer komplekse / sofistikerte versjoner av hot-deck-prosedyren.

En mangel på hot-deck-imputasjon er at den krever at de ovennevnte bakgrunnsvariablene absolutt skal være kategoriske (på grunn av kategori kreves ingen spesiell «matchingalgoritme»); kvantitative dekkvariabler – diskretiser dem i kategorier. Når det gjelder variablene med manglende verdier – de kan være av hvilken som helst type, og dette er metoden for metoden (mange alternative former for enkelt imputasjon kan bare tilskrives kvantitative eller kontinuerlige funksjoner).

En annen svakhet ved varme -dekkimputasjon er dette: når du tilskriver mangler i flere variabler, for eksempel X og Y, dvs. kjører en imputeringsfunksjon en gang med X, så med Y, og hvis tilfelle jeg manglet i begge variablene, vil imputasjonen til i i Y ikke være relatert til hvilken verdi som ble tilregnet i i X; med andre ord, mulig korrelasjon mellom X og Y blir ikke tatt i betraktning når man tilregner Y. Med andre ord er inndata «univariate», den anerkjenner ikke potensiell multivariat natur av «avhengige» (dvs. mottaker, som mangler verdier) variabler. $ ^ 1 $

Ikke bruk hot-deck-imputasjon. Det anbefales at all imputering av savner bare gjøres hvis det ikke er mer enn 20% av tilfellene som mangler i en variabel. givere må være store nok. Hvis det er en donor, er det risikabelt at hvis det er et atypisk tilfelle, utvider du atypisiteten over andre data.

Valg av givere med eller uten erstatning . Det er mulig å gjøre det på begge måter. I ikke-erstatningsregime kan en giversak, tilfeldig valgt, tillegge verdi bare til en mottakersak.I et tillatelseserstatningsregime kan en giversak bli donor igjen hvis den blir valgt tilfeldig igjen, og dermed tilskrives flere mottakersaker. Det andre regimet kan forårsake alvorlig distribusjonsskjevhet hvis mottakersakene er mange, mens giversaker som er egnet til å tilregne, er få, for da vil en giver tilskrive verdien til mange mottakere mens når det er mange givere å velge mellom, vil skjevheten være tålelig. Ingen erstatningsvei fører til ingen skjevhet, men kan etterlate mange tilfeller ubestridte hvis det er få givere.

Legge til støy . Klassisk impregnering av hot-deck låner bare (kopier) en verdi som den er. Det er imidlertid mulig å tenke seg å tilføre tilfeldig støy til en lånt / tilregnet verdi hvis verdien er kvantitativ.

Delvis samsvar med dekkegenskaper . Hvis det er flere bakgrunnsvariabler, er en giversak kvalifisert for tilfeldig valg hvis den samsvarer med noen mottakersaker av alle bakgrunnsvariablene. Med mer enn 2 eller 3 slike dekkegenskaper, eller når de inneholder mange kategorier som gjør det sannsynlig ikke å finne kvalifiserte givere i det hele tatt. For å overvinne er det mulig å kreve bare delvis samsvar etter behov for å gjøre en giver kvalifisert. Krev for eksempel samsvar på k hvilken som helst av det totale g dekksvariablene. Eller krever samsvar på k første i listen g av kortvariabler. Jo større har skjedd at k for en potensiell giver jo høyere vil potensialet til å bli valgt tilfeldig. [Delvis samsvar samt erstatning / noreplacement er implementert i min dock-makro for SPSS.]

$ ^ 1 $ Hvis du insisterer på å ta hensyn til det, kan du bli anbefalt to alternativer : (1) ved å tilregne Y, legg til allerede imputerte X i listen over bakgrunnsvariabler (du bør lage X kategorisk variabel) og bruk en hot-deck imputeringsfunksjon som muliggjør delvis samsvar på bakgrunnsvariablene; (2) strekk over Y den imputerende løsningen som hadde dukket opp ved tilregning av X, dvs. bruk den samme giversaken. Dette andre alternativet er raskt og enkelt, men det er den strenge reproduksjonen på Y av tilegnelsen som er gjort på X, – ingenting av uavhengighet mellom de to imputeringsprosessene forblir her – derfor er dette alternativet ikke bra .

Kommentarer

Svar

Legg igjen en kommentar Avbryt svar