Jag läste i den här länken , under avsnitt 2, första stycket om hot deck som ”” det bevarar fördelningen av artikelvärden ””.
Jag förstår inte att om en och samma givare används för många mottagare, kan detta snedvrida distributionen eller saknar jag något här?
Också, resultatet av Hot Deck-imputering måste bero på matchningsalgoritmen som används för att matcha givarna till mottagarna?
Mer allmänt, vet någon referenser som jämför hot-deck med multipel imputation?
Kommentarer
- Jag känner inte till imputering av hotdeck, men tekniken låter som prediktiv genomsnittlig matchning (pmm). Kanske kan du hitta svaret där?
- Det finns ingen mycket praktisk mening att jämföra en enstaka imputeringsmetod (som hot-deck) med multipel imputation: multipel imputering utmärker sig alltid och är nästan alltid mindre praktisk.
Svar
Hot-deck imputation of missing värden är en av de enklaste metoderna för enstaka imputering.
Metoden – som är intuitivt uppenbar – är att ett fall med saknat värde får giltigt värde från ett fall som slumpmässigt har valts från de fall som maximalt liknar saknas en, baserat på vissa bakgrundsvariabler som specificerats av användaren (dessa variabler kallas också ”däckvariabler”). Poolen av givarfall kallas ”deck”.
I det mest grundläggande scenariot – inga bakgrundsegenskaper – kan du förklara att de tillhör samma n
-fall datamängden är den enda ”bakgrundsvariabeln”; sedan är imputationen bara slumpmässigt urval från n-m
giltiga fall för att vara givare för m
fall med saknade värden. Slumpmässig ersättning är kärnan i hot-deck.
För att möjliggöra idén om korrelationsförmåga som påverkar värden används matchning på mer specifika bakgrundsvariabler. Du kan till exempel tillskriva det saknade svaret hos en vit man på 30-35 år, från givare som tillhör den specifika kombinationen av egenskaper. Bakgrundskarakteristik bör – åtminstone teoretiskt – associeras med den analyserade karakteristiken (som ska tillskrivas); Föreningen bör dock inte vara den som är föremål för studien – annars kommer det att vi gör en förorening via imputering.
Hot-deck imputation är gammal fortfarande populär eftersom den är både enkel i idé och samtidigt lämplig för situationer där sådana metoder för bearbetning av saknade värden som borttagning i listan eller medel / medianbyte inte kommer att göra eftersom missningar tilldelas i datan inte kaotiskt – inte enligt MCAR-mönster (saknas helt vid slump). Hot-deck passar rimligt för MAR-mönster (för MNAR är multipelimputering den enda anständiga lösningen). Hot-deck, som är slumpmässig upplåning, påverkar inte åtminstone potentiell marginalfördelning. Det påverkar emellertid potentiellt korrelationer och förspänner regressionsparametrar; denna effekt kan dock minimeras med mer komplexa / sofistikerade versioner av hot-deck-proceduren.
En brist på hot-deck-imputering är att den kräver att ovannämnda bakgrundsvariabler verkligen är kategoriska (på grund av kategorin krävs ingen speciell ”matchande algoritm”); kvantitativa däckvariabler – diskretisera dem i kategorier. När det gäller variablerna med saknade värden – de kan vara av vilken typ som helst, och detta är metodens tillgång (många alternativa former av enstaka imputering kan bara tillskrivas kvantitativa eller kontinuerliga funktioner).
En annan svaghet hos het -däck imputation är detta: när du tillskriver missningar i flera variabler, till exempel X och Y, dvs kör en imputeringsfunktion en gång med X, sedan med Y, och om jag saknade i båda variablerna kommer imputationen av i till Y att inte vara relaterad till vilket värde som tillskrivits i i X; med andra ord, möjlig korrelation mellan X och Y tas inte med i beräkningen när man tillskriver Y. Med andra ord är input ”univariat”, det känner inte igen den ”beroende” potentiella multivariata karaktären (dvs mottagaren, som saknar värden) variabler. $ ^ 1 $
Missbruka inte hot-deck-imputeringen. All imputering av missningar rekommenderas endast om det inte finns mer än 20% av fallen saknas i en variabel. givare måste vara tillräckligt stora. Om det finns en givare är det riskabelt att om det är ett atypiskt fall expanderar du atypiska över andra data.
Val av givare med eller utan ersättning . Det är möjligt att göra det på något sätt. I ett system utan ersättning kan ett givarfall, slumpmässigt valt, bara tillskriva ett mottagarfall.I systemet för utbyte av tillåtelser kan ett givarfall bli givare igen om det slumpmässigt väljs igen och därmed tillskrivas flera mottagarfall. Den andra regimen kan orsaka allvarlig fördelningsförskjutning om mottagarfallet är många medan givarfall som är lämpliga att tillskriva är få, för då kommer en givare att tillskriva sitt värde till många mottagare; medan det finns många givare att välja mellan kommer fördomarna att vara acceptabla. Det sätt som inte byts ut leder till ingen bias men kan lämna många fall obestridda om det finns få givare.
Lägga till brus . Klassisk hotdeck-imputation lånar (kopierar) bara ett värde som det är. Det är dock möjligt att tänka sig att lägga till slumpmässigt brus till ett lånat / imputerat värde om värdet är kvantitativt.
Partiell matchning på däcksegenskaper . Om det finns flera bakgrundsvariabler är ett givarfall berättigat till slumpmässigt val om det matchar vissa mottagarfall av alla bakgrundsvariabler. Med mer än 2 eller 3 sådana däcksegenskaper eller när de innehåller många kategorier som gör att det troligtvis inte hittar kvalificerade givare alls. För att övervinna är det möjligt att kräva endast delvis matchning efter behov för att göra en givare berättigad. Kräver till exempel att matcha k
någon av det totala g
däckvariablerna. Eller kräva matchning på k
första i listan g
av däckvariabler. Ju större har inträffat att k
för en potentiell givare desto högre blir dess potential att slumpmässigt väljas. [Delvis matchning samt ersättning / norplacement implementeras i mitt hot-dock-makro för SPSS.]
$ ^ 1 $ Om du insisterar på att ta hänsyn till det kan du rekommenderas två alternativ : (1) vid imputerande Y, lägg till det redan imputerade X i listan över bakgrundsvariabler (du bör göra X kategorisk variabel) och använd en hot-deck imputeringsfunktion som möjliggör partiell matchning på bakgrundsvariablerna; (2) sträck över Y den imputeringslösning som hade uppstått vid imputering av X, dvs använd samma donatorfall. Detta andra alternativ är snabbt och enkelt, men det är den strikta reproduktionen på Y av imputeringen som har gjorts på X, – inget av oberoende mellan de två imputeringsprocesserna finns kvar här – därför är detta alternativ inte bra .