Hot deck imputáció, ' ' megőrzi az elemértékek elosztását ' ', hogy lehet ez?

ezt a linket olvastam a 2. szakasz első bekezdésében, amely a hot deckről szól “” megőrzi az elemértékek eloszlását “”.

Nem értem, hogy ha egy és ugyanazon donort sok címzettnél használnak, akkor ez torzíthatja a terjesztést, vagy hiányzik itt valami?

Továbbá A Hot Deck imputálás eredményének a donorok és a címzettek összehangolásához használt algoritmustól kell függenie.

Általánosabban, tud-e valaki olyan hivatkozást, amely összehasonlítja a hot decket a többes imputációval?

Megjegyzések

Nem tudok a hot deck imputációról, de a technika prediktív átlagillesztésnek hangzik (pmm). Talán megtalálja a választ ott?
Nincs sok gyakorlati értelme összehasonlítani egy single imputációs módszert (például hot-deck) a multiple -vel imputáció: a többszörös imputáció mindig kiemelkedő és szinte mindig kevésbé praktikus.

Válasz

Hiányzó forró fedélzeti beszámítás értékek az egyik legegyszerűbb egyszeri imputációs módszer.

A módszer – amely intuitív módon nyilvánvaló -, hogy egy hiányzó értékű eset érvényes értéket kap egy véletlenszerűen kiválasztott esetből, amely maximálisan hasonlít a hiányzik, a felhasználó által megadott néhány háttérváltozó alapján (ezeket a változókat “pakli változóknak” is nevezik). A donor esetek halmazát “fedélzetnek” hívják.

A legalapvetőbb forgatókönyvben – nincsenek háttérjellemzők – bejelentheti, hogy ugyanahhoz a n esethez tartozik. az adatkészlet ez és csak “háttérváltozó”; akkor az imputáció csak véletlenszerű kiválasztás lesz a n-m érvényes esetekből, hogy donorok legyenek a hiányzó értékű m esetekre. A véletlenszerű helyettesítés a hot-deck középpontjában áll.

A korrelációt befolyásoló értékek gondolatának lehetővé tétele érdekében a specifikusabb háttérváltozókon való egyezést alkalmazzák. Például a 30-35 év közötti fehér hím hím hiányzó válaszát a jellemzők adott kombinációjához tartozó donoroktól lehet beszámítani. A háttérkarakterisztikákat – legalábbis elméletileg – össze kell kapcsolni az elemzett (imputálandó) jellemzővel; az egyesület azonban nem lehet az, amelyik a tanulmány tárgya – különben bejön a szennyezés imputációval.

A hot-deck imputáció régi, de még mindig népszerű, mert mindkettő egyszerű ötlet, és ugyanakkor alkalmas olyan helyzetekre is, ahol a hiányzó értékek feldolgozásának olyan módszerei, mint a listás törlés vagy az átlag / medián helyettesítés nem fognak megfelelni, mert a hiányzó adatokat elosztják az adatokban nem kaotikusan – nem az MCAR minta szerint (hiányzik teljesen véletlenszerűen). A hot-deck ésszerűen alkalmas a MAR mintára (az MNAR esetében a többszörös imputáció az egyetlen tisztességes megoldás). A hot-deck véletlenszerű hitelfelvételként nem torzítja a marginális eloszlást, legalábbis potenciálisan. Mindazonáltal potenciálisan befolyásolja a korrelációkat és torzítja a regressziós paramétereket; ez a hatás azonban minimalizálható a hot-deck eljárás bonyolultabb / kifinomultabb verzióival.

A hot-deck imputáció hiányossága, hogy a fent említett háttérváltozóknak mindenképpen kategorikusnak (a kategorikus miatt nincs szükség speciális “illesztési algoritmusra”); kvantitatív fedélzeti változók – diszkregáljuk őket kategóriákba. Ami a hiányzó értékű változókat illeti – ezek bármilyen típusúak lehetnek, és ez a módszer előnye (az egyetlen imputálás számos alternatív formája csak a kvantitatív vagy a folyamatos jellemzőknek tulajdonítható).

A hot egyik másik gyengesége -deck imputáció ez: amikor több változóban, például X-ben és Y-ben definiálunk hiányokat, azaz egyszer futtatunk egy imputációs függvényt X-vel, majd Y-vel, és ha az i eset mindkét változóból hiányzik, akkor az i nem lehet összefüggésben azzal, hogy X-ben milyen értéket tulajdonítottak i-ben; más szavakkal, az X és Y lehetséges korrelációját nem veszik figyelembe az Y beszámításakor. Más szavakkal, az input “egyváltozós”, nem ismeri fel a “függő” (azaz a hiányzó értékű fogadó) lehetséges többváltozós jellegét változók. $ ^ 1 $

Ne éljen vissza a hot-deck imputációval. A kihagyások bármilyen beszámítását csak akkor ajánlott megtenni, ha az esetek legfeljebb 20% -a hiányzik egy változóból. a donoroknak elég nagynak kell lenniük. Ha van egy donor, akkor kockázatos, hogy ha egy atipikus esetről van szó, akkor az atipikusságot kibővítse más adatokkal.

A donorok kiválasztása helyettesítővel vagy anélkül . A pótlás nélküli rendszerben egy véletlenszerűen kiválasztott donor eset csak egy befogadó esetnek tulajdoníthat értéket.Engedély-pótlási rendszerben egy donor eset ismét donorrá válhat, ha véletlenszerűen választják ki újra, és így több befogadó esetnek tulajdonítható. A 2. rezsim súlyos disztribúciós torzítást okozhat, ha a befogadó esetek száma sok, míg a donor esetek alkalmasak a beszámításra, kevés, mert akkor egy donor sok befogadónak fogja tulajdonítani az értékét; mivel ha sok donor közül lehet választani, az elfogultság tolerálható lesz. A csere nélküli módszer nem vezet elfogultsághoz, de sok esetet vitathatatlanul hagyhat, ha kevés donor van.

Zaj hozzáadása . A klasszikus hot-deck imputáció csak olyan értéket kölcsönöz (másol), amilyen. Elképzelhető azonban véletlenszerű zaj hozzáadása egy kölcsönzött / imputált értékhez, ha az érték kvantitatív.

Részleges egyezés a fedélzeti jellemzőkkel . Ha több háttérváltozó létezik, akkor egy donor eset véletlenszerűen választható ki, ha néhány befogadó esetet megegyezik az összes háttérváltozóval. Több mint 2 vagy 3 ilyen fedélzeti jellemzővel, vagy ha sok kategóriát tartalmaznak, valószínű, hogy egyáltalán nem találnak jogosult donorokat. A legyőzéshez lehetőség van csak részleges egyezésre, ha szükséges, hogy az adományozó jogosult legyen. Például megkövetel egyeztetést a fedélzeti változók k bármelyik jénél a fedélzeti változók összes g -énél. Vagy megkövetelheti az egyeztetést a fedélzeti változók g listáján k első n. Annál nagyobb, hogy k egy potenciális donor számára annál nagyobb lesz a véletlenszerű kiválasztásának lehetősége. [Az SPSS hot-dock makrómban a részleges egyeztetés, valamint a pótlás / noreplacement is megvalósításra kerül.]

$ ^ 1 $ Ha ragaszkodik ennek figyelembe vételéhez, akkor két alternatívát javasolhat. : (1) Y beszámításakor adja hozzá a már beszámított X-et a háttérváltozók listájához (X kategóriás változót kell megadnia), és használjon hot-deck imputációs függvényt, amely lehetővé teszi a háttérváltozók részleges egyezését; (2) Y fölé terjessze azt az imputációs megoldást, amely X beszámításakor jelent meg, vagyis ugyanazt a donor esetet használja. Ez a 2. alternatíva gyors és egyszerű, de az X-nek végrehajtott imputáció szigorú reprodukciója Y-n – a két imputációs folyamat között semmi sem marad fenn – ezért ez az alternatíva nem jó .

Megjegyzések

Válasz

Vélemény, hozzászólás? Kilépés a válaszból