Ich habe in diesen Link unter Abschnitt 2, erster Absatz über Hot Deck gelesen „“ Es behält die Verteilung der Artikelwerte bei „“.

Ich verstehe nicht, dass, wenn ein und derselbe Spender für viele Empfänger verwendet wird, dies die Verteilung verzerren kann oder ich hier etwas vermisse?

Auch die Das Ergebnis der Hot-Deck-Imputation muss von dem Übereinstimmungsalgorithmus abhängen, der verwendet wird, um die Spender mit den Empfängern abzugleichen / h3>

  • Ich weiß nichts über Hot-Deck-Imputation, aber die Technik klingt wie Predictive Mean Matching (pmm). Vielleicht finden Sie dort die Antwort?
  • Es ist nicht sinnvoll, eine einzelne Imputationsmethode (z. B. Hot-Deck) mit mehreren zu vergleichen Imputation: Die multiple Imputation ist immer hervorragend und fast immer weniger praktisch.

Antwort

Hot-Deck-Imputation von fehlenden Werte ist eine der einfachsten Einzelimputationsmethoden.

Die Methode – die intuitiv offensichtlich ist – besteht darin, dass ein Fall mit fehlendem Wert einen gültigen Wert aus einem Fall erhält, der zufällig aus den Fällen ausgewählt wurde, die dem maximal ähnlich sind Fehlende, basierend auf einigen vom Benutzer angegebenen Hintergrundvariablen (diese Variablen werden auch als „Deckvariablen“ bezeichnet). Der Pool von Spenderfällen wird als „Deck“ bezeichnet.

Im einfachsten Szenario – keine Hintergrundmerkmale – können Sie die Zugehörigkeit zu denselben n -Fällen deklarieren Datensatz soll das sein und nur „Hintergrundvariable“; dann ist die Imputation nur eine zufällige Auswahl aus n-m gültigen Fällen, um Spender für die m Fälle mit fehlenden Werten zu sein. Die zufällige Substitution ist das Kernstück von Hot-Deck.

Um die Idee zu berücksichtigen, dass die Korrelation die Werte beeinflusst, wird die Übereinstimmung mit spezifischeren Hintergrundvariablen verwendet. Beispielsweise möchten Sie möglicherweise die fehlende Reaktion eines weißen Mannes im Alter von 30 bis 35 Jahren unterstellen, der von Spendern stammt, die zu dieser bestimmten Kombination von Merkmalen gehören. Hintergrundcharakteristika sollten – zumindest theoretisch – mit dem analysierten Merkmal (das unterstellt werden soll) verknüpft sein; Die Assoziation sollte jedoch nicht diejenige sein, die Gegenstand der Studie ist – andernfalls führen wir eine Kontamination durch Imputation durch.

Die Hot-Deck-Imputation ist alt und immer noch beliebt, da sie beide einfach ist Idee und gleichzeitig geeignet für Situationen, in denen Methoden zur Verarbeitung fehlender Werte wie listweises Löschen oder Mittelwert / Median-Substitution nicht ausreichen, da Fehler in den Daten zugeordnet sind nicht chaotisch – nicht nach MCAR-Muster (völlig zufällig fehlend). Hot-Deck ist für MAR-Muster angemessen geeignet (für MNAR ist Mehrfachimputation die einzig vernünftige Lösung). Hot-Deck ist eine zufällige Ausleihe, die die Randverteilung zumindest potenziell nicht beeinflusst. Es beeinflusst jedoch möglicherweise Korrelationen und verzerrt Regressionsparameter. Dieser Effekt könnte jedoch mit komplexeren / komplexeren Versionen des Hot-Deck-Verfahrens minimiert werden.

Ein Nachteil der Hot-Deck-Imputation besteht darin, dass die oben genannten Hintergrundvariablen mit Sicherheit kategorisch (aufgrund der Kategorisierung ist kein spezieller „Matching-Algorithmus“ erforderlich); quantitative Deckvariablen – diskretisieren Sie sie in Kategorien. Die Variablen mit fehlenden Werten können von jedem Typ sein, und dies ist der Vorteil der Methode (viele alternative Formen der Einzelimputation können nur quantitativen oder kontinuierlichen Merkmalen zugeordnet werden).

Eine weitere Schwäche von Hot -deck Imputation ist dies: Wenn Sie Fehlschläge in mehreren Variablen, zum Beispiel X und Y, unterstellen, dh eine Imputationsfunktion einmal mit X, dann mit Y ausführen, und wenn ich in beiden Variablen fehlte, wird die Imputation von i in Y nicht in Beziehung zu dem Wert stehen, der in i in X unterstellt wurde; Mit anderen Worten, eine mögliche Korrelation zwischen X und Y wird bei der Eingabe von Y nicht berücksichtigt. Mit anderen Worten, die Eingabe ist „univariat“, sie erkennt die potenzielle multivariate Natur des „abhängigen“ (dh des Empfängers mit fehlenden Werten) nicht. Variablen. $ ^ 1 $

Hot-Deck-Imputation nicht missbrauchen. Eine Imputation von Fehlschlägen wird nur empfohlen, wenn in einer Variablen nicht mehr als 20% der Fälle fehlen. Das Deck des Potenzials Spender müssen groß genug sein. Wenn es einen Spender gibt, besteht das Risiko, dass Sie in einem atypischen Fall die Atypizität gegenüber anderen Daten erweitern.

Auswahl von Spendern mit oder ohne Ersatz . Es ist möglich, dies so oder so zu tun. In einem Regime ohne Ersatz kann ein zufällig ausgewählter Spenderfall nur einem Empfängerfall einen Wert zuschreiben.Im Erlaubnis-Ersatz-Regime kann ein Spenderfall wieder zum Spender werden, wenn er erneut zufällig ausgewählt wird, wodurch mehrere Empfängerfälle unterstellt werden. Das 2. Regime kann zu schwerwiegenden Verteilungsverzerrungen führen, wenn es viele Empfängerfälle gibt, während es nur wenige Spenderfälle gibt, die zur Anrechnung geeignet sind, denn dann wird ein Spender seinen Wert vielen Empfängern zuschreiben. Wenn dagegen viele Spender zur Auswahl stehen, ist die Tendenz tolerierbar. Der Weg ohne Ersatz führt zu keiner Verzerrung, kann jedoch viele Fälle unbestritten lassen, wenn nur wenige Spender vorhanden sind.

Hinzufügen von Rauschen . Die klassische Hot-Deck-Imputation leiht (kopiert) nur einen Wert wie er ist. Es ist jedoch möglich, sich vorzustellen, dass einem geliehenen / unterstellten Wert zufälliges Rauschen hinzugefügt wird, wenn der Wert quantitativ ist.

Teilweise Übereinstimmung der Deck-Eigenschaften . Wenn mehrere Hintergrundvariablen vorhanden sind, kann ein Spenderfall nach dem Zufallsprinzip ausgewählt werden, wenn alle Empfängervariablen mit einigen Empfängerfällen übereinstimmen. Mit mehr als 2 oder 3 solcher Deck-Eigenschaften oder wenn sie viele Kategorien enthalten, ist es wahrscheinlich, dass überhaupt keine geeigneten Spender gefunden werden. Um dies zu überwinden, ist es möglich, nur eine teilweise Übereinstimmung zu verlangen, um einen Spender in Frage zu stellen. Erfordern beispielsweise einen Abgleich für k any der gesamten g der Deckvariablen. Oder erfordern Sie einen Abgleich für k first der Liste g der Deckvariablen. Je größer es ist, dass k für einen potenziellen Spender ist, desto höher ist seine Möglichkeit, zufällig ausgewählt zu werden. [Teilweise Übereinstimmung sowie Ersetzen / Nicht-Ersetzen sind in meinem Hot-Dock-Makro für SPSS implementiert.]


$ ^ 1 $ Wenn Sie darauf bestehen, dies zu berücksichtigen, werden Ihnen möglicherweise zwei Alternativen empfohlen : (1) Fügen Sie bei der Eingabe von Y das bereits unterstellte X zur Liste der Hintergrundvariablen hinzu (Sie sollten eine kategoriale Variable für X festlegen) und verwenden Sie eine Hot-Deck-Imputationsfunktion, die eine teilweise Übereinstimmung der Hintergrundvariablen ermöglicht. (2) über Y die Imputationslösung erstrecken, die bei der Imputation von X entstanden war, d. H. Den gleichen Donorfall verwenden. Diese zweite Alternative ist schnell und einfach, aber es ist die strikte Reproduktion der Imputation auf Y auf Y – hier bleibt nichts von der Unabhängigkeit zwischen den beiden Imputationsprozessen übrig – daher ist diese Alternative nicht gut


Geben Sie hier die Bildbeschreibung ein.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.