このリンクのセクション2で、ホットデッキに関する最初の段落を読みました。 “”アイテム値の分布を保持します “”。

同じドナーが多くの受信者に使用されている場合、これが分布を歪める可能性があること、またはここで何かを見逃している可能性があることを理解していませんか?

また、ホットデッキ代入の結果は、ドナーと受信者を照合するために使用される照合アルゴリズムに依存する必要がありますか?

より一般的には、ホットデッキを複数の代入と比較する参照を知っている人はいますか?

コメント

  • ホットデッキの代入についてはわかりませんが、この手法は予測平均マッチング(pmm)のように聞こえます。そこに答えが見つかるかもしれませんか?
  • 単一の代入方法(ホットデッキなど)を複数と比較する実用的な意味はあまりありません。代入:複数の代入は常に優れており、ほとんどの場合便利ではありません。

回答

欠測のホットデッキ代入値は、最も単純な単一代入法の1つです。

この方法は、直感的に明らかですが、値が欠落しているケースは、最大に類似しているケースからランダムに選択されたケースから有効な値を受け取ります。ユーザーが指定したいくつかの背景変数に基づいて、1つ欠落しています(これらの変数は「デッキ変数」とも呼ばれます)。ドナーケースのプールは「デッキ」と呼ばれます。

最も基本的なシナリオ(背景特性なし)では、同じnケースに属することを宣言できます。データセットはそれであり、唯一の「バックグラウンド変数」です。その場合、代入は、n-mの有効なケースからランダムに選択され、値が欠落しているmのケースのドナーになります。ランダム置換はホットデッキの中核です。

値に影響を与える相関性のアイデアを可能にするために、より具体的な背景変数のマッチングが使用されます。たとえば、30〜35歳の白人男性の欠落した応答を、その特定の特性の組み合わせに属するドナーから推測したい場合があります。背景特性は、少なくとも理論的には、分析された特性に関連付けられている必要があります(帰属される)。ただし、この関連付けを調査の対象にするべきではありません。そうしないと、代入による汚染が発生します。

ホットデッキ代入は、どちらも単純であるため、今でも人気があります。アイデアであると同時に、欠測がデータに割り当てられているためにリストごとの削除平均/中央値の代入などの欠測値を処理する方法が機能しない状況に適しています混沌としていない– MCARパターンに従っていない(完全にランダムに欠落)。ホットデッキはMARパターンに適度に適しています(MNARの場合、多重代入が唯一の適切なソリューションです)。ホットデッキはランダムな借用であるため、少なくとも潜在的に周辺分布にバイアスをかけることはありません。ただし、相関に影響を与え、回帰パラメータにバイアスをかける可能性があります。ただし、この影響は、より複雑で洗練されたバージョンのホットデッキ手順を使用することで最小限に抑えることができます。

ホットデッキ代入の欠点は、上記の背景変数が確実にカテゴリ<である必要があることです。 / em>(カテゴリカルであるため、特別な「マッチングアルゴリズム」は必要ありません);定量的デッキ変数-それらをカテゴリに離散化します。値が欠落している変数については、任意のタイプにすることができ、これがメソッドの資産です(単一代入の多くの代替形式は、定量的または連続的な特徴にのみ代入できます)。

ホットのもう1つの弱点-デッキ代入は次のとおりです。たとえば、XとYなどの複数の変数で欠落を代入する場合、つまり、Xで1回、次にYで代入関数を実行し、両方の変数でiが欠落している場合、Yでのiの代入は次のようになります。 Xのiに代入された値とは関係ありません。言い換えると、Yを代入するときに、XとYの間の可能な相関は考慮されません。言い換えると、入力は「単変量」であり、「依存」の潜在的な多変量の性質を認識しません(つまり、受信者、値が欠落しています)。変数。$ ^ 1 $

ホットデッキの代入を悪用しないでください。欠測の代入は、変数に欠落しているケースが20%以下の場合にのみ行うことをお勧めします。潜在的なデッキドナーは十分な大きさである必要があります。ドナーが1人いる場合、それが非定型の場合、他のデータよりも非定型性を拡大するリスクがあります。

置換の有無にかかわらずドナーの選択。どちらの方法でもそれを行うことが可能です。交換なしのレジームでは、ランダムに選択されたドナーのケースは、1つの受信者のケースにのみ値を代入できます。交換を許可するレジームでは、ランダムに再度選択された場合、ドナーのケースが再びドナーになる可能性があるため、複数の受信者のケースに帰属します。第2の体制は、レシピエントの症例が多く、帰属するのに適したドナーの症例が少ない場合、深刻な分布バイアスを引き起こす可能性があります。その場合、1人のドナーが多くのレシピエントにその価値を帰属させます。一方、選択するドナーが多い場合、バイアスは許容できます。交換なしの方法ではバイアスは発生しませんが、ドナーが少ない場合は多くの場合、影響を受けないままになる可能性があります。

ノイズの追加。古典的なホットデッキ代入は、値をそのまま借用(コピー)するだけです。ただし、値が定量的である場合、借用/代入値にランダムノイズを追加することを考えることは可能です。

デッキ特性の部分一致。複数の背景変数がある場合、すべての背景変数によっていくつかの受信者のケースと一致する場合、ドナーのケースはランダムな選択の対象となります。そのようなデッキの特徴が2つか3つ以上ある場合、またはそれらに適格なドナーがまったく見つからない可能性が高い多くのカテゴリーが含まれている場合。克服するために、ドナーを適格にするために必要に応じて部分的な一致のみを要求することが可能です。たとえば、デッキ変数の合計gk any で一致する必要があります。または、デッキ変数のリストgk first で一致する必要があります。潜在的なドナーのkが発生するほど、ランダムに選択される可能性が高くなります。 [SPSSのホットドックマクロには、部分一致と置換/置換なしが実装されています。]


$ ^ 1 $それを考慮に入れる場合は、2つの選択肢が推奨される場合があります。 :(1)Yを代入するときに、すでに代入されたXを背景変数のリストに追加し(Xをカテゴリ変数にする必要があります)、背景変数の部分一致を可能にするホットデッキ代入関数を使用します。 (2)Xの代入で出現した代入解をYに拡張します。つまり、同じドナーの場合を使用します。この2番目の代替案は迅速かつ簡単ですが、Xで行われた帰属のYでの厳密な再現であり、2つの帰属プロセス間の独立性はここに残っていません。したがって、この代替案は 良くありません。 。


ここに画像の説明を入力

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です