이 링크 에서 섹션 2의 핫 덱에 대한 첫 번째 단락을 읽었습니다. “”아이템 값의 분포를 유지합니다 “”.

하나의 동일한 기증자가 많은 수혜자에게 사용되면 배포가 왜곡되거나 여기에서 뭔가 놓칠 수 있다는 것을 이해하지 못합니다.

또한, Hot Deck 대치의 결과는 기부자와 수신자를 일치시키는 데 사용되는 일치 알고리즘에 따라 달라져야합니까?

좀 더 일반적으로, Hot Deck를 다중 대치와 비교하는 참조를 아는 사람이 있습니까?

Comments

  • 핫 데크 대치에 대해 잘 모르지만이 기술은 예측 평균 일치 (pmm)처럼 들립니다. 거기에서 답을 찾을 수 있을까요?
  • 단일 대치 방법 (예 : 핫 데크)과 다중 을 비교할 수있는 실용적인 의미가별로 없습니다. 대치 : 다중 대치가 항상 뛰어나고 거의 항상 덜 편리합니다.

답변

결측의 핫 데크 대치 값은 가장 간단한 단일 입력 방법 중 하나입니다.

직관적으로 명백한 방법은 결 측값이있는 케이스가 다음과 최대로 유사한 케이스에서 무작위로 선택된 케이스에서 유효한 값을받는 것입니다. 사용자가 지정한 배경 변수에 따라 하나가 누락되었습니다 (이러한 변수는 “데크 변수”라고도 함). 기증자 사례 풀을 “갑판”이라고합니다.

가장 기본적인 시나리오 (배경 특성 없음)에서 동일한 n 사례에 속하는 것을 선언 할 수 있습니다. 데이터 세트는 “배경 변수”뿐입니다. 그러면 값이 누락 된 m 사례에 대한 기증자가 될 n-m 유효한 사례에서 대치됩니다. 임의 대체는 핫 데크의 핵심입니다.

상관성이 값에 영향을 미치는 아이디어를 허용하기 위해보다 구체적인 배경 변수에 대한 일치가 사용됩니다. 예를 들어, 30-35 세 범위의 백인 남성의 누락 된 반응을 특정 특성 조합에 속하는 기증자로부터 전가 할 수 있습니다. 배경 특성은-적어도 이론적으로-분석 된 특성과 연관되어야합니다 (대체되어야 함). 그러나 연관성이 연구의 주제가되어서는 안됩니다. 그렇지 않으면 대치를 통해 오염을 수행하고 있습니다.

핫 데크 대치는 두 가지 모두 간단하기 때문에 여전히 인기가 있습니다. 아이디어와 동시에 누락 된 값이 데이터에 할당되기 때문에 목록 별 삭제 또는 평균 / 중간 대체 와 같은 누락 된 값을 처리하는 방법이 수행되지 않는 상황에 적합합니다. 혼돈되지 않음 – MCAR 패턴에 따르지 않음 (무작위에서 완전히 누락 됨). Hot-deck은 MAR 패턴에 합리적으로 적합합니다 (MNAR의 경우 다중 입력이 유일한 적절한 솔루션입니다). 무작위 차용인 Hot-deck은 적어도 잠재적으로 한계 분포를 편향시키지 않습니다. 그러나 잠재적으로 상관 관계에 영향을 미치고 회귀 매개 변수를 편향시킵니다. 그러나이 효과는 더 복잡하고 정교한 버전의 핫 데크 프로 시저로 최소화 할 수 있습니다.

핫 데크 대치의 단점은 위에서 언급 한 배경 변수가 확실히 범주 적 (범주 형이므로 특별한 “일치 알고리즘”이 필요하지 않습니다.) 양적 데크 변수-범주로 구분합니다. 결 측값이있는 변수는 모든 유형이 될 수 있으며 이것이 방법의 자산입니다 (단일 대치의 많은 대체 형식은 양적 또는 연속 특성에만 대치 될 수 있음).

핫의 또 다른 약점 -deck 대치 : 예를 들어 X와 Y와 같은 여러 변수에서 결 측값을 대치 할 때, 즉 X와 Y로 대치 함수를 한 번 실행하고 두 변수에서 i가 누락 된 경우 Y에서 i를 대치하면 X에서 i에 대치 된 값과 관련이 없습니다. 즉, Y를 대치 할 때 X와 Y 사이의 가능한 상관 관계는 고려되지 않습니다. 즉, 입력은 “일 변량”이며 “종속”의 잠재적 인 다변량 특성을 인식하지 못합니다 (즉, 수신자, 누락 된 값 있음). variables. $ ^ 1 $

핫 데크 대치를 잘못 사용하지 마십시오. 누락 된 대치의 대치는 변수에서 누락 된 케이스가 20 % 이하인 경우에만 수행하는 것이 좋습니다. 기증자는 충분히 커야합니다. 기증자가 한 명인 경우 비정형적인 경우 다른 데이터보다 비정 형성을 확장 할 위험이 있습니다.

대체 여부에 관계없이 기증자 선택 . 무 대체 체제에서 무작위로 선택된 기증자 사례는 한 명의 수혜자 사례에만 가치를 전가 할 수 있습니다.대체 허용 체제에서 기증자 사례가 다시 무작위로 선택되면 다시 기증자가 될 수 있으며, 따라서 여러 수혜자 사례로 전가됩니다. 2 차 체제는 수혜자 사례가 많고 전가하기에 적합한 기증자 사례가 적은 경우 심각한 분포 편향을 유발할 수 있습니다. 왜냐하면 한 기증자가 그 가치를 많은 수혜자에게 전가 할 것이기 때문입니다. 선택할 수있는 기부자가 많으면 편견이 허용됩니다. 대체하지 않는 방법은 편견이 없지만 기증자가 적을 경우 많은 경우에 영향을 미치지 않을 수 있습니다.

소음 추가 . 고전적인 핫 데크 대치에서는 값을 그대로 차용 (복사)합니다. 그러나 값이 양적이면 차용 / 가상 된 값에 임의의 노이즈를 추가하는 것을 생각할 수 있습니다.

덱 특성에 대한 부분 일치 . 배경 변수가 여러 개인 경우 모든 배경 변수에 의해 일부 수혜자 사례와 일치하면 기증자 사례가 무작위 선택 대상이됩니다. 이러한 덱 특성이 2 ~ 3 개 이상이거나 적격 기부자를 전혀 찾지 못할 가능성이 많은 카테고리가 포함 된 경우. 이를 극복하기 위해 기증자를 적격하게 만드는 데 필요한 부분 일치 만 요구할 수 있습니다. 예를 들어, 데크 변수의 총 gk 모든 에 대한 일치가 필요합니다. 또는 데크 변수 목록 gk 첫 번째 에서 일치를 요구합니다. 잠재적 인 기부자에 대한 k가 클수록 무작위로 선택 될 가능성이 더 높아집니다. [SPSS 용 핫 도크 매크로에서 부분 일치 및 교체 / 교체 없음이 구현됩니다.]


$ ^ 1 $이를 고려한다면 두 가지 대안을 권장 할 수 있습니다. : (1) Y를 대치 할 때 이미 대치 된 X를 배경 변수 목록에 추가하고 (X 범주 형 변수를 만들어야 함) 배경 변수에 대한 부분 일치를 허용하는 핫 데크 대치 함수를 사용합니다. (2) X의 대치에서 나온 대치 솔루션을 Y 위로 확장합니다. 즉, 동일한 기증자 케이스를 사용합니다. 이 두 번째 대안은 빠르고 쉽지만 X에서 수행 된 대치의 Y에 대한 엄격한 재생산입니다. 두 대치 과정 사이의 독립성은 여기에 남아 있지 않으므로이 대안은 좋지 않습니다 .


여기에 이미지 설명 입력

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다