동모 분산 성은 오차항의 표준 편차가 일관되고 x- 값에 의존하지 않는다는 것을 의미한다는 것을 읽었습니다.

질문 1 : 누군가 이것이 필요한 이유를 직관적으로 설명 할 수 있습니까? (적용된 예가 좋습니다!)

질문 2 : 이상적인 것이 hetero-인지 homo-인지 기억이 나지 않습니다. 어떤 사람이 이상적인 논리를 설명 할 수 있나요?

질문 3 : 이분산성은 x가 오류와 상관 관계가 있음을 의미합니다. 누군가 이것이 왜 나쁜지 설명 할 수 있나요?

* homo- * 대 * 이분산성 * 그래프

댓글

  • " 이분산성은 x가 오류와 상관 관계가 있음을 의미합니다. "-이 말을하는 이유는 무엇입니까?
  • 힌트 : 동 분산 성은 설명하기 간단합니다. 단 하나의 매개 변수 (공통 분산 용) 만 필요합니다. 이분산성 모델을 어떻게 설명 하시겠습니까?

Answer

동 분산 성은 모든 관측치의 분산이 서로 동일 함을 의미하고 이분산성은 서로 다르다는 것을 의미합니다. 분산의 크기가 x에 상대적인 추세를 표시 할 수 있지만 반드시 필요한 것은 아닙니다. 첨부 된 다이어그램에 표시된대로 지점마다 임의의 방식으로 크기가 다른 분산도 마찬가지로 적합합니다. 동 분산 대이 분산 데이터

회귀의 임무는 가능한 한 많은 데이터 포인트에 가깝게 지나가는 최적 곡선을 추정하는 것입니다. 이 분산 적 데이터의 경우 정의에 따라 일부 지점은 자연적으로 다른 지점보다 훨씬 더 널리 분산됩니다. 회귀가 단순히 모든 데이터 포인트를 동등하게 취급하는 경우, 분산이 가장 큰 데이터 포인트는 최소화라는 목적을 달성하기 위해 회귀 곡선을 자신을 향해 “끌어서”최적 회귀 곡선을 선택하는 데 과도한 영향을 미치는 경향이 있습니다. 최종 회귀 곡선에 대한 데이터 포인트의 전체 분산.

이 문제는 분산에 반비례하여 각 데이터 포인트에 가중치를 부여함으로써 쉽게 극복 할 수 있습니다. 그러나 이것은 각 개별 포인트와 관련된 분산을 알고 가정한다고 가정합니다. 종종 그렇지 않습니다. 따라서 동 분산 적 데이터가 선호되는 이유는 더 간단하고 다루기 쉽기 때문입니다. 개별 점의 근본적인 분산을 알 필요없이 회귀 곡선에 대한 “정확한”답을 얻을 수 있기 때문입니다. , 어떤 의미에서 포인트 간의 상대적 가중치는 어쨌든 모두 동일하다면 “취소”될 것이기 때문입니다.

편집 :

한 댓글 작성자가 그 개인의 아이디어를 설명해달라고 요청합니다. 포인트는 고유하고 다른 분산을 가질 수 있습니다. 저는 생각 실험을 통해 그렇게합니다. 모기 크기에서 크기까지 다양한 동물 무리의 무게 대 길이를 측정하도록 요청한다고 가정 해 보겠습니다. x 축에 길이를, y 축에 무게를 표시합니다.하지만 잠시 멈춰서 좀 더 자세히 고려해 보겠습니다. 무게 값을 구체적으로 살펴 보겠습니다. 실제로 값을 어떻게 얻었습니까? 집 애완 동물의 무게를 잴 때와 같은 물리적 측정 장치를 사용하여 모기의 무게를 측정 할 수 없으며 동일한 장치를 사용하여 코끼리의 무게를 재는 것처럼 집 애완 동물의 무게를 재십시오. 모기의 경우 0.0001g까지 정확한 분석 화학 균형 과 같은 것을 사용해야 할 것입니다. 반려 동물의 경우에는 “d” 0.5 파운드 정도 (약 200g) 정도의 정확한 욕실 저울을 사용하고 코끼리의 경우 트럭과 같은 것을 사용할 수 있습니다. +/- 10kg 이내로 만 정확할 수 있습니다. 요점은 이러한 모든 장치는 고유 한 정확도가 다릅니다. 즉, 특정 유효 자릿수까지만 무게를 알려줍니다. 확실히 알 수 없습니다. 위의이 분산 적 플롯에서 서로 다른 크기의 오차 막대는 개별 점의 서로 다른 분산과 연관되어 기본 측정에 대한 서로 다른 확실성을 반영합니다. 요컨대, 때때로 우리는 모든 포인트를 똑같이 잘 측정 할 수 없기 때문에 서로 다른 포인트는 서로 다른 분산을 가질 수 있습니다.-당신은 얻을 수 없기 때문에 +/- 0.0001 g까지 코끼리의 무게를 알 수 없습니다. 트럭 스케일에서 그런 종류의 정확도를 얻을 수 있습니다. 그러나 분석 화학 저울에서 그런 종류의 정확도를 얻을 수 있기 때문에 모기의 무게를 +/- 0.0001g까지 알 수 있습니다.(기술적으로,이 특정 사고 실험에서 실제로 길이 측정에 대해서도 동일한 유형의 문제가 발생하지만 실제로 의미하는 것은 x 축 값에서도 불확실성을 나타내는 수평 오차 막대를 표시하기로 결정하면 포인트마다 크기가 다릅니다.)

댓글

  • 점 / 관찰의 변동 ". 이것이 없으면 독자는 만족하지 못하고 반대 할 수 있습니다. 샘플의 단일 관측치가 어떻게 자체 변동 측정 값을 가질 수 있습니까?

답변

회귀에서 동분 산성을 원하는 이유는 무엇입니까?

그렇지 않습니다. 회귀에서 동분 산성 또는 이분산성을 원합니다 . 우리가 원하는 것은 모델이 데이터의 실제 속성을 반영하는 것 입니다. 회귀 모델은 다음과 같은 가정으로 공식화 될 수 있습니다. 특정 형태의 동분 산성 또는 이분산성 가정. 데이터의 실제 속성에 맞는 회귀 모델을 공식화하여 관찰 된 프로세스에서 발생하는 데이터 동작의 합리적인 사양을 반영하고자합니다.

따라서 기대치 (오차항)로부터의 응답 편차의 분산이 고정되어 있으면 (즉, 동 분산 적)이를 반영하는 모델이 필요합니다. 예상에서 응답의 편차 (오차 항)의 분산은 설명 변수 (즉,이 분산 적)에 따라 달라지며 를 반영하는 모델이 필요합니다. 모델을 잘못 지정하면 (예 :이 분산 데이터에 동 분산 모델을 사용하여) 오류 항의 분산을 잘못 지정하게됩니다. 그 결과 회귀 함수의 추정치는 일부 오류에 대해서는 과소 처벌을 내리고 다른 오류에는 과대 처벌을 내리며 모델을 올바르게 지정하는 경우보다 성능이 저하되는 경향이 있습니다.

답변

다른 훌륭한 답변 외에도 :

누군가가 왜 이것이 필요한지 직관적으로 설명 할 수 있습니까? ? (적용된 예가 좋습니다!)

상수 분산은 필요한 것은 아니지만 모델링과 분석을 포함하면 이것의 일부는 역사적이어야합니다. 분산이 일정하지 않을 때 분석은 더 복잡하고 더 많은 계산이 필요합니다! 따라서 하나의 개발 된 방법 (변환)을 통해 일정한 분산이 유지되고 더 간단하고 빠른 방법을 사용할 수 있습니다. 더 많은 대체 방법이 있으며 빠른 계산은 그다지 중요하지 않습니다. 그러나 단순함은 여전히 가치가 있습니다! 부품은 기술 / 수학적입니다. 분산이 일정하지 않은 모델에는 정확한 부수적 요소 가 없습니다 ( 여기 참조). 따라서 대략적인 추론 만 가능합니다. 두 그룹 문제에서 불일치 분산은 유명한 Behrens-Fisher 문제 입니다.

하지만 그보다 훨씬 더 깊습니다. 두 그룹의 평균을 t- 검정 (일부 변형)과 비교하는 가장 간단한 예를 살펴 보겠습니다. 귀무 가설은 그룹이 동일하다는 것입니다. 치료 및 대조군을 사용한 무작위 실험이라고 가정 해 보겠습니다. 그룹 크기가 합리적이면 무작위 화는 그룹을 동일하게 만들어야합니다 (처리 전). 상수 분산 가정은 처리 (아무것도 작동하는 경우)가 분산이 아닌 평균에만 영향을 준다고 말합니다. 그러나 그것이 분산에 어떻게 영향을 미칠 수 있습니까? 치료가 치료 그룹의 모든 구성원에게 실제로 똑같이 작동하면 모두에게 어느 정도 동일한 효과를 가져야하며 그룹이 이동됩니다. 따라서 불균등 분산은 치료가 치료 그룹의 일부 구성원에 대해 다른 구성원과 다른 효과를 가짐을 의미 할 수 있습니다. 그룹의 절반에는 효과가 있고 나머지 절반에는 훨씬 더 강한 효과가 있다면 분산은 평균과 함께 증가합니다! 따라서 일정한 분산 가정은 실제로 개별 치료 효과의 균질성에 대한 가정입니다 . 이것이 유지되지 않으면 분석이 더 복잡해질 것으로 예상해야합니다. 여기를 참조하세요 . 그런 다음, 불균등 한 분산으로 인해 그 이유, 특히 치료와 관련이 있는지 묻는 것도 흥미로울 수 있습니다. 그렇다면 이 게시물이 흥미로울 수 있습니다 .

질문 2 : 할 수 있습니다 이상적인 것이 이성인지 동성인지 기억하지 마십시오. 어떤 사람이 이상적인 논리를 설명 할 수 있습니까?

아무도 이상적입니다 , 현재 상황을 모델로 삼아야합니다.하지만이 두 단어의 의미 를 기억하는 것에 대한 질문 인 경우 섹스 앞에 추가하세요. 그리고 당신은 기억할 것입니다.

질문 3 : 이분산성은 x가 오류와 상관 관계가 있음을 의미합니다. 누군가 이것이 왜 나쁜지 설명 할 수 있습니까?

이것은 $ x $에 주어진 오류의 조건부 분포를 의미합니다. , $ x $ 에 따라 다릅니다. 그것은 나쁜 이 아니라 삶을 복잡하게 만들뿐입니다.하지만 삶을 흥미롭게 만들 수도 할 수도 있고 흥미로운 일이 진행되고 있다는 신호일 수도 있습니다.

답변

OLS 회귀의 가정 중 하나는 다음과 같습니다.

오차 항 / 잔차의 분산은 일정합니다.이 가정 homoskedasticity 로 알려져 있습니다.

이 가정은 관측치의 변화에 따라 오류 용어는 변경되지 않아야합니다.

  1. 이 조건을 위반하면 일반 최소 제곱 추정치 여전히 선형적이고 편향되지 않고 일관성이 있지만 이러한 추정치는 더 이상 효율적이지 않습니다 .

또한 표준 오류 추정치 편향되고 신뢰할 수 없음 v id = “ca26703cc2″>

이분산성이 존재하여 추정자에 대한 가설 테스트 문제 로 이어집니다. .

요약하면 동분 산성이없는 경우 선형 및 편향되지 않은 추정량은 있지만 BLUE (최상의 선형 비 편향 추정량)는 없습니다.

[Read Gauss Markov theorem]

  1. 이상적으로는 모델에 동분 산성이 필요하다는 것이 분명해 졌으면합니다.

  2. 오류 항이 y 또는 y 예측 또는 xi 중 하나; 이는 우리의 예측자가 y의 변동을 올바르게 설명하는 작업을 수행하지 않았 음을 나타냅니다.

어쨌든 모델 사양이 올바르지 않거나 다른 문제가 있습니다.

도움이되기를 바랍니다. 곧 직관적 인 예제를 작성하려고합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다