Test F it test t są wykonywane w modelach regresji.
W modelu liniowym w R otrzymujemy dopasowane wartości i oczekiwane wartości zmiennej odpowiedzi. Załóżmy, że mam wzrost jako zmienną objaśniającą i masę ciała jako zmienną odpowiedzi dla 100 punktów danych.
Każda zmienna (objaśniająca lub niezależna, jeśli mamy model regresji wielorakiej) współczynnik w modelu liniowym jest powiązany z wartością t (wraz z jej wartością p)? Jak obliczana jest ta wartość t?
Na końcu jest jeden test F; znowu jestem ciekawy, jak się dowiedzieć o jego obliczeniach?
Również w ANOVA po modelu liniowym widziałem test F.
Chociaż jestem nowym uczniem statystyki, a nie z tła statystycznego , Przeszedłem przez wiele samouczków na ten temat. Nie sugeruj mi chodzenia z podstawowymi samouczkami, ponieważ już to zrobiłem. Ciekawi mnie tylko obliczenie testu T i F na podstawie podstawowego przykładu.
Komentarze
- Co ' sa ' zmienna predykcyjna '? Z Twojego tekstu wynika, że masz na myśli ' zmienna odpowiedzi '
- tak! zmienna odpowiedzi lub zmienna niezależna. Edytuję to. dzięki
- Whoah. Zmienna odpowiedzi = zmienna zależna = zmienna y. Zmienna niezależna = zmienna objaśniająca = zmienna predykcyjna = zmienna x. Co to jest?
- Dziękuję Glen_b, jestem zachwycony poznaniem typów zmiennych w modelach regresji, a odpowiedź udzielona poniżej przez Maaten buis wyjaśniła mi tę koncepcję.
- @bioinformatician Here to listy terminów, które mogą Ci pomóc. Niech ' s zaczną się od synonimów " zmiennej zależnej " = " wyjaśniona zmienna ", " Predictand ", " regressand ", " odpowiedź ", " endogeniczne ", " wynik ", " zmienna kontrolowana ". Dalej są synonimy dla " zmiennej objaśniającej " = " zmiennej niezależnej ", " predyktor ", " regresor ", " bodziec ", " egzogenny ", " covariate ", " zmienna sterująca ". Niektóre z tych terminów są bardziej popularne niż inne w różnych dyscyplinach.
Odpowiedź
Nieporozumienie jest pierwszym założeniem „F test i $ t $ -test są wykonywane między dwiema populacjami”, jest to nieprawidłowe lub przynajmniej niepełne. $ T $ -test, który znajduje się obok współczynnika, sprawdza hipotezę zerową, że współczynnik ten jest równy 0. Jeśli odpowiednia zmienna jest binarna, na przykład 0 = mężczyzna, 1 = kobieta, to opisuje dwie populacje, ale z dodatkową komplikacją które dostosowujesz również do innych zmiennych towarzyszących w modelu. Jeśli ta zmienna jest ciągła, na przykład liczba lat edukacji, możesz pomyśleć o porównaniu kogoś z 0-letnim wykształceniem z kimś z 1 rokiem wykształcenia i kimś z 1 rokiem edukacji z osobą z 2-letnim wykształceniem itp. ograniczenie, że każdy krok ma taki sam wpływ na oczekiwany wynik i ponownie z komplikacjami, które dostosowujesz dla innych zmiennych towarzyszących w modelu.
Test F po regresji liniowej sprawdza hipotezę zerową, zgodnie z którą wszystkie współczynniki w Twoim modelu z wyjątkiem stałej są równe 0. Zatem grupy, które porównujesz, są jeszcze bardziej złożone.
Komentarze
- Drogi Maarten Buis! Niezłe wyjaśnienie. Moje pisemne zagłosowanie dla Ciebie 🙂 ..Mój obecny wynik reputacji nie pozwala mi głosować 🙁 !!
Odpowiedź
Niektóre zapisy na samym początku, używam z ~ N (0,1), u ~ χ2 (p), v ~ χ2 (q) oraz z, uiv są wzajemnie niezależne (ważny warunek)
- t = z / sqrt (u / p). Dla każdego współczynnika βj, jeśli sprawdzisz, czy h0: βj = 0. Wtedy (βj-0) / 1 jest w zasadzie z, i wariancje próbki (n-2) S ^ 2 ~ χ2 (n-2), to masz również swoją dolną część. Więc kiedy t jest duże, co oznacza, że odbiega od H0 (istotna wartość p) i odrzucamy Ho .
- F = (u / p) / (v / q), gdzie u mogłoby mieć parametry niecentralne λ. Jak uzyskać dwa niezależne χ2 w ogólnej regresji liniowej?Szacowana βhat (cały wektor) i szacowana wariancja próbki s ^ 2 są zawsze niezależne. Zatem test F w regresji liniowej to w zasadzie (SSR / k) / (SSE / (n-k-1)). (SSR: suma kwadratów regresji SSE: suma kwadratów błędu). Pod H0: β = 0, top będzie miał środkowy chi-kwadrat (a zatem nie środkowy F), w przeciwnym razie będzie śledzić niecentralne statystyki testów. Więc jeśli chcesz poznać zależność między t i F, pomyśl o prostej regresji liniowej. Y = Xb + a (b jest skalarem), a następnie test t dla b i ogólny test F to to samo.
- W przypadku (jednokierunkowej) ANOVA istnieje wiele statystycznych rzeczy dotyczących macierz X z niepełną rangą i funkcje szacunkowe, nie chcę cię tym wszystkim obciążać. Ale podstawową ideą jest to, że na przykład mamy 4 traktowania w covid-19 i chcemy porównać, czy jest różnica między 4 grupy. Następnie ogólnie F = \ sum {n = 1} ^ {4-1} (Fi) / (4-1) dla wszystkich (4-1) liniowo niezależnych kontrastów ortogonalnych. Jeśli więc ogólne F ma duży wartości, odrzucilibyśmy H0: brak różnicy między 4 grupami.
Lol Właśnie zdałem sobie sprawę, że zadałeś to pytanie wiele lat temu i prawdopodobnie już nie jesteś zdezorientowany. Ale jeśli jest jakaś szansa, „nadal jesteś zainteresowany, możesz zajrzeć do książki„ Model liniowy w statystykach ”, aby uzyskać bardziej rygorystyczne wyjaśnienia. Przeglądałem książkę pod kątem mojego kwalifikatora i wpadłem na to 🙂