F-test og t-test udføres i regressionsmodeller.

I lineær modeloutput i R, vi får tilpassede værdier og forventede værdier for responsvariabler. Antag, at jeg har højde som forklarende variabel og kropsvægt som svarvariabel for 100 datapunkter.

Hver variabel (forklarende eller uafhængig variabel, hvis vi har flere regressionsmodeller), er koefficient i lineær model forbundet med en t-værdi (sammen med dens p-værdi)? Hvordan beregnes denne t-værdi?

Der er også en F-test i slutningen; igen er jeg nysgerrig efter at vide om dens beregning?

Også i ANOVA efter lineær model har jeg set en F-test.

Selvom jeg er ny statistiklærer og ikke fra statistisk baggrund , Jeg har gennemgået med mange tutorials om dette. Foreslå venligst ikke at gå til mig med grundlæggende tutorials, da jeg allerede har gjort det. Jeg er kun nysgerrig efter at vide om T- og F-testberegningen ved hjælp af nogle grundlæggende eksempler.

Kommentarer

  • Hvad ' sa ' forudsigelig ' variabel? Fra din tekst lyder det faktisk som om du mener ' svarvariabel '
  • ja! svarvariabel eller uafhængig variabel. Jeg redigerer det. tak
  • Whoah. Svarvariabel = afhængig variabel = y-variabel. Uafhængig variabel = forklarende variabel = forudsigelig variabel = x-variabel. Hvilket er det?
  • Tak Glen_b, jeg er meget tilfreds med indlæringen af typer af variabler i regressionsmodeller, og svaret nedenfor af Maaten buis gjorde mig klar over konceptet.
  • @bioinformatician Her er lister over udtryk, der kan hjælpe dig. Lad ' s starte med synonymer for " afhængig variabel " = " forklaret variabel ", " forudsigelse og ", " regressand ", " svar ", " endogen ", " resultat ", " kontrolleret variabel ". Dernæst er nogle synonymer til " forklarende variabel " = " uafhængig variabel ", " forudsigelse ", " regressor ", " stimulus ", " eksogen ", " covariat ", " kontrolvariabel ". Nogle af disse udtryk er mere populære end andre på tværs af forskellige discipliner.

Svar

Misforståelsen er din første forudsætning “F-test og $ t $ -test udføres mellem to populationer”, dette er forkert eller i det mindste ufuldstændigt. $ T $ -testen, der er ved siden af en koefficient, tester nulhypotesen om, at koefficienten er lig med 0. Hvis den tilsvarende variabel er binær, for eksempel 0 = mand, 1 = kvinde, så beskriver det de to populationer, men med den tilføjede komplikation at du også justerer for de andre kovariater i din model. Hvis denne variabel er kontinuerlig, for eksempel års uddannelse, kan du tænke på at sammenligne nogen med 0 års uddannelse med nogen med 1 års uddannelse og sammenligne nogen med 1 års uddannelse med nogen med 2 års uddannelse osv. Med begrænsningen om, at hvert trin har den samme effekt på det forventede resultat og igen med den komplikation, som du justerer for de andre kovariater i din model.

En F-test efter lineær regression tester nulhypotesen om, at alle koefficienter i din model undtagen konstanten er lig med 0. Så de grupper, du sammenligner, er endnu mere komplekse.

Kommentarer

  • Kære Maarten Buis! Dejlig forklaring. Min skrevne Upvote til dig 🙂 .. min nuværende omdømme giver mig ikke mulighed for at stemme 🙁 !!

Svar

Nogle notationer i starten, jeg bruger z ~ N (0,1), u ~ χ2 (p), v ~ χ2 (q) og z, u og v er indbyrdes uafhængige (vigtig betingelse)

  1. t = z / sqrt (u / p). For hver af koefficienten βj, hvis du tester om h0: βj = 0. Derefter (βj-0) / 1 er dybest set z, og prøvevariationer (n-2) S ^ 2 ~ χ2 (n-2), så har du også din nederste del. Så når t er stort, hvilket betyder, at det afviger fra H0 (signifikant p-værdi), og vi afviser Ho .
  2. F = (u / p) / (v / q), hvor u kunne have ikke-centrale parametre λ. Hvordan får man to uafhængige χ2 generelt lineær regression?Anslået βhat (hele vektoren) og estimeret prøvevarians s ^ 2 er altid uafhængige. Så F-test i lineær regression er grundlæggende (SSR / k) / (SSE / (n-k-1)). (SSR: sum af kvadrater af regression SSE: sum af kvadrater af fejl). Under H0: β = 0, vil toppen have det centrale chi-firkant (og derfor ikke-centralt F), ellers er det vil følge ikke-centrale teststatistikker. Så hvis du vil vide forholdet mellem t og F, så tænk på den enkle lineære regression. Y = Xb + a (b er en skalar), så er t-test for b og samlet F-test den samme.
  3. For (envejs) ANOVA er der mange statistiske ting vedrørende ikke-fuld rang X matrix og skønbare funktioner ting, jeg vil ikke belaste dig med alt det. Men grundidéen er for eksempel, at vi har 4 behandlinger i covid-19, og vi vil sammenligne om der er forskel på de fire grupper. Så samlet F = \ sum {n = 1} ^ {4-1} (Fi) / (4-1) for total (4-1) lineært uafhængige ortogonale kontraster. Så hvis den samlede F har en stor værdi, ville vi afvise H0: ingen forskel mellem 4 grupper.

Lol Jeg indså lige, at du stillede dette spørgsmål for så mange år siden og sandsynligvis ikke forvirret længere. Men hvis der er nogen chance for dig “er stadig interesseret, kan du tjekke” Lineær model i statistik “-bogen for mere detaljerede forklaringer. Jeg gennemgik bogen til min kvalifikation og stødte tilfældigvis på dette 🙂

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *