F-test en t-test worden uitgevoerd in regressiemodellen.

In lineaire modeluitvoer in R, krijgen we aangepaste waarden en verwachte waarden van de responsvariabele. Stel dat ik lengte heb als verklarende variabele en lichaamsgewicht als responsvariabele voor 100 gegevenspunten.

Elke variabele (verklarende of onafhankelijke variabele, als we een meervoudig regressiemodel hebben) coëfficiënt in een lineair model is geassocieerd met een t-waarde (samen met zijn p-waarde)? Hoe wordt deze t-waarde berekend?

Er is ook een F-test aan het einde; ik ben opnieuw benieuwd naar de berekening ervan?

Ook in ANOVA naar lineair model heb ik een F-test gezien.

Hoewel ik een nieuwe leerling ben op het gebied van statistieken en geen statistische achtergrond heb , Ik heb hier veel tutorials over gehad. Stel alsjeblieft niet voor om me basislessen te geven, want dat heb ik al gedaan. Ik ben alleen benieuwd naar de T- en F-testberekening aan de hand van een eenvoudig voorbeeld.

Opmerkingen

  • Wat ' sa ' voorspellende ' variabele? Vanuit uw tekst klinkt het alsof u bedoelt ' responsvariabele '
  • ja! responsvariabele of onafhankelijke variabele. Ik ben het aan het bewerken. bedankt
  • Whoah. Responsvariabele = afhankelijke variabele = y-variabele. Onafhankelijke variabele = verklarende variabele = voorspellende variabele = x-variabele. Wat is het?
  • Bedankt Glen_b, ik ben heel blij met het leren van soorten variabelen in regressiemodellen en het antwoord dat hieronder door Maaten buis wordt gegeven, heeft me het concept duidelijk gemaakt.
  • @bioinformatician Hier zijn lijsten met termen die u kunnen helpen. Laat ' s beginnen met synoniemen voor " afhankelijke variabele " = " verklaarde variabele ", " voorspellen en ", " regressand ", " antwoord ", " endogeen ", " uitkomst ", " gecontroleerde variabele ". Hierna volgen enkele synoniemen voor " verklarende variabele " = " onafhankelijke variabele ", " voorspeller ", " regressor ", " stimulus ", " exogeen ", " covariaat ", " besturingsvariabele ". Sommige van deze termen zijn populairder dan andere in verschillende disciplines.

Antwoord

Het misverstand is je eerste uitgangspunt “F-test en $ t $ -test worden uitgevoerd tussen twee populaties”, dit is onjuist of op zijn minst onvolledig. De $ t $ -test die naast een coëfficiënt staat, test de nulhypothese dat die coëfficiënt gelijk is aan 0. Als de overeenkomstige variabele binair is, bijvoorbeeld 0 = mannelijk, 1 = vrouwelijk, dan beschrijft dat de twee populaties maar met de toegevoegde complicatie die u ook aanpast voor de andere covariaten in uw model. Als die variabele continu is, bijvoorbeeld jaren opleiding, kun je denken aan het vergelijken van iemand met 0 jaar opleiding met iemand met 1 jaar opleiding, en iemand met 1 jaar opleiding te vergelijken met iemand met 2 jaar opleiding etc. met de beperking dat elke stap hetzelfde effect heeft op het verwachte resultaat en opnieuw met de complicatie die u aanpast voor de andere covariaten in uw model.

Een F-toets na lineaire regressie test de nulhypothese dat alle coëfficiënten in uw model behalve de constante gelijk zijn aan 0. De groepen die u vergelijkt, zijn dus nog complexer.

Opmerkingen

  • Beste Maarten Buis! Leuke uitleg. Mijn geschreven upvote aan jou 🙂 ..mijn huidige reputatiescore staat mij niet toe om te stemmen 🙁 !!

Answer

Sommige notaties aan het begin, ik gebruik z ~ N (0,1), u ~ χ2 (p), v ~ χ2 (q) en z, u en v zijn onderling onafhankelijk (belangrijke voorwaarde)

  1. t = z / sqrt (u / p). Voor elk van de coëfficiënten βj, als je test of h0: βj = 0. Dan is (βj-0) / 1 in feite z, en steekproefvarianties (n-2) S ^ 2 ~ χ2 (n-2), dan heb je ook je onderste deel. Dus als t groot is, dan wijkt hij af van de H0 (significante p-waarde) en we verwerpen Ho .
  2. F = (u / p) / (v / q), waarbij u niet-centrale parameters zou kunnen hebben λ. Hoe verkrijg je twee onafhankelijke χ2 in algemene lineaire regressie?Geschatte βhat (de hele vector) en geschatte steekproefvariantie s ^ 2 zijn altijd onafhankelijk. Dus F-tests in lineaire regressie zijn in feite (SSR / k) / (SSE / (n-k-1)). (SSR: som van regressiekwadkanten SSE: som van foutkwadraten). Onder H0: β = 0, heeft top een centrale chikwadraat (en dus niet-centrale F), anders volgt niet-centrale teststatistieken. Dus als je de relatie tussen t en F wilt weten, denk dan eens aan de eenvoudige lineaire regressie. Y = Xb + a (b is een scalair), dan zijn t-test voor b en algehele F-test hetzelfde.
  3. Voor (eenrichtings) ANOVA zijn er veel statistische dingen met betrekking tot de niet-volledige rang X-matrix en schatbare functies, daar wil ik u niet mee belasten. Maar het basisidee is dat we bijvoorbeeld 4 behandelingen hebben in covid-19, en we willen vergelijken of er een verschil is tussen de 4 groepen. Dan is de totale F = \ som {n = 1} ^ {4-1} (Fi) / (4-1) voor totale (4-1) lineair onafhankelijke orthogonale contrasten. Dus als de totale F een grote waarde, zouden we H0 afwijzen: geen verschil tussen 4 groepen.

Lol, ik realiseerde me net dat je deze vraag zo lang geleden hebt gesteld en waarschijnlijk niet meer in de war bent. Maar als er een kans is dat je “nog steeds geïnteresseerd, je kunt het boek” Lineair model in statistieken “bekijken voor meer rigoureuze uitleg. Ik was het boek aan het herzien voor mijn kwalificatie en kwam hier toevallig tegen aan 🙂

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *