Le test F et le test t sont effectués dans des modèles de régression.
En sortie de modèle linéaire dans R, nous obtenons les valeurs ajustées et les valeurs attendues de la variable de réponse. Supposons que jai la taille comme variable explicative et le poids corporel comme variable de réponse pour 100 points de données.
Chaque coefficient de variable (variable explicative ou indépendante, si nous avons un modèle de régression multiple) dans le modèle linéaire est associé à une valeur t (avec sa valeur p)? Comment cette valeur t est-elle calculée?
Il y a aussi un test F à la fin; encore une fois je suis curieux de connaître son calcul?
Aussi en ANOVA après modèle linéaire, jai vu un test F.
Bien que je sois un nouvel apprenant en statistiques et pas de fond statistique , Jai parcouru de nombreux tutoriels à ce sujet. Sil vous plaît ne suggérez pas de maccompagner de didacticiels de base, car je lai déjà fait. Je suis seulement curieux de connaître le calcul des tests T et F en utilisant un exemple de base.
Commentaires
- What ' sa ' variable prédictive '? Daprès votre texte, il semble que vous vouliez dire ' variable de réponse '
- oui! variable de réponse ou variable indépendante. Je suis en train de le modifier. merci
- Whoah. Variable de réponse = variable dépendante = variable y. Variable indépendante = variable explicative = variable prédictive = variable x. Lequel est-ce?
- Merci Glen_b, je suis ravi de lapprentissage des types de variables dans les modèles de régression et la réponse donnée ci-dessous par Maaten buis ma clarifié le concept.
- @bioinformatician Ici sont des listes de termes qui peuvent vous aider. Commençons par ' les synonymes de " variable dépendante " = " variable expliquée ", " predictand ", " regressand ", " réponse ", " endogène ", " résultat ", " variable contrôlée ". Viennent ensuite quelques synonymes de " variable explicative " = " variable indépendante ", " prédicteur ", " régresseur ", " stimulus ", " exogène ", " covariable ", " variable de contrôle ". Certains de ces termes sont plus populaires que dautres dans différentes disciplines.
Réponse
Le malentendu est votre première prémisse « F test et $ t $ -test sont effectués entre deux populations », cest incorrect ou du moins incomplet. Le test $ t $ qui est à côté dun coefficient teste lhypothèse nulle que ce coefficient est égal à 0. Si la variable correspondante est binaire, par exemple 0 = homme, 1 = femme, alors cela décrit les deux populations mais avec la complication supplémentaire que vous ajustez également pour les autres covariables de votre modèle. Si cette variable est continue, par exemple les années détudes, vous pouvez penser à comparer une personne ayant 0 année détudes avec une personne ayant 1 an détudes, et à comparer une personne ayant 1 an détudes avec une personne ayant 2 ans détudes, etc. la contrainte que chaque étape a le même effet sur le résultat attendu et encore une fois avec la complication que vous ajustez pour les autres covariables de votre modèle.
Un test F après régression linéaire teste lhypothèse nulle que tous les coefficients de votre modèle à lexception de la constante sont égaux à 0. Les groupes que vous comparez sont donc encore plus complexes.
Commentaires
- Cher Maarten Buis! Belle explication. Mon vote positif écrit pour vous 🙂 .. mon score de réputation actuel ne me permet pas de voter 🙁 !!
Réponse
Quelques notations au tout début, jutilise z ~ N (0,1), u ~ χ2 (p), v ~ χ2 (q) et z, u et v sont mutuellement indépendants (condition importante)
- t = z / sqrt (u / p). Pour chacun des coefficients βj, si vous testez si h0: βj = 0. Alors (βj-0) / 1 est fondamentalement z, et échantillonner les variances (n-2) S ^ 2 ~ χ2 (n-2), alors vous avez aussi votre partie inférieure. Donc, lorsque t est grand, ce qui signifie quil sécarte de H0 (valeur p significative) et nous rejetons Ho .
- F = (u / p) / (v / q), où u pourrait avoir des paramètres non centraux λ. Comment obtenir deux χ2 indépendants en régression linéaire générale? βhat (le vecteur entier) et variance estimée de léchantillon s ^ 2 sont toujours indépendants. Donc, le test F en régression linéaire est essentiellement (SSR / k) / (SSE / (n-k-1)). (SSR: somme des carrés de régression SSE: somme des carrés derreur). Sous H0: β = 0, top aura un chi carré central (et donc un F non central), sinon, il suivra des statistiques de test non centrales. Donc, si vous voulez connaître la relation entre t et F, pensez à la régression linéaire simple. Y = Xb + a (b est un scalaire), alors le test t pour b et le test F global sont la même chose.
- Pour lANOVA (unidirectionnelle), il y a beaucoup de statistiques concernant le matrice de rang X non complet et trucs de fonctions estimables, je ne veux pas vous surcharger de tout cela. Mais lidée de base est, par exemple, nous avons 4 traitements dans covid-19, et nous voulons comparer sil y a une différence entre les 4 groupes. Ensuite, globalement F = \ somme {n = 1} ^ {4-1} (Fi) / (4-1) pour le total (4-1) des contrastes orthogonaux linéairement indépendants. Donc, si le F global a un grand valeur, nous rejetterions H0: pas de différence entre 4 groupes.
Lol Je viens de réaliser que vous avez posé cette question il y a tant dannées et probablement plus confus. Mais sil y a une chance que vous « Vous êtes toujours intéressé, vous pouvez consulter le livre » Modèle linéaire en statistiques « pour des explications plus rigoureuses. Jétais en train de réviser le livre pour mon qualificatif et je suis tombé sur ça 🙂