Cette question a déjà des réponses ici :

Commentaires

  • Je voudrais suggérer que lon peut avoir un aperçu considérable de ces questions en remplaçant " variance " ou " écart type " par une autre quantité (plus familière) qui joue un rôle analogue dans la description quantitative, telle que la longueur. Lors de la description de la plupart des objets physiques, les scientifiques rapporteront une longueur. Que signifie réellement la longueur? Quelle longueur est considérée comme exceptionnellement grande ou petite? Existe-t-il des lignes directrices pour évaluer lampleur des longueurs? Si une longueur est de 90 (ou 30), est-ce inhabituel ou complètement banal?
  • @whuber Comme vous pouvez le voir, jai essayé ce que vous suggérez dans la deuxième révision de ma question, à laquelle glen_b a répondu quaucune signification ne peut en être tirée. Puisque votre commentaire est continuellement voté, peut-être que vous ou certains des votants positifs pouvez expliquer ce que votre commentaire signifie, où je me suis trompé (avec ma deuxième révision) ou où glen_b pourrait se tromper. En létat, votre commentaire ne me donne aucune idée. Veuillez également considérer la révision actuelle (espérons-le finale) de ma question, dans laquelle jai tenté dexprimer ma question sans aucun des exemples manifestement distrayants.
  • Ce qui manque à cette question et mon commentaire est une indication des unités de mesure. " 90 " en soi na pas de sens. Un autre élément crucial manquant est tout cadre de référence contextuel pour déterminer si 90 est grand ou petit.
  • Vous me faites tourner en rond. Javais des unités de mesure et des contextes dans les exemples des versions précédentes de ma question. Celles-ci ont été fortement critiquées. Je suis évidemment incapable de trouver des exemples appropriés et de parvenir à une conclusion par moi-même. Je vous demande explicitement (ou à toute autre personne) de donner un exemple et de mexpliquer la réponse.
  • Un examen de votre message original montre que vous posiez cette question de manière très générale: " Existe-t-il des directives pour évaluer lampleur de la variance des données? " Sil sagissait (par exemple) du site Physics et que quelquun devait demander " existe-t-il des directives pour évaluer lampleur de la longueur, " don ' t vous pensez la question serait-elle immédiatement close car trop large (ou trop vague ou les deux)? Jespérais seulement que cette analogie montrerait à quel point il est impossible de répondre à votre question ici.

Réponse

Discussion sur la nouvelle question:

Par exemple, si je veux étudier la taille du corps humain et que je trouve que la taille du corps humain adulte a une norme écart de 2 cm, jen déduirais probablement que la taille du corps humain adulte est très uniforme

Cela dépend de ce à quoi nous comparons. norme de comparaison qui rend cela très uniforme? Si vous le comparez à la variabilité des longueurs de boulon pour un type particulier de boulon qui pourrait être extrêmement variable.

tandis quun écart type de 2 cm dans le la taille des souris signifierait que les souris diffèrent étonnamment beaucoup par la taille du corps.

En comparaison avec la même chose dans votre exemple dhumain plus uniforme, certainement; quand il sagit de longueurs de choses, qui ne peuvent être que positives, il est probablement plus logique de comparer le coefficient de variation (comme je le souligne dans ma réponse originale), ce qui revient à comparer sd pour signifier que vous suggérez ici .

Évidemment, la signification de lécart type est sa relation avec la moyenne,

Non, pas toujours. Dans le cas de tailles dobjets ou de quantités dobjets (par exemple, tonnage de charbon, volume dargent), cela a souvent du sens, mais dans dautres contextes, il nest pas logique de comparer à la moyenne.

Même dans ce cas, ils « ne sont pas nécessairement comparables dune chose à une autre. Il ny a pas de norme applicable à tout. à quel point quelque chose est variable avant sa variable.

et un écart-type autour dun dixième de la moyenne nest pas remarquable (par exemple pour IQ: SD = 0,15 * M).

Quelles choses comparons-nous ici? Longueurs au QI « s ? Pourquoi est-il judicieux de comparer un ensemble de choses à un autre? Notez que le choix de la moyenne 100 et de la sd 15 pour un type de test de QI est entièrement arbitraire. Ils nont pas d unités. Cela aurait pu aussi facilement signifier 0 sd 1 ou 0.5 et sd 0.1.

Mais quest-ce qui est considéré comme « petit » et quest-ce qui est « grand », quand il sagit de la relation entre lécart type et la moyenne?

Déjà couvert dans ma réponse originale mais plus éloquemment couvert dans le commentaire de whuber – il ny a pas de norme unique, et il ny a pas de « t être.

Certains de mes points sur Cohen sappliquent toujours à ce cas (sd par rapport à la moyenne est au moins sans unité); mais même avec quelque chose comme dire Cohen « s d, une norme appropriée dans un contexte nest pas nécessairement appropriée dans un autre.


Réponses à une version antérieure

Nous calculons et rapportons toujours les moyennes et les écarts types.

Eh bien, peut-être la plupart du temps; Je ne sais pas que je le fais toujours . Dans certains cas, ce n’est pas si pertinent.

Mais que signifie réellement la taille de la variance?

Lécart-type est une sorte de distance moyenne * par rapport à la moyenne. La variance est le carré du écart type. Lécart type est mesuré dans les mêmes unités que les données; la variance est exprimée en unités au carré.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

Ils vous disent quelque chose sur la façon dont les données sont » réparties « (ou la distribution, dans le cas où vous » calculez le sd ou la variance de une distribution).

Par exemple, supposons que nous observons quel siège les gens occupent dans une salle vide. Si nous observons que la majorité des gens sassoient près de la fenêtre avec peu de variance,

Ce « nest pas exactement un cas denregistrement » quel siège « mais enregistrer « la distance par rapport à la fenêtre ». (Savoir « que la majorité est assise près de la fenêtre » ne vous dit pas nécessairement quoi que ce soit sur la moyenne ni sur la variation de la moyenne. Ce que cela vous dit, cest que la médiane la distance de la fenêtre doit être petite.)

nous pouvons supposer que cela signifie que les gens préfèrent généralement sinstaller près de la fenêtre et obtenir une vue ou suffisamment de lumière est le principal facteur de motivation dans le choix dun siège.

Le fait que la médiane soit petite ne vous le dit pas en soi. Vous pouvez le déduire d’autres considérations, mais il peut y avoir toutes sortes de raisons que nous ne pouvons « t en aucune façon discerner à partir des données.

Si par contre nous observons que tandis que la plus grande proportion se trouve près de la fenêtre il y a un grand écart avec les autres sièges pris souvent aussi (par exemple, beaucoup sont assis près de la porte, dautres sont assis près du distributeur deau ou des journaux), nous pourrions supposer que si de nombreuses être plus de facteurs que la lumière ou la vue qui influencent le choix des sièges et les préférences différentes selon les personnes.

Encore une fois, vous « apportez des informations en dehors des données; cela peut sappliquer ou non. Pour autant, nous savons que la lumière est meilleure loin de la fenêtre, car le jour est couvert ou les stores sont tirés.

À quelles valeurs c a-t-on dit que le comportement que nous avons observé est très varié (différentes personnes aiment sasseoir à différents endroits)?

Ce qui rend un écart-type grand ou petit nest pas déterminé par une norme externe mais par des considérations sur le sujet et, dans une certaine mesure, ce que vous faites avec les données, et même les facteurs personnels.

Cependant, avec des mesures positives, telles que les distances, il est parfois pertinent de considérer lécart type par rapport à la moyenne (le coefficient de variation); c « est toujours arbitraire, mais les distributions avec des coefficients de variation beaucoup plus petits que 1 (écart type beaucoup plus petit que la moyenne) sont » différentes « dans un certain sens de celles où il » est beaucoup plus grand que 1 (écart type beaucoup plus grand que la moyenne , qui aura souvent tendance à être fortement biaisée à droite).

Et quand pouvons-nous en déduire que le comportement est généralement uniforme (tout le monde aime sasseoir à la fenêtre)

Méfiez-vous dutiliser le mot « uniforme » dans ce sens, car il « est facile de mal interpréter votre sens (par exemple si je dis que les gens sont » uniformément assis autour de la pièce « ce qui signifie presque le contraire de ce que vous entendez). Plus généralement, lorsque vous discutez de statistiques, évitez généralement dutiliser des termes de jargon dans leur sens ordinaire.

et la petite variation que nos données montrent est principalement le résultat deffets aléatoires ou de variables confondantes (saleté sur une chaise, le soleil sest déplacé et plus dombre dans le dos, etc.)

Non, encore une fois, vous « apportez des informations externes à la quantité statistique dont vous » discutez. La variance ne vous dit rien de tel.

Existe-t-il des lignes directrices pour évaluer lampleur de la variance des données, similaires aux lignes directrices de Cohen pour linterprétation de la taille de leffet (une corrélation de 0,5 est grande, 0,3 est modéré et 0,1 est petit)?

Pas en général, non.

  1. Cohen « s la discussion [1] sur la taille des effets est plus nuancée et situationnelle que vous ne lindiquez; il donne un tableau de 8 valeurs différentes de petit moyen et grand selon quel genre de chose est discuté. Les nombres que vous donnez sappliquent aux différences de moyennes indépendantes (d) de Cohen .

  2. Les tailles deffet de Cohen sont toutes mises à léchelle pour être des quantités sans unité . Lécart type et la variance ne sont pas – changez les unités et les deux changeront.

  3. Les tailles deffet de Cohen sont destinées à sappliquer dans un domaine dapplication particulier (et même alors je considère trop se concentrer sur ces normes de ce qui est petit, moyen et grand comme à la fois quelque peu arbitraires et un peu plus prescriptives que je le voudrais). Elles « sont plus ou moins raisonnables pour leur domaine d’application prévu mais peuvent être totalement inadaptées dans d’autres domaines (la physique des hautes énergies, par exemple, nécessite fréquemment des effets qui couvrent de nombreuses erreurs standard, mais les équivalents de Cohens tailles deffet peuvent être de plusieurs ordres de grandeur supérieurs à ce qui est réalisable).

Par exemple, si 90% (ou seulement 30%) des observations se situent dans un écart-type par rapport à la moyenne, est-ce inhabituel ou totalement insignifiant ?

Ah, notez maintenant que vous avez arrêté de discuter de la taille de lécart-type / variance, et que vous avez La proportion dobservations dans un écart type de la moyenne, un concept totalement différent. Très grosso modo, cela est davantage lié au pic de la distribution.

Par exemple, sans changer la variance du tout, je peux changer la proportion dune population à moins de 1 sd de la moyenne assez facilement. Si la population a une distribution $ t_3 $, environ 94% de celle-ci se trouve à moins de 1 sd de la moyenne, si elle a une distribution uniforme, environ 58% se trouve à moins de 1 sd de la moyenne; et avec une distribution bêta ($ \ frac18, \ frac18 $), cest environ 29%; cela peut arriver avec tous ayant les mêmes écarts types, ou avec lun deux étant plus grand ou plus petit sans changer ces pourcentages – ce nest pas vraiment lié à la propagation du tout, car vous avez défini lintervalle en termes décart type.

[1]: J. Cohen (1992),
« A power primer, »
Psychol Bull. , 112 (1), juillet 155-9.

Commentaires

  • Si la distribution est identique, le pourcentage serait fixe et ne changerait pas.
  • Si les choses fonctionnent comme elles le devraient, vous navez pas ' pouvoir le supprimer; tandis que vous " possédez " votre question, une fois quune question a des réponses, vous ne ' Je ne peux pas les supprimer, donc la question – une question valide avec des réponses valides – devrait rester, même si ' nest pas ce que vous vouliez demander . Je ' d vous suggère de commencer votre nouvelle question avec quelques concepts de base; vous trouverez peut-être que beaucoup de vos intuitions actuelles ne sappliquent pas '.
  • Cest ' une question plus claire, et ont été une bonne question à poser. Malheureusement, le problème est que vous ' avez radicalement changé la question dune manière qui invalide les réponses que vous avez reçues (lautre assez complètement, la mienne partiellement). Pourquoi ne devrait-il pas simplement être rétabli tel quel lorsquil a obtenu ces réponses?
  • Cependant, plutôt que de supprimer ce que vous aviez auparavant, vous pouvez ajouter votre question révisée à la fin et laisser loriginal pour contexte, de sorte que lautre réponse ressemble toujours à une question. Il ' nest guère juste de mettre la réponse initialement valide de Tim ' en danger dêtre marquée comme " pas une réponse " (puis supprimée) lorsque sa réponse répondait à une partie importante de ce que vous aviez initialement demandé. Le moyen le plus simple est de copier ce que vous avez maintenant (dans une fenêtre de bloc-notes, par exemple), dannuler votre question, puis de modifier pour recoller le nouveau contenu (et dajouter toute explication du changement que vous jugez nécessaire).
  • (a), aucune comparaison avec les souris nest venue plus tard dans la discussion. Au moment où vous lavez appelé " très uniforme " aucune mention de souris navait été faite. (b) Non, il ny a ' aucune relation entre moyenne et sd pour les distributions normales en général; la normale est une famille à léchelle de lemplacement. Il existe par exemple des distributions exponentielles. …(ctd)

Réponse

Par Chebyshev « s inégalité nous savons que la probabilité que quelque $ x $ soit $ k $ fois $ \ sigma $ à partir de la moyenne est au plus $ \ frac {1} {k ^ 2} $:

$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

Cependant, en faisant certaines hypothèses de distribution, vous pouvez être plus précis, par exemple Normal une approximation conduit à une règle 68–95–99.7 . En général, en utilisant nimporte quelle fonction de distribution cumulative , vous pouvez choisissez un intervalle qui devrait englober un certain pourcentage dobservations. Cependant, le choix de la largeur de lintervalle de confiance est une décision subjective, comme indiqué dans ce fil .

Exemple
Lexemple le plus intuitif qui me vient à lesprit est léchelle intelligence . Lintelligence est quelque chose qui ne peut pas être mesuré directement, nous nont pas d « unités » dintelligence directes (dailleurs, centimètres ou les degrés Celsius sont également en quelque sorte arbitraires). Les tests dintelligence sont notés de manière à avoir une moyenne de 100 et un écart type de 15. Que nous dit-il? En connaissant la moyenne et lécart type, nous pouvons facilement déduire quels scores peuvent être considérés comme «faibles», «moyens» ou «élevés». En tant que «moyen», nous pouvons classer les scores obtenus par la plupart des gens (disons 50%), les scores plus élevés peuvent être classés comme «supérieurs à la moyenne», des scores exceptionnellement élevés peuvent être classés comme «supérieurs», etc., cela se traduit par le tableau ci-dessous .

Wechsler (WAIS – III) 1997 IQ test classification IQ Range (« deviation IQ »)

IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 

(Source: https://en.wikipedia.org/wiki/IQ_classification )

Ainsi, lécart type nous indique jusquoù nous pouvons supposer que les valeurs individuelles sont éloignées de la moyenne. Vous pouvez penser à $ \ sigma $ comme une distance sans unité de la moyenne. Si vous pensez à des scores observables, disons les scores des tests dintelligence, que la connaissance des écarts-types vous permet de déduire facilement à quelle distance (combien de $ \ sigma $ « s) une valeur se situe par rapport à la moyenne et donc à quel point elle est courante ou inhabituelle. subjectif combien de $ \ sigma $ « sont qualifiés de » loin « , mais cela peut être facilement qualifié en pensant en termes de probabilité dobserver des valeurs se trouvant à une certaine distance de la moyenne.

Cest évident si vous regardez ce quest la variance ($ \ sigma ^ 2 $)

$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$

… la distance (moyenne) attendue de $ X $ « s à partir de $ \ mu $. Si vous vous posez la question, vous pouvez lire ici pourquoi est-il au carré .

Commentaires

  • Votre interprétation de la moyenne nécessite une normalité. Le QI nest pas normalement distribué (les queues sont plus épaisse et la courbe est biaisée). Par conséquent, la règle des 3 sigma ne sapplique pas. De plus, votre interprétation est circulaire, car la classification de QI est basée au hasard sur le SD et ne peut pas à son tour expliquer le SD.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *