Diese Frage hat hier bereits Antworten :

Kommentare

  • Ich möchte vorschlagen, dass durch Ersetzen ein beträchtlicher Einblick in diese Fragen gewonnen werden kann " Varianz " oder " Standardabweichung " durch eine andere (bekanntere) Größe, die bei der quantitativen Beschreibung eine analoge Rolle spielt, wie z. B. die Länge. Bei der Beschreibung der meisten physischen Objekte geben Wissenschaftler eine Länge an. Was bedeutet die Länge eigentlich? Welche Länge wird als ungewöhnlich groß oder klein angesehen? Gibt es Richtlinien zur Beurteilung der Längengrößen? Wenn eine Länge 90 (oder 30) beträgt, ist das ungewöhnlich oder völlig unauffällig?
  • @whuber Wie Sie sehen, habe ich versucht, was Sie in der zweiten Überarbeitung meiner Frage vorschlagen, auf die glen_b geantwortet hat dass daraus keine Bedeutung abgeleitet werden kann. Da Ihr Kommentar ständig aktualisiert wird, können Sie oder einige der Befürworter möglicherweise erklären, was Ihr Kommentar bedeutet, wo ich einen Fehler gemacht habe (bei meiner zweiten Überarbeitung) oder wo glen_b sich irrt. Ihr Kommentar bietet mir derzeit keine Einblicke. Beachten Sie auch die aktuelle (hoffentlich endgültige) Überarbeitung meiner Frage, in der ich versucht habe, meine Frage ohne eines der offensichtlich ablenkenden Beispiele auszudrücken.
  • Was in dieser Frage und meinem Kommentar fehlt, ist ein Hinweis der Maßeinheiten. " 90 " ist für sich genommen bedeutungslos. Ein weiteres entscheidendes fehlendes Element ist ein kontextbezogener Bezugsrahmen, um festzustellen, ob 90 groß oder klein ist.
  • Sie führen mich im Kreis herum. Ich hatte Maßeinheiten und Kontexte in den Beispielen in früheren Versionen meiner Frage. Diese wurden heftig kritisiert. Offensichtlich kann ich keine geeigneten Beispiele finden und alleine zu einem Schluss kommen. Ich bitte Sie (oder irgendjemanden anderen) ausdrücklich, ein Beispiel zu geben und mir die Antwort zu erklären.
  • Eine Überprüfung Ihres ursprünglichen Beitrags zeigt, dass Sie diese Frage allgemein gestellt haben: " Gibt es Richtlinien für die Beurteilung der Varianz in Daten? " Wenn dies (sagen wir) die Physik-Site wäre und jemand fragen würde " gibt es Richtlinien zur Beurteilung der Längengröße. " ' denken Sie nicht Die Frage würde sofort als zu weit gefasst (oder zu vage oder beides) geschlossen. Ich hatte nur gehofft, dass diese Analogie deutlich machen würde, wie unmöglich es ist, Ihre Frage hier zu beantworten.

Antwort

Diskussion der neuen Frage:

Wenn ich beispielsweise die Körpergröße des Menschen untersuchen möchte und feststelle, dass die Körpergröße eines Erwachsenen einen Standard hat Abweichung von 2 cm würde ich wahrscheinlich schließen, dass die Körpergröße eines erwachsenen Menschen sehr gleichmäßig ist.

Es hängt davon ab, womit wir „vergleichen“. Was ist das? Vergleichsstandard, der das sehr einheitlich macht? Wenn Sie es mit der Variabilität der Schraubenlängen für einen bestimmten Schraubentyp vergleichen, die möglicherweise sehr unterschiedlich ist.

, während eine Standardabweichung von 2 cm in der Die Größe der Mäuse würde bedeuten, dass sich die Körpergröße der Mäuse überraschend stark unterscheidet.

Im Vergleich zu derselben Sache in Ihrem Beispiel eines einheitlicheren Menschen sicherlich; Wenn es um Längen von Dingen geht, die nur positiv sein können, ist es wahrscheinlich sinnvoller, den Variationskoeffizienten zu vergleichen (wie ich in meiner ursprünglichen Antwort hervorhob). Dies ist dasselbe wie der Vergleich von sd, um zu bedeuten, dass Sie hier vorschlagen

Offensichtlich ist die Bedeutung der Standardabweichung ihre Beziehung zum Mittelwert

Nein, nicht immer. Bei Größen von Dingen oder Mengen von Dingen (z. B. Tonnage Kohle, Geldvolumen) ist dies oft sinnvoll, aber In anderen Zusammenhängen ist es nicht sinnvoll, mit dem Mittelwert zu vergleichen.

Selbst dann sind sie nicht unbedingt von einer Sache zur anderen vergleichbar. Es gibt keinen Standard, der für alle Dinge gilt Wie variabel etwas ist, bevor es variabel ist.

und eine Standardabweichung um ein Zehntel des Mittelwerts ist unauffällig (z. B. für IQ: SD = 0,15 *) M).

Welche Dinge vergleichen wir hier? Längen mit IQs ? Warum ist es sinnvoll, eine Reihe von Dingen mit einer anderen zu vergleichen? Beachten Sie, dass die Wahl von Mittelwert 100 und SD 15 für eine Art von IQ-Test völlig willkürlich ist. Sie haben keine Einheiten. Es könnte genauso gut Mittelwert 0 sd 1 oder Mittelwert 0 gewesen sein.5 und sd 0.1.

Aber was wird als „klein“ und was als „groß“ angesehen, wenn es um die Beziehung zwischen Standardabweichung und Mittelwert geht?

Bereits in meiner ursprünglichen Antwort behandelt, aber in Whubers Kommentar beredter behandelt – es gibt keinen Standard, und kann es nicht sein.

Einige meiner Punkte zu Cohen dort gelten immer noch für diesen Fall (sd relativ zum Mittelwert ist mindestens einheitenfrei); aber selbst mit so etwas wie Cohens d ist ein geeigneter Standard in einem Kontext nicht unbedingt in einem anderen geeignet.


Antworten auf eine frühere Version

Wir berechnen und melden immer Mittelwerte und Standardabweichungen.

Nun, vielleicht die meiste Zeit; Ich weiß nicht, dass ich es immer mache. Es gibt Fälle, in denen es nicht so relevant ist.

Aber Was bedeutet die Größe der Varianz tatsächlich?

Die Standardabweichung ist eine Art durchschnittlicher * Abstand vom Mittelwert. Die Varianz ist das Quadrat der Standardabweichung. Die Standardabweichung wird in denselben Einheiten wie die Daten gemessen. Die Varianz wird in quadratischen Einheiten angegeben.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

Sie erzählen Ihnen etwas darüber, wie“ verteilt „die Daten sind (oder die Verteilung, falls Sie den SD oder die Varianz von“ berechnen eine Verteilung).

Nehmen wir beispielsweise an, wir beobachten, welchen Platz Menschen in einem leeren Raum einnehmen. Wenn wir beobachten, dass die Mehrheit der Menschen mit geringer Varianz in der Nähe des Fensters sitzt,

Das ist nicht gerade ein Fall der Aufzeichnung „welcher Sitz“, sondern Aufzeichnen der „Entfernung vom Fenster“. (Wenn Sie wissen, dass „die Mehrheit in der Nähe des Fensters sitzt“, wissen Sie nicht unbedingt etwas über den Mittelwert oder die Variation des Mittelwerts. Sie erfahren, dass der Median Der Abstand zum Fenster muss gering sein.)

Wir können davon ausgehen, dass die Leute es im Allgemeinen vorziehen, in der Nähe des Fensters zu sitzen und eine Aussicht oder genügend Licht zu erhalten ist der Hauptmotivationsfaktor bei der Wahl eines Sitzplatzes.

Dass der Median klein ist, sagt Ihnen das nicht. Sie können ihn aus anderen Überlegungen ableiten, aber es kann alle möglichen Gründe dafür geben es, dass wir in keiner Weise von den Daten unterscheiden können.

Wenn wir andererseits beobachten, dass der größte Anteil in der Nähe des Fensters sitzt Es gibt eine große Abweichung von anderen Sitzen, die häufig auch eingenommen werden (z. B. sitzen viele in der Nähe der Tür, andere sitzen in der Nähe des Wasserspenders oder der Zeitungen). Wir könnten jedoch annehmen, dass viele Menschen es vorziehen, in der Nähe des Fensters zu sitzen mehr Faktoren als Licht oder Sicht sein, die die Wahl des Sitzplatzes und unterschiedliche Vorlieben bei verschiedenen Personen beeinflussen.

Auch hier bringen Sie Informationen außerhalb der Daten ein; es könnte zutreffen oder nicht. Soweit wir wissen, ist das Licht weit vom Fenster entfernt besser, weil der Tag bewölkt ist oder die Jalousien gezogen sind.

Bei welchen Werten c und wir sagen, dass das beobachtete Verhalten sehr unterschiedlich ist (verschiedene Menschen sitzen gerne an verschiedenen Orten)?

Was eine Standardabweichung groß oder klein macht, wird nicht durch einen externen Standard bestimmt, sondern durch thematische Überlegungen und in gewissem Maße darüber, was Sie tun die Daten und sogar persönliche Faktoren.

Bei positiven Messungen wie Entfernungen ist es jedoch manchmal relevant, die Standardabweichung relativ zum Mittelwert (dem Variationskoeffizienten) zu berücksichtigen. es ist immer noch willkürlich, aber Verteilungen mit Variationskoeffizienten, die viel kleiner als 1 sind (Standardabweichung viel kleiner als der Mittelwert), sind in gewissem Sinne „anders“ als solche, bei denen es viel größer als 1 ist (Standardabweichung viel größer als der Mittelwert)

Und wann können wir daraus schließen, dass das Verhalten größtenteils einheitlich ist (jeder sitzt gerne am Fenster).

Seien Sie vorsichtig, wenn Sie das Wort „Uniform“ in diesem Sinne verwenden, da es leicht ist, Ihre Bedeutung falsch zu interpretieren (z. B. wenn ich sage, dass Menschen “ einheitlich im Raum sitzen „das bedeutet fast das Gegenteil von dem, was Sie meinen). Vermeiden Sie im Allgemeinen bei der Erörterung von Statistiken die Verwendung von Jargonbegriffen im üblichen Sinne.

und die geringe Abweichung, die unsere Daten zeigen, ist hauptsächlich auf zufällige Effekte oder verwirrende Variablen zurückzuführen (Schmutz auf einem Stuhl, Bewegung der Sonne und mehr Schatten im Rücken usw.)?

Nein, Sie bringen wieder externe Informationen in die statistische Größe ein, die Sie diskutieren. Die Varianz sagt Ihnen so etwas nicht.

Gibt es Richtlinien zur Bewertung der Varianz in Daten, ähnlich den Richtlinien von Cohen zur Interpretation der Effektgröße (eine Korrelation von 0,5 ist groß, 0,3) ist moderat und 0,1 ist klein)?

Nicht im Allgemeinen, nein.

  1. Cohen „s Die Diskussion [1] über Effektgrößen ist nuancierter und situativer als von Ihnen angegeben. Er gibt eine Tabelle mit 8 verschiedenen Werten für kleine, mittlere und große, je nachdem, was besprochen wird. Diese Zahlen, die Sie angeben, gelten für Unterschiede in unabhängigen Mitteln (Cohens d).

  2. Cohens Effektgrößen werden alle als einheitlose Größen skaliert . Standardabweichung und Varianz sind nicht – ändern Sie die Einheiten und beide ändern sich.

  3. Cohens Effektgrößen sollen in einem bestimmten Anwendungsbereich angewendet werden (und selbst dann betrachte ich zu viel Fokus auf jene Standards, die klein, mittel und groß sind, da sie sowohl etwas willkürlich als auch etwas präskriptiver sind, als ich es gerne hätte. Sie sind für ihren beabsichtigten Anwendungsbereich mehr oder weniger vernünftig, können aber in anderen Bereichen völlig ungeeignet sein (Hochenergiephysik erfordert beispielsweise häufig Effekte, die viele Standardfehler abdecken, aber Äquivalente von Cohens -Effektgrößen können viele Größenordnungen größer sein als das, was erreichbar ist.)

Wenn beispielsweise 90% (oder nur 30%) der Beobachtungen innerhalb einer Standardabweichung vom Mittelwert liegen, ist dies ungewöhnlich oder völlig unauffällig ?

Ah, beachten Sie jetzt, dass Sie aufgehört haben, die Größe der Standardabweichung / -varianz zu diskutieren, und mit der Diskussion über th begonnen haben Der Anteil der Beobachtungen innerhalb einer Standardabweichung vom Mittelwert ist ein völlig anderes Konzept. Sehr grob gesagt hängt dies eher mit der Spitze der Verteilung zusammen.

Zum Beispiel kann ich, ohne die Varianz überhaupt zu ändern, den Anteil einer Population innerhalb von 1 sd des Mittelwerts ziemlich leicht ändern. Wenn die Bevölkerung eine Verteilung von $ t_3 $ hat, liegen ungefähr 94% davon innerhalb von 1 sd des Mittelwerts, wenn sie eine gleichmäßige Verteilung hat, liegen ungefähr 58% innerhalb von 1 sd des Mittelwerts; und bei einer Beta-Verteilung ($ \ frac18, \ frac18 $) sind es ungefähr 29%; dies kann passieren, wenn alle die gleichen Standardabweichungen haben oder wenn einer von ihnen größer oder kleiner ist, ohne diese Prozentsätze zu ändern – Es hängt überhaupt nicht wirklich mit der Ausbreitung zusammen, da Sie das Intervall als Standardabweichung definiert haben.

[1]: Cohen J. (1992),
„A power primer“
Psychol Bull. , 112 (1), Juli: 155-9.

Kommentare

  • Wenn die Verteilung identisch ist, wird der Prozentsatz festgelegt und ändert sich nicht.
  • Wenn die Dinge so funktionieren, wie sie sollten, Sie können ' nicht löschen. Während Sie " " Ihre Frage besitzen, geben Sie ' nicht mehr ein, sobald eine Frage beantwortet wurde Wenn Sie sie nicht löschen können, sollte die Frage – eine gültige Frage mit gültigen Antworten – bleiben, auch wenn ' nicht das ist, worüber Sie fragen wollten . Ich ' würde vorschlagen, dass Sie Ihre neue Frage mit einigen grundlegenden Konzepten beginnen. Möglicherweise finden Sie, dass viele Ihrer aktuellen Intuitionen ' nicht zutreffen.
  • ' ist eine klarere Frage und würde es tun war gut zu fragen. Leider besteht das Problem darin, dass Sie ' die Frage dramatisch geändert haben, sodass die erhaltenen Antworten ungültig werden (die andere ziemlich vollständig, meine teilweise). Warum sollte es nicht einfach so zurückgesetzt werden, wie es war, als es diese Antworten erhielt?
  • Anstatt jedoch das zu entfernen, was Sie zuvor hatten, können Sie Ihre überarbeitete Frage am Ende hinzufügen und das Original für belassen Kontext, so dass die andere Antwort immer noch so aussieht, als würde sie eine Frage beantworten. Es ist

kaum fair, die ursprünglich gültige Antwort von Tim ' in Gefahr zu bringen, als " keine Antwort " (und dann gelöscht), wenn seine Antwort auf einen wichtigen Teil Ihrer ursprünglichen Frage antwortete. Der einfache Weg besteht darin, das, was Sie jetzt haben, zu kopieren (z. B. in ein Notizblockfenster), Ihre Frage zurückzusetzen und dann zu bearbeiten, um den neuen Inhalt neu einzufügen (und eine Erklärung für die Änderung hinzuzufügen, die Sie für notwendig halten).

a), nein, der Vergleich mit Mäusen kam später in der Diskussion. Zu dem Zeitpunkt, als Sie es " sehr einheitlich nannten " wurden Mäuse nicht erwähnt. (b) Nein, es gibt ' keine Beziehung zwischen Mittelwert und sd für Normalverteilungen im Allgemeinen; Das Normale ist eine Familie im Standortmaßstab. Es gibt zum Beispiel Exponentialverteilungen. …(ctd)

Antwort

Mit Chebyshev „s Ungleichung Wir wissen, dass die Wahrscheinlichkeit, dass $ x $ $ k $ mal $ \ sigma $ vom Mittelwert ist, höchstens $ \ frac {1} {k ^ 2} $ beträgt:

$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

Wenn Sie jedoch einige Verteilungsannahmen treffen, können Sie präziser sein, z. B. Normal Die Annäherung führt zu einer 68–95–99.7-Regel . Im Allgemeinen können Sie eine kumulative Verteilungsfunktion verwenden Wählen Sie ein Intervall, das einen bestimmten Prozentsatz der Fälle umfassen soll. Die Auswahl der Konfidenzintervallbreite ist jedoch eine subjektive Entscheidung, wie in dieses Threads erläutert.

Beispiel
Das intuitivste Beispiel, das mir in den Sinn kommt, ist die Intelligenzskala . Intelligenz ist etwas, das wir nicht direkt messen können habe keine direkten „Einheiten“ der Intelligenz (übrigens Zentimeter oder Celsius Grad sind auch irgendwie willkürlich). Intelligenztests werden so bewertet, dass sie einen Mittelwert von 100 und eine Standardabweichung von 15 haben. Was sagt uns das? Wenn wir den Mittelwert und die Standardabweichung kennen, können wir leicht ableiten, welche Werte als „niedrig“, „durchschnittlich“ oder „hoch“ angesehen werden können. Als „Durchschnitt“ können wir solche Bewertungen klassifizieren, die von den meisten Menschen erhalten werden (z. B. 50%), höhere Bewertungen können als „überdurchschnittlich“ eingestuft werden, ungewöhnlich hohe Bewertungen können als „überlegen“ eingestuft werden usw. Dies bedeutet die folgende Tabelle

Wechsler (WAIS – III) 1997 IQ-Testklassifizierung IQ-Bereich („Abweichung IQ“)

IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 

(Quelle: https://en.wikipedia.org/wiki/IQ_classification )

Die Standardabweichung gibt an, wie weit wir davon ausgehen können, dass einzelne Werte vom Mittelwert entfernt sind. Sie können sich $ \ sigma $ als uneinheitlichen Abstand vom Mittelwert vorstellen. Wenn Sie an beobachtbare Ergebnisse denken, beispielsweise an Intelligenztestergebnisse, können Sie anhand der Standardabweichungen leicht ableiten, wie weit (wie viele $ \ sigma $ „s) ein Wert vom Mittelwert entfernt ist und wie häufig oder ungewöhnlich er ist subjektiv, wie viele $ \ sigma $ „als“ weit weg „qualifiziert sind, aber dies kann leicht qualifiziert werden, indem man an die Wahrscheinlichkeit denkt, Werte zu beobachten, die in einem bestimmten Abstand vom Mittelwert liegen.

Dies ist offensichtlich, wenn Sie Schauen Sie sich an, welche Varianz ($ \ sigma ^ 2 $)

$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] ist. . $$

… die erwartete (durchschnittliche) Entfernung von $ X $ „s von $ \ mu $. Wenn Sie sich fragen, können Sie hier warum ist es quadratisch .

Kommentare

  • Ihre Interpretation des Mittelwerts erfordert Normalität. Der IQ ist nicht normal verteilt (die Schwänze sind dicker und die Kurve ist schief). Daher gilt die 3-Sigma-Regel nicht. Außerdem ist Ihre Interpretation kreisförmig, da die IQ-Klassifizierung zufällig auf der SD basiert und die SD nicht erklären kann.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.