Cosa significa la dimensione della deviazione standard? [duplicate]

Questa domanda ha già una risposta qui :

Commenti

Vorrei suggerire che si può avere una visione considerevole di queste domande sostituendo " varianza " o " deviazione standard " da qualche altra quantità (più familiare) che gioca un ruolo analogo nella descrizione quantitativa, come la lunghezza. Quando descrivono la maggior parte degli oggetti fisici, gli scienziati riporteranno una lunghezza. Cosa significa effettivamente la lunghezza? Quale lunghezza è considerata insolitamente grande o piccola? Esistono linee guida per valutare lentità delle lunghezze? Se una lunghezza è 90 (o 30), è raro o del tutto insignificante?
@whuber Come puoi vedere, ho provato quello che suggerisci nella seconda revisione della mia domanda, a cui glen_b ha risposto che nessun significato può essere derivato da questo. Dal momento che il tuo commento viene continuamente aggiornato, forse tu o alcuni degli utenti che votano positivamente potete spiegare cosa significa il tuo commento, dove ho sbagliato (con la mia seconda revisione) o dove glen_b potrebbe essere sbagliato. Allo stato attuale, il tuo commento non mi fornisce alcun approfondimento. Inoltre, ti preghiamo di considerare lattuale revisione (si spera finale) della mia domanda, in cui ho tentato di esprimere la mia domanda senza nessuno degli esempi ovviamente che distraggono.
Ciò che manca da questa domanda e il mio commento è unindicazione delle unità di misura. " 90 " di per sé non ha senso. Un altro elemento cruciale mancante è qualsiasi quadro di riferimento contestuale per determinare se 90 è grande o piccolo.
Mi stai guidando in tondo. Avevo unità di misura e contesti negli esempi nelle versioni precedenti della mia domanda. Questi sono stati pesantemente criticati. Ovviamente non sono in grado di trovare esempi appropriati e di giungere a una conclusione da solo. Chiedo esplicitamente a te (oa chiunque altro) di fornire un esempio e spiegarmi la risposta.
Una revisione del tuo post originale mostra che stavi ponendo questa domanda in grande generalità: " Esistono linee guida per valutare lentità della varianza nei dati? " Se questo fosse (diciamo) il sito di fisica e qualcuno dovesse chiedere " sono presenti linee guida per valutare lentità della lunghezza, " don ' pensi la domanda verrebbe subito chiusa perché troppo ampia (o troppo vaga o entrambe le cose)? Speravo solo che questa analogia rendesse evidente quanto sia impossibile rispondere alla tua domanda qui.

Answer

Discussione della nuova domanda:

Ad esempio, se voglio studiare la dimensione del corpo umano e trovo che la dimensione del corpo umano adulto abbia uno standard deviazione di 2 cm, probabilmente dedurrei che la dimensione del corpo umano adulto è molto uniforme

Dipende da cosa ci “stiamo confrontando. Qual è il standard di confronto che lo rende molto uniforme? Se lo confronti con la variabilità delle lunghezze dei bulloni per un particolare tipo di bullone che potrebbe essere estremamente variabile.

mentre una deviazione standard di 2 cm nel la dimensione dei topi significherebbe che i topi differiscono sorprendentemente molto nella dimensione del corpo.

Rispetto alla stessa cosa nel tuo esempio umano più uniforme, certamente; quando si tratta di cose lunghe, che possono essere solo positive, probabilmente ha più senso confrontare il coefficiente di variazione (come ho sottolineato nella mia risposta originale), che è la stessa cosa che confrontare sd per significare che “stai suggerendo qui .

Ovviamente il significato della deviazione standard è la sua relazione con la media,

No, non sempre. Nel caso di dimensioni di cose o quantità di cose (ad es. tonnellaggio di carbone, volume di denaro), spesso ha senso, ma in altri contesti non ha senso confrontare con la media.

Anche in questo caso, non sono necessariamente comparabili da una cosa allaltra. Non esiste uno standard applicabile a tutte le cose quanto è variabile qualcosa prima di essere variabile.

e una deviazione standard intorno a un decimo della media è irrilevante (ad esempio per IQ: SD = 0,15 * M).

Quali cose stiamo confrontando qui? Lunghezze a IQ “s ? Perché ha senso confrontare un insieme di cose con un altro? Si noti che la scelta di media 100 e sd 15 per un tipo di test del QI è del tutto arbitraria. Non hanno unità. Avrebbe potuto facilmente essere media 0 sd 1 o media 0.5 e sd 0.1.

Ma cosa è considerato “piccolo” e cosa è “grande”, quando si tratta della relazione tra deviazione standard e media?

Già trattato nella mia risposta originale, ma trattato in modo più eloquente nel commento di whuber: non esiste uno standard e non può ” essere.

Alcuni dei miei punti su Cohen si applicano ancora a questo caso (sd relativo alla media è almeno privo di unità); ma anche con qualcosa come dire Cohen “s d, uno standard adatto in un contesto non è necessariamente adatto in un altro.

Risposte a una versione precedente

Calcoliamo e riportiamo sempre medie e deviazioni standard.

Beh, forse la maggior parte delle volte; Non so che lo faccio sempre . Ci sono casi in cui non è così rilevante.

Ma che cosa significa effettivamente la dimensione della varianza?

La deviazione standard è una sorta di distanza media * dalla media. La varianza è il quadrato della deviazione standard. La deviazione standard è misurata nelle stesse unità dei dati; la varianza è in unità al quadrato.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

Ti dicono qualcosa su come sono” distribuiti “i dati (o la distribuzione, nel caso in cui” stai calcolando la deviazione standard o la varianza una distribuzione).

Per esempio, supponiamo di osservare quale posto prendono le persone in una stanza vuota. Se osserviamo che la maggior parte delle persone si siede vicino al finestrino con poca variazione,

“Non si tratta esattamente di registrare” quale posto “ma registrando la “distanza dalla finestra”. (Sapere “la maggioranza si siede vicino alla finestra” non “ti dice necessariamente nulla sulla media né sulla variazione della media. Quello che ti dice è che la mediana la distanza dalla finestra deve essere piccola.

possiamo supporre che questo significhi che le persone generalmente preferiscono stare vicino alla finestra e avere una vista o abbastanza luce è il principale fattore motivante nella scelta del posto a sedere.

Che la mediana sia piccola non lo dice di per sé. Potresti dedurlo da altre considerazioni, ma ci possono essere tutti i tipi di ragioni per che non possiamo in alcun modo discernere dai dati.

Se daltra parte osserviamo che mentre la maggior parte si trova vicino alla finestra cè una grande variazione con altri posti spesso occupati anche (ad esempio molti siedono vicino alla porta, altri siedono vicino allerogatore dellacqua o ai giornali), potremmo presumere che mentre molte persone preferiscono sedersi vicino alla finestra, sembra essere più fattori che luce o vista che influenzano la scelta del posto a sedere e le diverse preferenze nelle diverse persone.

Ancora una volta, stai portando informazioni al di fuori dei dati; potrebbe essere valido o no. Per quanto ne sappiamo la luce è meglio lontano dalla finestra, perché la giornata è nuvolosa o le tende sono chiuse.

A quali valori c e diciamo che il comportamento che abbiamo osservato è molto vario (a persone diverse piace sedersi in posti diversi)?

Ciò che rende grande o piccola una deviazione standard non è determinato da uno standard esterno ma da considerazioni sullargomento e, in una certa misura, da cosa stai facendo i dati e anche i fattori personali.

Tuttavia, con misurazioni positive, come le distanze, a volte è importante considerare la deviazione standard relativa alla media (il coefficiente di variazione); è ancora arbitrario, ma le distribuzioni con coefficienti di variazione molto più piccoli di 1 (deviazione standard molto più piccola della media) sono “diverse” in un certo senso da quelle in cui è molto maggiore di 1 (deviazione standard molto più grande della media , che spesso tenderà ad essere fortemente inclinato a destra).

E quando possiamo dedurre che il comportamento è per lo più uniforme (a tutti piace sedersi alla finestra)

Diffida di usare la parola “uniforme” in questo senso, poiché è “facile interpretare male il tuo significato (ad esempio, se dico che le persone lo sono” seduti in modo uniforme per la stanza “significa quasi lopposto di quello che intendi). Più in generale, quando parli di statistiche, evita generalmente di usare termini gergali nel loro senso comune.

e la piccola variazione che i nostri dati mostrano è principalmente il risultato di effetti casuali o variabili confondenti (sporco su una sedia, il sole si è spostato e più ombra nella parte posteriore, ecc.)?

No, ancora una volta, stai portando informazioni esterne alla quantità statistica di cui stai “parlando. La varianza non ti dice niente del genere.

Esistono linee guida per valutare lentità della varianza nei dati, simili alle linee guida di Cohen per linterpretazione della dimensione delleffetto (una correlazione di 0,5 è grande, 0,3 è moderato e 0.1 è piccolo)?

Non in generale, no.

Cohen “s la discussione [1] sulle dimensioni degli effetti è più sfumata e situazionale di quanto tu indichi; fornisce una tabella di 8 diversi valori di piccolo medio e grande a seconda del tipo di cosa in discussione. Quei numeri che dai si applicano alle differenze nelle medie indipendenti (Cohen “s d).
Le dimensioni degli effetti di Cohen sono tutte ridimensionate per essere quantità senza unità . La deviazione standard e la varianza non lo sono: cambia le unità ed entrambe cambieranno.
Le dimensioni degli effetti di Cohen sono destinate ad essere applicate in una particolare area di applicazione (e anche allora considero troppa attenzione su quegli standard di ciò che è piccolo, medio e grande in quanto al tempo stesso arbitrari e un po più prescrittivi di quanto mi piacerebbe). Sono più o meno ragionevoli per larea di applicazione prevista ma potrebbero essere del tutto inadatti in altre aree (la fisica delle alte energie, ad esempio, richiede spesso effetti che coprono molti errori standard, ma gli equivalenti delle dimensioni degli effetti di Cohens possono essere molti ordini di grandezza in più rispetto a quanto è possibile ottenere).

Ad esempio, se il 90% (o solo il 30%) delle osservazioni rientra in una deviazione standard dalla media, è raro o del tutto insignificante ?

Ah, nota ora che hai smesso di discutere la dimensione della deviazione standard / varianza e hai iniziato a discutere di La proporzione di osservazioni allinterno di una deviazione standard della media, un concetto completamente diverso. Molto approssimativamente questo è più correlato al picco della distribuzione.

Ad esempio, senza modificare affatto la varianza, posso cambiare la proporzione di una popolazione entro 1 sd dalla media abbastanza facilmente. Se la popolazione ha una distribuzione $ t_3 $, circa il 94% di essa si trova entro 1 sd dalla media, se ha una distribuzione uniforme, circa il 58% si trova entro 1 sd dalla media; e con una distribuzione beta ($ \ frac18, \ frac18 $), è di circa il 29%; questo può accadere con tutte le stesse deviazioni standard, o con una qualsiasi di esse più grande o più piccola senza cambiare quelle percentuali – non è affatto correlato allo spread, perché hai definito lintervallo in termini di deviazione standard.

[1]: Cohen J. (1992),
“A power primer”,
Psychol Bull. , 112 (1), luglio: 155-9.

Commenti

Se la distribuzione è identica, la percentuale sarebbe fissa, non cambierà.
Se le cose funzionano come dovrebbero, ' non potrai eliminarlo; mentre " possiedi " la tua domanda, una volta che una domanda ha una risposta, non ' non posso eliminarli, quindi la domanda, una domanda valida con risposte valide, dovrebbe rimanere, anche se ' non è ciò che volevi chiedere . ' ti suggerisco di iniziare la tua nuova domanda con alcuni concetti di base; potresti scoprire che molte delle tue attuali intuizioni non sono ' applicabili.
È ' una domanda più chiara e sono stato bravo a chiedere. Sfortunatamente, il problema è che tu ' hai cambiato drasticamente la domanda in un modo che invalida le risposte che hai ricevuto (laltra abbastanza completamente, la mia parzialmente). Perché non dovrebbe essere semplicemente riportato allo stato in cui si trovava quando ha ottenuto quelle risposte?
Tuttavia, invece di rimuovere ciò che avevi prima, puoi aggiungere la tua domanda rivista alla fine e lasciare loriginale per contesto, in modo che laltra risposta sembri ancora rispondere a una domanda. ' non è giusto mettere la risposta originariamente valida di Tim ' rischia di essere contrassegnata come " non è una risposta " (e quindi eliminata) quando la sua risposta ha risposto a una parte importante di ciò che hai chiesto inizialmente. Il modo più semplice è copiare quello che hai ora (ad esempio in una finestra del blocco note), tirare indietro la tua domanda, quindi modificarla per rimontarla nel nuovo contenuto (e aggiungere qualsiasi spiegazione della modifica che ritieni necessaria).
(a), no il confronto con i topi è venuto più avanti nella discussione. Allepoca in cui lo chiamavi " molto uniforme " non era stata fatta alcuna menzione di topi. (b) No, ' non esiste alcuna relazione tra media e sd per le distribuzioni normali in generale; la normale è una famiglia su scala di posizione. Cè per esempio distribuzioni esponenziali. …(ctd)

Risposta

di Chebyshev “s disuguaglianza sappiamo che la probabilità che qualche $ x $ sia $ k $ volte $ \ sigma $ dalla media è al massimo $ \ frac {1} {k ^ 2} $:

$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

Tuttavia, facendo alcune ipotesi distributive puoi essere più preciso, ad esempio Normale lapprossimazione porta alla regola 68–95–99.7 . In genere, utilizzando qualsiasi funzione di distribuzione cumulativa puoi scegli un intervallo che dovrebbe comprendere una certa percentuale di casi. Tuttavia la scelta della larghezza dellintervallo di confidenza è una decisione soggettiva, come discusso in questo thread .

Esempio
Lesempio più intuitivo che mi viene in mente è la scala intelligenza . Lintelligenza è qualcosa che non può essere misurata direttamente, noi non hanno “unità” di intelligenza dirette (a proposito, centimetri o gradi Celsius sono anche in qualche modo arbitrari). I test di intelligenza sono valutati in modo che abbiano una media di 100 e una deviazione standard di 15. Cosa ci dice? Conoscendo la media e la deviazione standard possiamo facilmente dedurre quali punteggi possono essere considerati “bassi”, “medi” o “alti”. Come “medi” possiamo classificare i punteggi ottenuti dalla maggior parte delle persone (diciamo il 50%), i punteggi più alti possono essere classificati come “sopra la media”, i punteggi insolitamente alti possono essere classificati come “superiori” ecc., Questo si traduce nella tabella seguente .

Wechsler (WAIS – III) 1997 IQ test classificazione IQ Range (“deviation IQ”)
IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 
(Fonte: https://en.wikipedia.org/wiki/IQ_classification )

Quindi la deviazione standard ci dice fino a che punto possiamo supporre che i valori individuali siano distanti dalla media. Puoi pensare a $ \ sigma $ come a una distanza senza unità dalla media. Se pensi a punteggi osservabili, ad esempio punteggi dei test di intelligenza, conoscere le deviazioni standard ti consente di dedurre facilmente quanto lontano (quanti $ \ sigma $ “s) un valore si trova dalla media e quindi quanto sia comune o raro. soggettivo quanti $ \ sigma $ “si qualificano come” lontani “, ma questo può essere facilmente qualificato pensando in termini di probabilità di osservare valori che si trovano a una certa distanza dalla media.

Questo è ovvio se tu guarda qual è la varianza ($ \ sigma ^ 2 $)

$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$

… la distanza (media) prevista di $ X $ “s da $ \ mu $. Se ti chiedi, allora puoi leggere perché è al quadrato .

Commenti

La tua interpretazione della media richiede la normalità. Il QI non è normalmente distribuito (le code sono più spesso e la curva è distorta). Pertanto la regola 3-sigma non si applica. Inoltre, la tua interpretazione è circolare, perché la classificazione del QI è basata casualmente sulla DS e non può a sua volta spiegare la DS.

Commenti

Answer

Commenti

Risposta

Commenti

Lascia un commento Annulla risposta