Dette spørgsmål har allerede svar her :

Kommentarer

  • Jeg vil gerne foreslå, at der kan opnås betydelig indsigt i disse spørgsmål ved at erstatte " varians " eller " standardafvigelse " med en anden (mere velkendt) mængde, der spiller en analog rolle i kvantitativ beskrivelse, såsom længde. Når de fleste fysiske objekter beskrives, vil forskere rapportere om en længde. Hvad betyder længden egentlig? Hvilken længde betragtes som usædvanligt stor eller lille? Er der retningslinjer for vurdering af længdernes størrelse? Hvis en længde er 90 (eller 30), er det så usædvanligt eller helt upassende?
  • @ whuber Som du kan se, har jeg prøvet, hvad du foreslår i den anden revision af mit spørgsmål, som glen_b har svaret at ingen mening kan udledes af dette. Da din kommentar konstant bliver afstemt, kan du eller nogle af de opstemmere måske forklare, hvad din kommentar betyder, hvor jeg gik galt (med min anden revision), eller hvor glen_b kunne tage fejl. Som det ser ud, giver din kommentar mig ingen indsigt. Overvej også den aktuelle (forhåbentlig endelige) revision af mit spørgsmål, hvor jeg har forsøgt at udtrykke mit spørgsmål uden nogen af de åbenlyst distraherende eksempler.
  • Hvad der mangler i dette spørgsmål, og min kommentar er en indikation af måleenhederne. " 90 " i sig selv er meningsløs. Et andet afgørende manglende element er enhver kontekstuel referenceramme for at afgøre, om 90 er stor eller lille.
  • Du leder mig rundt i cirkler. Jeg havde måleenheder og sammenhænge i eksemplerne i tidligere versioner af mit spørgsmål. Disse blev stærkt kritiseret. Det er klart, at jeg ikke kan finde egnede eksempler og på egen hånd komme til en konklusion. Jeg beder dig eksplicit (eller nogen anden) om at give et eksempel og forklare svaret for mig.
  • En gennemgang af dit oprindelige indlæg viser, at du stillede dette spørgsmål med stor generalitet: " Findes der retningslinjer for vurdering af variansstørrelsen i data? " Hvis dette var (siger) fysikstedet og nogen skulle spørge " er der retningslinjer for vurdering af længden, " don ' t du tror spørgsmålet ville straks lukkes som værende for bredt (eller for vagt eller begge dele)? Jeg håbede kun, at denne analogi ville gøre det klart, hvor umuligt det er at besvare dit spørgsmål her.

Svar

Diskussion af det nye spørgsmål:

Hvis jeg f.eks. vil studere menneskelig kropsstørrelse, og jeg finder ud af, at voksen menneskelig kropsstørrelse har en standard afvigelse på 2 cm, vil jeg sandsynligvis udlede, at voksen menneskelig kropsstørrelse er meget ensartet

Det afhænger af, hvad vi sammenligner med. Hvad er det standard for sammenligning, der gør det meget ensartet? Hvis du sammenligner det med variationen i boltlængder for en bestemt type bolt, der kan være meget variabel.

mens en 2 cm standardafvigelse i musens størrelse ville betyde, at mus adskiller sig overraskende meget i kropsstørrelse.

Sammenlignet med det samme i dit mere ensartede menneskeeksempel, bestemt; når det kommer til længder af ting, som kun kan være positive, giver det sandsynligvis mere mening at sammenligne variationskoefficienten (som jeg påpeger i mit originale svar), hvilket er det samme som at sammenligne sd for at betyde, at du foreslår her .

Selvfølgelig er betydningen af standardafvigelsen dens forhold til gennemsnittet,

Nej, ikke altid. I tilfælde af størrelser ting eller mængder ting (f.eks. mængde kul, mængde penge) giver det ofte mening, men i andre sammenhænge giver det ikke mening at sammenligne med middelværdien.

Selv da er de ikke nødvendigvis sammenlignelige fra en ting til en anden. Der er ingen standard for alle ting for hvor variabelt noget er, før det er s variabel.

og en standardafvigelse omkring en tiendedel af gennemsnittet kan ikke bemærkes (f.eks. for IQ: SD = 0,15 * M).

Hvilke ting sammenligner vi her? Længder til IQs ? Hvorfor giver det mening at sammenligne et sæt ting med et andet? Bemærk, at valget af middelværdi 100 og sd 15 for en slags IQ-test er helt vilkårlig. De har ikke enheder. Det kunne lige så let have været gennemsnit 0 sd 1 eller middel 0.5 og sd 0.1.

Men hvad betragtes som “lille” og hvad er “stort”, når det kommer til forholdet mellem standardafvigelse og middelværdi?

Allerede dækket i mit originale svar, men mere veltalende dækket af whubers kommentar – der er ingen standard, og der kan ikke t være.

Nogle af mine punkter om Cohen gælder stadig for denne sag (sd i forhold til gennemsnit er i det mindste enhedsfri); men selv med noget som siger Cohen “s d, er en passende standard i en sammenhæng ikke nødvendigvis egnet i en anden.


Svar på en tidligere version

Vi beregner og rapporterer altid middel og standardafvigelser.

Nå, måske meget af tiden; Jeg ved ikke, at jeg altid gør det. Der er tilfælde, hvor det ikke er så relevant.

Men hvad betyder størrelsen af variansen egentlig?

Standardafvigelsen er en slags gennemsnitlig * afstand fra middelværdien. Variansen er kvadratet af standardafvigelse. Standardafvigelse måles i de samme enheder som dataene; variansen er i kvadratiske enheder.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

De fortæller dig noget om, hvordan” spredt “dataene er (eller fordelingen, i tilfælde af at du beregner sd eller varians af en distribution).

Antag for eksempel, at vi observerer, hvilket sæde folk tager i et tomt rum. Hvis vi bemærker, at flertallet af mennesker sidder tæt på vinduet med lille varians,

Det er ikke ligefrem tilfældet med at optage “hvilket sæde” men optagelse af “afstand fra vinduet”. (At kende “flertallet sidder tæt på vinduet” fortæller dig ikke nødvendigvis noget om middelværdien eller variationen om gennemsnittet. Hvad det fortæller dig er, at medianen afstanden fra vinduet skal være lille.)

vi kan antage, at dette betyder, at folk generelt foretrækker at sidde i nærheden af vinduet og få et udsyn eller nok lys er den vigtigste motiverende faktor ved valg af sæde.

At medianen er lille, siger ikke dig selv det. Du kan udlede det af andre overvejelser, men der kan være alle mulige grunde til det, at vi på ingen måde kan skelne fra dataene.

Hvis vi derimod observerer, at mens den største andel sidder tæt på vinduet der er stor forskel med andre pladser, der tages ofte også (f.eks. mange sidder tæt på døren, andre sidder tæt på vanddispenseren eller aviserne), vi antager måske, at mens mange foretrækker at sidde tæt på vinduet, ser det ud til at være flere faktorer end lys eller synspunkter, der påvirker valg af siddepladser og forskellige præferencer hos forskellige mennesker.

Igen bringer du information uden for dataene; det kan muligvis gælde, eller måske ikke. For alt hvad vi ved, er lyset bedre langt fra vinduet, fordi dagen er overskyet eller blinds er trukket.

Ved hvilke værdier c og vi siger, at den adfærd, vi har observeret, er meget varieret (forskellige mennesker kan lide at sidde forskellige steder)?

Hvad der gør en standardafvigelse stor eller lille, bestemmes ikke af en eller anden ekstern standard, men af emneovervejelser og til en vis grad hvad du laver med dataene og endda personlige faktorer.

Men med positive målinger, såsom afstande, er det undertiden relevant at overveje standardafvigelse i forhold til gennemsnittet (variationskoefficienten); det er stadig vilkårligt, men fordelinger med variationskoefficienter, der er meget mindre end 1 (standardafvigelse meget mindre end gennemsnittet) er “forskellige” i en eller anden forstand end dem, hvor det er meget større end 1 (standardafvigelse meget større end gennemsnittet , som ofte har en tendens til at være meget ret skæv).

Og hvornår kan vi udlede, at adfærd for det meste er ensartet (alle kan lide at sidde ved vinduet)

Vær forsigtig med at bruge ordet “ensartet” i den forstand, da det er let at fortolke din mening forkert (f.eks. hvis jeg siger, at folk er ” sidder ensartet omkring rummet “det betyder næsten det modsatte af hvad du mener). Mere generelt, når du diskuterer statistik, skal du generelt undgå at bruge jargonudtryk i deres normale forstand.

og den lille variation, som vores data viser, er for det meste et resultat af tilfældige effekter eller forvirrende variabler (snavs på en stol, solen er flyttet og mere skygge i ryggen osv.)?

Nej, igen, du bringer ekstern information ind i den statistiske mængde, du diskuterer. Variationen fortæller dig ikke sådan noget.

Findes der retningslinjer for vurdering af variansstørrelsen i data svarende til Cohens retningslinjer for fortolkning af effektstørrelse (en korrelation på 0,5 er stor, 0,3 er moderat, og 0,1 er lille)?

Ikke generelt, nej.

  1. Cohen “s diskussion [1] af effektstørrelser er mere nuanceret og situationeløs, end du antyder; han giver en tabel med 8 forskellige værdier af lille medium og stor afhængigt af, hvilken slags ting der diskuteres. De tal, du angiver, gælder for forskelle i uafhængige måder (Cohens s d).

  2. Cohens effektstørrelser skaleres alle til enhedsløse størrelser . Standardafvigelse og varians er ikke – skift enhederne, og begge vil ændre sig.

  3. Cohens effektstørrelser er beregnet til at gælde i et bestemt applikationsområde (og selv da ser jeg på for meget fokus på disse standarder for, hvad der er lille, mellemstor og stor som både noget vilkårlig og noget mere receptpligtig, end jeg vil). De er mere eller mindre rimelige for deres tilsigtede anvendelsesområde, men kan være helt uegnede i andre områder (højenergifysik kræver f.eks. ofte effekter, der dækker mange standardfejl, men ækvivalenter af Cohens effektstørrelser kan være mange størrelsesordener mere end det, der kan opnås).

For eksempel, hvis 90% (eller kun 30%) af observationer falder inden for en standardafvigelse fra gennemsnittet, er det ualmindeligt eller helt ubemærket ?

Ah, bemærk nu, at du er stoppet med at diskutere størrelsen på standardafvigelse / varians og begyndte at diskutere andelen af observationer inden for en standardafvigelse af middelværdien, et helt andet koncept. Meget groft sagt er dette mere relateret til fordelingenes spidsbelastning.

For eksempel, uden at ændre variansen overhovedet, kan jeg ændre andelen af en befolkning inden for 1 sd af middelværdien ganske let. Hvis befolkningen har en $ t_3 $ fordeling, ligger ca. 94% af den inden for 1 sd af middelværdien, hvis den har en ensartet fordeling, ligger ca. 58% inden for 1 sd af middelværdien; og med en beta ($ \ frac18, \ frac18 $) distribution er det cirka 29%. Dette kan ske med alle sammen at have de samme standardafvigelser, eller hvis nogen af dem er større eller mindre uden at ændre disse procenter – det er slet ikke rigtig relateret til spredning, fordi du definerede intervallet i form af standardafvigelse.

[1]: Cohen J. (1992),
“A power primer,”
Psychol Bull. , 112 (1), jul: 155-9.

Kommentarer

  • Hvis fordelingen er identisk, vil procentdelen være fast, ikke ændre sig.
  • Hvis tingene fungerer som de skal, du vil ikke ' ikke være i stand til at slette det; mens du " ejer " dit spørgsmål, når et spørgsmål har svar, har du ikke ' ikke kommer til at slette dem, så spørgsmålet – et gyldigt spørgsmål med gyldige svar – skal forblive, selvom det ' ikke er det, du ville stille om . Jeg ' foreslår, at du starter dit nye spørgsmål med nogle grundlæggende begreber; du finder muligvis mange af dine nuværende intuitioner ikke ' t gælder.
  • Det ' er et klarere spørgsmål og ville har været en god at spørge. Desværre er problemet, at du ' dramatisk har ændret spørgsmålet på en måde, der annullerer de svar, du har modtaget (den anden ret helt, min delvist). Hvorfor skulle det ikke bare rulles tilbage til, som det stod, da det fik disse svar?
  • I stedet for at fjerne det, du havde før, kan du tilføje dit reviderede spørgsmål i slutningen og lade originalen være til sammenhæng, så det andet svar stadig ser ud som om det besvarer et spørgsmål. Det ' er næppe rimeligt at sætte Tim ' s oprindeligt gyldige svar i fare for at blive markeret som " ikke et svar " (og derefter slettet), da hans svar reagerede på en vigtig del af det, du oprindeligt spurgte. Den nemme måde er at kopiere det, du har nu (til f.eks. Et notesblokvindue), rulle dit spørgsmål tilbage og derefter redigere for at genindpaste det nye indhold (og tilføje enhver forklaring på den ændring, du mener er nødvendig).
  • (a), nej sammenligningen med mus kom senere i diskussionen. På det tidspunkt, du kaldte det " meget ensartet ", var der ikke blevet nævnt mus. (b) Nej, der er ' ingen sammenhæng mellem gennemsnit og sd for normale fordelinger generelt; det normale er en lokalitetsskala familie. Der er for eksempel eksponentielle distributioner. …(ctd)

Svar

Af Chebyshev “s ulighed vi ved, at sandsynligheden for, at nogle $ x $ er $ k $ gange $ \ sigma $ fra middelværdien højst er $ \ frac {1} {k ^ 2} $:

$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

Men med nogle distribuerede antagelser kan du være mere præcis, f.eks. Normal tilnærmelse fører til 68–95–99.7 regel . Generelt ved hjælp af en hvilken som helst kumulativ fordelingsfunktion du kan vælg et interval, der skal omfatte en bestemt procentdel af sagerne. Men at vælge konfidensintervalbredde er en subjektiv beslutning som diskuteret i denne tråd .

Eksempel
Det mest intuitive eksempel, der kommer til mig, er skalaen intelligens. Intelligens er noget, der ikke kan måles direkte, vi ikke har direkte “enheder” af intelligens (forresten, centimeter eller Celsius grader er også på en eller anden måde vilkårlige). Intelligens test er scoret, så de har et gennemsnit på 100 og standardafvigelse på 15. Hvad fortæller det os? Ved at kende middel- og standardafvigelse kan vi let udlede, hvilke scores der kan betragtes som “lave”, “gennemsnitlige” eller “høje”. Som “gennemsnit” kan vi klassificere sådanne scores, der opnås af de fleste mennesker (f.eks. 50%), højere scores kan klassificeres som “over gennemsnittet”, usædvanligt høje scores kan klassificeres som “overlegne” osv., Dette oversættes til nedenstående tabel .

Wechsler (WAIS – III) 1997 IQ test klassificering IQ Range (“deviation IQ”)

IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 

(Kilde: https://en.wikipedia.org/wiki/IQ_classification )

Så standardafvigelse fortæller os, hvor langt vi kan antage, at individuelle værdier er fjernt fra middelværdien. Du kan tænke på $ \ sigma $ som enhedsløs afstand fra middelværdi. Hvis du tænker på observerbare scores, siger intelligens testscores, end at kende standardafvigelser gør det let for dig at udlede, hvor langt (hvor mange $ \ sigma $ “s) en værdi lægger fra gennemsnittet og så hvor almindelig eller ualmindelig den er. Det er subjektivt hvor mange $ \ sigma $ “s kvalificerer som” langt væk “, men dette kan let kvalificeres ved at tænke i form af sandsynligheden for at observere værdier, der ligger i en vis afstand fra middelværdien.

Dette er indlysende, hvis du se på hvilken varians ($ \ sigma ^ 2 $) er

$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$

… den forventede (gennemsnitlige) afstand på $ X $ “s fra $ \ mu $. Hvis du undrer dig over her, kan du læse hvorfor er det kvadreret .

Kommentarer

  • Din fortolkning af gennemsnittet kræver normalitet. IQ er ikke normalt fordelt (halerne er tykkere og kurven er skæv). Derfor gælder 3-sigma-reglen ikke. Din fortolkning er også cirkulær, fordi IQ-klassificeringen er tilfældigt baseret på SD og ikke til gengæld kan forklare SD.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *