<åt sidan class = "s-notice s-notice__info js-post-notice mb16" role = "status">

Denna fråga har redan svar här :

Kommentarer

  • Jag skulle vilja föreslå att man kan få betydande insikt i dessa frågor genom att ersätta " varians " eller " standardavvikelse " med någon annan (mer bekant) kvantitet som spelar en analog roll i kvantitativ beskrivning, såsom längd. När de flesta fysiska föremål beskrivs kommer forskare att rapportera en längd. Vad betyder längden egentligen? Vilken längd anses vara ovanligt stor eller liten? Finns det riktlinjer för att bedöma längdernas storlek? Om en längd är 90 (eller 30), är det ovanligt eller helt anmärkningsvärt?
  • @whuber Som du kan se har jag försökt vad du föreslår i den andra versionen av min fråga, som glen_b har svarat att ingen mening kan härledas från detta. Eftersom din kommentar ständigt röstas upp, kanske du eller några av de röstande kan förklara vad din kommentar betyder, var jag gjorde fel (med min andra version) eller var glen_b kan misstas. Som det ser ut ger din kommentar mig ingen insikt. Tänk också på den nuvarande (förhoppningsvis slutliga) revisionen av min fråga, där jag har försökt att uttrycka min fråga utan några av de uppenbarligen störande exemplen.
  • Vad saknas i denna fråga och min kommentar är någon indikation av måttenheterna. " 90 " i sig är meningslöst. Ett annat avgörande saknat element är vilken kontextuell referensram som helst för att avgöra om 90 är stor eller liten.
  • Du leder mig runt i cirklar. Jag hade måttenheter och sammanhang i exemplen i tidigare versioner av min fråga. Dessa kritiserades starkt. Självklart kan jag inte hitta lämpliga exempel och komma fram till en slutsats på egen hand. Jag ber dig (eller någon annan) uttryckligen att ge ett exempel och förklara svaret för mig.
  • En recension av ditt ursprungliga inlägg visar att du ställde den här frågan i stor allmänhet: " Finns det riktlinjer för att bedöma storleken på varians i data? " Om detta var (säg) fysikplatsen och någon skulle fråga " finns det riktlinjer för att bedöma längdens storlek, " don ' t du tror frågan skulle omedelbart stängas för att vara för bred (eller för vag eller båda)? Jag hoppades bara att denna analogi skulle göra det tydligt hur omöjligt det är att svara på din fråga här.

Svar

Diskussion om den nya frågan:

Till exempel om jag vill studera människokroppsstorlek och jag tycker att vuxen människokroppsstorlek har en standard avvikelse på 2 cm skulle jag förmodligen dra slutsatsen att människans kroppsstorlek för vuxna är väldigt enhetlig

Det beror på vad vi jämför med. Vad är standard för jämförelse som gör det väldigt enhetligt? Om du jämför det med variationen i bultlängder för en viss typ av bult som kan vara enormt variabel.

medan en 2 cm standardavvikelse i storlek på möss skulle innebära att möss skiljer sig överraskande mycket i kroppsstorlek.

Jämfört med samma sak i ditt mer enhetliga exempel på människor, verkligen; när det gäller längder på saker, som bara kan vara positiva, är det förmodligen mer meningsfullt att jämföra variationskoefficienten (som jag påpekar i mitt ursprungliga svar), vilket är samma sak som att jämföra sd för att betyda att du föreslår här .

Självklart är innebörden av standardavvikelsen dess relation till medelvärdet,

Nej, inte alltid. När det gäller storlekar eller mängder saker (t.ex. tonnage kol, volym pengar) är det ofta meningsfullt, men i andra sammanhang är det inte meningsfullt att jämföra med medelvärdet.

Även då är de inte nödvändigtvis jämförbara från en sak till en annan. Det finns ingen tillämplig standard för allt hur variabelt något är innan det är variabel.

och en standardavvikelse runt en tiondel av medelvärdet är obemärklig (t.ex. för IQ: SD = 0,15 * M).

Vilka saker jämför vi här? Längder till IQ ”s ? Varför är det vettigt att jämföra en uppsättning saker med en annan? Observera att valet av medelvärde 100 och sd 15 för en typ av IQ-test är helt godtyckligt. De har inte enheter. Det kunde lika lätt ha varit medelvärde 0 sd 1 eller medelvärde 0.5 och sd 0.1.

Men vad betraktas som ”litet” och vad är ”stort” när det gäller förhållandet mellan standardavvikelse och medelvärde?

Redan täckt i mitt ursprungliga svar men mer vältaligt täckt av whubbers kommentar – det finns ingen standard, och det kan inte vara.

Några av mina poäng om Cohen finns fortfarande i detta fall (sd relativt medelvärdet är åtminstone enhetsfritt); men även med något som säger Cohen ”s, en lämplig standard i ett sammanhang är inte nödvändigtvis lämplig i en annan.


Svar på en tidigare version

Vi beräknar och rapporterar alltid medel och standardavvikelser.

Tja, kanske mycket tid; Jag vet inte att jag alltid gör det. Det finns fall där det inte är så relevant.

Men vad betyder egentligen storleken på variansen?

Standardavvikelsen är ett slags genomsnitt * avstånd från medelvärdet. Variansen är kvadraten för standardavvikelse. Standardavvikelse mäts i samma enheter som data; variansen är i kvadratiska enheter.

* (RMS – https://en.wikipedia.org/wiki/Root_mean_square )

De berättar något om hur” sprids ”data är (eller fördelningen, om du beräknar sd eller varians för en distribution).

Antag till exempel att vi observerar vilken plats människor tar i ett tomt rum. Om vi observerar att majoriteten av människor sitter nära fönstret med liten varians,

Det är inte precis ett fall att spela in ”vilket säte” utan spela in ”avstånd från fönstret”. (Att veta ”majoriteten sitter nära fönstret” berättar dig inte nödvändigtvis något om medelvärdet eller variationen om medelvärdet. Vad det säger dig är att medianen avståndet från fönstret måste vara litet.)

vi kan anta att det betyder att människor i allmänhet föredrar att sitta nära fönstret och få en vy eller tillräckligt med ljus är den främsta motiverande faktorn vid val av plats.

Att medianen är liten säger inte i sig det. Du kan dra slutsatsen från andra överväganden, men det kan finnas alla möjliga orsaker till det att vi inte på något sätt kan urskilja data.

Om vi å andra sidan observerar att medan den största andelen sitter nära fönstret det är stor skillnad med att andra platser ofta tas (t.ex. många sitter nära dörren, andra sitter nära vattendispensern eller tidningarna), vi kan anta att medan många föredrar att sitta nära fönstret verkar det vara fler faktorer än ljus eller syn som påverkar valet av sittplatser och olika preferenser hos olika människor.

Återigen tar du in information utanför data; det kan gälla eller kanske inte. För allt vi vet är ljuset bättre långt ifrån fönstret, för dagen är mulen eller mörkarna dras.

Vid vilka värden c an vi säger att beteendet vi har observerat är väldigt varierat (olika människor gillar att sitta på olika ställen)?

Vad som gör en standardavvikelse stor eller liten bestäms inte av någon extern standard utan av ämnesöverväganden och till viss del vad du gör med data och till och med personliga faktorer.

Men med positiva mätningar, såsom avstånd, är det ibland relevant att beakta standardavvikelse i förhållande till medelvärdet (variationskoefficienten); det är fortfarande godtyckligt, men fördelningar med variationskoefficienter som är mycket mindre än 1 (standardavvikelse mycket mindre än medelvärdet) är ”annorlunda” i någon mening än sådana där det är mycket större än 1 (standardavvikelse mycket större än medelvärdet , som ofta tenderar att vara kraftigt rätt skev).

Och när kan vi dra slutsatsen att beteendet oftast är enhetligt (alla gillar att sitta vid fönstret)

Var försiktig med att använda ordet ”enhetlig” i den meningen, eftersom det är lätt att tolka din mening felaktigt (t.ex. om jag säger att människor är ” sittande enhetligt runt rummet ”det betyder nästan motsatsen till vad du menar). Mer allmänt, när du diskuterar statistik, undvik i allmänhet att använda jargongtermer i sin vanliga mening.

och den lilla variationen som våra data visar är mestadels ett resultat av slumpmässiga effekter eller förvirrande variabler (smuts på en stol, solen har rört sig och mer skugga i ryggen, etc.)?

Nej, igen, du tar in extern information till den statistiska kvantitet som du diskuterar. Avvikelsen berättar inte något sådant.

Finns det riktlinjer för att bedöma storleken på varians i data, liknande Cohens riktlinjer för tolkning av effektstorlek (en korrelation på 0,5 är stor, 0,3 är måttlig och 0,1 är liten)?

Inte allmänt, nej.

  1. Cohen ”s diskussion [1] om effektstorlekar är mer nyanserad och situationell än du anger; han ger en tabell med åtta olika värden för små och stora beroende på vilken typ av sak som diskuteras. De siffror du anger gäller skillnader i oberoende medel (Cohens d).

  2. Cohens effektstorlekar är alla skalade till enhetslösa kvantiteter . Standardavvikelse och varians är inte – ändra enheterna och båda kommer att ändras.

  3. Cohens effektstorlekar är avsedda att tillämpas i ett visst applikationsområde (och även då anser jag för mycket fokus på dessa standarder för vad som är litet, medelstort och stort som både något godtyckligt och något mer receptbelagt än jag skulle vilja). De är mer eller mindre rimliga för sitt avsedda användningsområde men kan vara helt olämpliga i andra områden (högenergifysik, till exempel, kräver ofta effekter som täcker många standardfel, men ekvivalenter av Cohens effektstorlekar kan vara många storleksordningar mer än vad man kan uppnå).

Till exempel, om 90% (eller endast 30%) av observationerna faller inom en standardavvikelse från medelvärdet, är det ovanligt eller helt obetydligt ?

Ah, notera nu att du har slutat diskutera storleken på standardavvikelse / varians och börjat diskutera andelen observationer inom en standardavvikelse av medelvärdet, ett helt annat koncept. Mycket grovt sett är detta mer relaterat till fördelningens topp.

Till exempel, utan att alls ändra variationen, kan jag ändra andelen av en befolkning inom 1 sd av medelvärdet ganska lätt. Om befolkningen har en $ t_3 $ fördelning ligger cirka 94% av den inom 1 sd av medelvärdet, om den har en enhetlig fördelning ligger cirka 58% inom 1 sd av medelvärdet; och med en beta-distribution ($ \ frac18, \ frac18 $) är det cirka 29%. Detta kan hända med att alla har samma standardavvikelser, eller att någon av dem är större eller mindre utan att ändra dessa procentsatser – det är inte riktigt relaterat till spridning alls, för du definierade intervallet i termer av standardavvikelse.

[1]: Cohen J. (1992),
”A power primer,”
Psychol Bull. , 112 (1), jul: 155-9.

Kommentarer

  • Om fördelningen är identisk skulle procentandelen vara fast, ändras inte.
  • Om saker och ting fungerar som de ska, du kommer inte ' att kunna ta bort den; medan du " äger " din fråga, när en fråga har svar, behöver du inte ' får inte ta bort dem, så frågan – en giltig fråga med giltiga svar – bör stanna, även om den ' inte är vad du ville fråga om . Jag ' föreslår att du börjar din nya fråga med några grundläggande begrepp; du kanske hittar många av dina nuvarande intuitioner inte ' t.
  • Det ' är en tydligare fråga och skulle har varit bra att fråga. Tyvärr är problemet att du ' dramatiskt har ändrat frågan på ett sätt som ogiltigförklarar de svar du fick (den andra ganska helt, min delvis). Varför ska den inte bara rullas tillbaka till den stod när den fick de här svaren?
  • I stället för att ta bort det du hade tidigare kan du lägga till din reviderade fråga i slutet och lämna originalet till kontext, så att det andra svaret fortfarande ser ut som det svarar på en fråga. Det ' är knappast rättvist att sätta Tim ' ursprungligen giltigt svar i risk att markeras som " inte ett svar " (och sedan borttaget) när hans svar svarade på en viktig del av det du ursprungligen frågade. Det enkla sättet är att kopiera det du har nu (till exempel ett anteckningsblockfönster), rulla din fråga tillbaka och redigera för att klistra in det nya innehållet (och lägg till eventuell förklaring till den förändring du tycker är nödvändig).
  • (a), nej jämförelsen med möss kom senare i diskussionen. Då du kallade det " mycket enhetligt " hade inga nämnts om möss. (b) Nej, det finns ' inget samband mellan medelvärde och sd för normala fördelningar i allmänhet; det normala är en platsskala familj. Det finns till exempel exponentiella distributioner. …(ctd)

Svar

Av Chebyshev ”s ojämlikhet vi vet att sannolikheten att vissa $ x $ är $ k $ gånger $ \ sigma $ från medelvärde är högst $ \ frac {1} {k ^ 2} $:

$$ \ Pr (| X- \ mu | \ geq k \ sigma) \ leq \ frac {1} {k ^ 2} $$

Men med vissa distributionsantaganden kan du vara mer exakt, t.ex. Normal approximation leder till 68–95–99.7 regel . Generellt använder du någon kumulativ fördelningsfunktion du kan välj något intervall som ska omfatta en viss procentandel av fallen. Men att välja konfidensintervallbredd är ett subjektivt beslut som diskuteras i den här tråden .

Exempel
Det mest intuitiva exemplet som jag tänker på är intelligens skala. Intelligens är något som inte kan mätas direkt, vi har inte direkta ”enheter” av intelligens (förresten, centimeter eller Celsius grader är också på något sätt godtyckliga). Intelligensprov görs så att de har medelvärdet 100 och standardavvikelsen 15. Vad säger det oss? Genom att känna till medelvärdet och standardavvikelsen kan vi enkelt dra slutsatsen vilka poäng som kan betraktas som ”låg”, ”genomsnittlig” eller ”hög”. Som ”genomsnitt” kan vi klassificera sådana poäng som uppnås av de flesta (säg 50%), högre poäng kan klassificeras som ”över genomsnittet”, ovanligt höga poäng kan klassificeras som ”överlägsen” etc., detta översätts till tabellen nedan .

Wechsler (WAIS – III) 1997 IQ testklassificering IQ Range (”deviation IQ”)

IQ Classification 130 and above Very superior 120–129 Superior 110–119 High average 90–109 Average 80–89 Low average 70–79 Borderline 69 and below Extremely low 

(Källa: https://en.wikipedia.org/wiki/IQ_classification )

Så standardavvikelsen berättar för oss hur långt vi kan anta att enskilda värden är avlägsna från medelvärdet. Du kan tänka på $ \ sigma $ som enhetslöst avstånd från medelvärdet. Om du tänker på observerbara poäng, säg intelligensprovresultat, än att veta standardavvikelser kan du enkelt dra slutsatsen hur långt (hur många $ \ sigma $ ”s) något värde lägger från medelvärdet och så hur vanligt eller ovanligt det är. Det är subjektivt hur många $ \ sigma $ som kvalificeras som ”långt borta”, men detta kan lätt kvalificeras genom att tänka i termer av sannolikheten att observera värden som ligger på ett visst avstånd från medelvärdet.

titta på vilken varians ($ \ sigma ^ 2 $) är

$$ \ operatorname {Var} (X) = \ operatorname {E} \ left [(X – \ mu) ^ 2 \ right] . $$

… det förväntade (genomsnittliga) avståndet på $ X $ ”s från $ \ mu $. Om du undrar än här kan du läsa varför är det kvadrat .

Kommentarer

  • Din tolkning av medelvärdet kräver normalitet. IQ fördelas inte normalt (svansarna är tjockare och kurvan är sned). Därför gäller inte 3-sigma-regeln. Din tolkning är också cirkulär, eftersom IQ-klassificeringen är slumpmässigt baserad på SD och i sin tur inte kan förklara SD.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *