Jag studerar nu t-poäng. Såvitt jag förstår används t-poäng när vi inte känner till sanna befolkningsparametrar (som: standardavvikelse och populationsmedelvärde) och kan inte använda z-poäng. Här är en formel som finns i böcker och på Internet för att beräkna t -score: $$ t = \ frac {\ bar {X} – \ mu} {\ frac {S} {\ sqrt {n}}} $$
Såvitt jag vet μ
används för att definiera sant populationsmedelvärde. Så i formeln ovan behöver jag sant populationsmedelvärde μ
för att beräkna t-poäng. Men som jag sa tidigare när vid beräkning av t-poäng vet vi inte riktiga befolkningsparametrar, i detta fall betyder sann befolkning μ
. Så vilket nummer ska jag använda i μ
och hur man beräknar det?
För att göra det tydligt kommer det att vara till stor hjälp om du ger exempel på faktiska t -poängberäkning.
Kommentarer
Svar
Så vitt jag vet används μ för att definiera sant populationsmedelvärde.
Inte riktigt, och här är gnuggan. μ representerar vad det verkliga medelvärdet är. Det är s definierad av problemet för vilket denna lilla statistiska slutsats är analysen, inte av själva data (som skulle göra det till en uppskattning, inte en hypotes)
Så i formeln ovan behöver jag ett sant populationsmedelvärde μ för att beräkna t-poäng.
Du behöver en hypotes om vad det är, det vill säga: ett möjligt värde för det. Du behöver inte veta vad det värdet egentligen är.
Men som jag sa tidigare när vi beräknar t-poäng vet vi inte riktiga befolkningsparametrar, i det här fallet betyder sann befolkning μ. Så vilket antal ska jag använda i μ och hur man beräknar det?
Ett exempel, gjort på några sätt
Antag ett ögonblick att du ber att en grupp ämnen uppskattar priset på något – säg ett nytt college lärobok för konkretitet – och du är intresserad av om de över- eller underskattar det verkliga priset.
Här kan du slå upp det verkliga priset, så om det är 45 dollar och prisgissningarna är också i dollar, så är μ = 45. Om ämnets genomsnittliga gissning är 60 är ditt t-test testar om det finns tillräckligt med bevis för att de systematiskt överskattar priset eller om deras gissningar kunde ha kommit från en population av ämnen som varken undervärderade eller överskattade priset på läroboken.
Ser vi på ett annat helt likvärdigt sätt kan du subtrahera det sanna priset från varje ämnes gissning. Sedan tittar du på avvikelser från rätt pris och testet skulle ställa in μ = 0 (opartisk prissättning)
Tittade på ett tredje sätt, du kanske tänker köra testet för alla värdena på μ (du skulle inte verkligen göra det, men ha med mig). För μs nära försökspersonen ”genomsnittet kommer testet” inte att avvisas ”, men för μs ganska långt ifrån ämnens” genomsnitt, testet kommer att avvisa att data kommer från en distribution med det värdet μ. Regionen med μ-värden som testet inte avvisar är i viss mening regionen med μ-värden som är ”rimliga” mot bakgrund av uppgifterna. Detta är ett sätt att motivera idén om (och ibland faktiskt konstruera) ett konfidensintervall. När konfidensintervallet (regionen för icke-avvisade μs) inte överlappar 45 (eller noll i den andra formuleringen ), då förkastar vi hypotesen att denna befolkning är opartisk i sin läsboksprissgissning.
Var och en av dessa tillvägagångssätt tar dig till samma plats på ett annat sätt. Ingen av dem behöver veta det verkliga värdet på μ. De två första är de som ska övervägas i ditt fall.
Kommentarer
- Tack för detaljerad förklaring.Ytterligare ett förtydligande, t-testet och att hitta värdet av
t
för vårt urval är annorlunda, eller hur? För t-test använder vi formeln som är min fråga och för att hitta värdett
för vårt prov använder vi förkortadt
poängtabell som visar värdena fört
som motsvarar olika områden under normalfördelningen för olika provstorlekar (grader av freadom), har jag rätt? Så för att hitta värdet påt
för vårt prov behöver vi bara provstorlekn
, procentandelen av arean i svansen (eller svansar) och förkortas t poängtabell, har jag rätt? - Här är en skärmdump av förkortad t poängtabell från min lärobok: i.imgur.com/Odbm0Qc.png
- Ur provet beräknar du a) frihetsgraderna, som här är en mindre än antalet observationer (n), b) provets genomsnittliga värde (X-bar), prov standardavvikelse (r). När du gör en hypotes om populationens medelvärde (μ) har du allt klart för att beräkna statistiken (t). ' t-poängtabellen ' låter dig välja mellan olika ' nivåer av betydelse ' för ditt test.
- Enligt mitt exempel antar jag att befolkningens medelvärde var 45 (μ = 45). Du får priser från tio personer (n = 10) och dessa gissningar är i genomsnitt femtio (X-bar = 50) med standardavvikelse fem (s = 5). Så statistiken t är 3.16. Den mellersta kolumnen ger siffror som t ska vara större i absolut värde än att avvisa (att μ = 45) i ett tvåsidigt test på ' nivå ' 0,05 för olika frihetsgrader. Här har du n-1 = 9 så antalet som ska vara större än är 2.262. 3.16 är större än detta, så du kan avvisa p < .05 att μ = 45 i populationen som detta är ett urval från.
- Jag kan också beräkna t poäng för enskilda delar av mitt prov, eller hur? Vilken formel ska du använda för den
t=(X-μ)/S
ellert=(X-μ)/estimated standard error
? Jag tror att jag måste använda den första, har jag rätt? I att formlernaμ
är provstorlek,X
är elementvärde,S
prov standardavvikelse .
Svar
Det är två olika $ \ mu $ ”s inblandade här:
- hypotesen betyder att du använder i täljaren för din t-statistik för ett t-test (ibland betecknat som $ \ mu_0 $) och
- sant populationsmedelvärde, $ \ mu $.
T-testet är faktiskt att se om det sanna populationsmedlet skiljer sig från det hypotesiserade medelvärdet – det vill säga det är ett test för en hypotes $ H_0 \!: \, \ mu = \ mu_0 $.
Förväxla inte $ \ mu $ med $ \ mu_0 $. Endast en av de två är känd.
μ
medelvärdet av många andra prover? Men om jag bara har ett prov (bestående av 30 element)?