Jeg studerer nå t-score. Så vidt jeg forstår, brukes t-score når vi ikke vet sanne populasjonsparametere (for eksempel: standardavvik og populasjonsgjennomsnitt) og kan ikke bruke z-score. Her er formelen i bøker og på internett for beregning av t -score: $$ t = \ frac {\ bar {X} – \ mu} {\ frac {S} {\ sqrt {n}}} $$
Så vidt jeg vet μ
brukes til å definere sant populasjonsmiddel. Så i formelen ovenfor trenger jeg sant populasjonsmiddel μ
for å beregne t-score. Men som jeg sa før når når vi beregner t-poengsummen, vet vi ikke sanne populasjonsparametere, i dette tilfellet betyr den sanne populasjonen μ
. Så hvilket tall skal jeg bruke i μ
og hvordan beregner jeg det?
Også for å gjøre det klart, vil det være veldig nyttig hvis du gir et eksempel på faktisk t -score-beregning.
Kommentarer
Svar
Så vidt jeg vet er μ brukt til å definere sann populasjonsgjennomsnitt.
Ikke helt, og her er gnisten. μ representerer uansett hva det virkelige middel er. Det «s definert av problemet som denne lille statistiske slutningen er analysen for, ikke av selve dataene (som vil gjøre det til et estimat, ikke en hypotese)
Så i formelen ovenfor trenger jeg sant populasjonsmiddel gjennomsnitt μ for å beregne t-score.
Du trenger en hypotese om hva det er, det vil si: en mulig verdi for det. Du trenger ikke å vite hva denne verdien egentlig er.
Men som jeg sa tidligere når vi beregner t-score, vet vi ikke sanne populasjonsparametere, i i dette tilfellet betyr sann befolkning μ. Så hvilket tall skal jeg bruke i μ og hvordan beregner jeg det?
Et eksempel, gjort på noen måter
Anta et øyeblikk at du ber om at et utvalg av fag estimerer prisen på noe – si et nytt college lærebok for konkretitet – og du er interessert i om de over- eller undervurderer den sanne prisen.
Her kan du slå opp den sanne prisen, så hvis det er 45 dollar og gjetningene er i dollar også, så er μ = 45. Hvis fagets gjennomsnittlige gjetning er 60, er t-testen din tester om det er nok bevis for at de systematisk overvurderer prisen, eller om gjetningene deres kunne ha kommet fra en befolkning av fag som verken undervurderte eller overvurderte lærebokprisen.
Ser vi på en annen helt tilsvarende måte , kan du trekke den sanne prisen fra hvert emnets gjetning. Så ser du på avvik fra riktig pris, og testen vil sette μ = 0 (objektiv prisgissing)
Sett på en tredje måte, kan du tenke på å kjøre denne testen for alle verdier av μ (du vil ikke virkelig gjøre dette, men hold deg med meg). For μs nær fagene «gjennomsnitt, vil testen» ikke avvise «, men for μs ganske langt borte fra fagets» gjennomsnitt, testen vil avvise at dataene kommer fra en distribusjon med verdien på μ. Regionen til μ-verdiene som testen ikke avviser for, er på en måte regionen med μ-verdier som er «rimelige» i lys av dataene. Dette er en måte å motivere ideen om (og noen ganger faktisk konstruere) et konfidensintervall. Når konfidensintervallet (regionen med ikke-avviste μs) ikke overlapper 45 (eller null i den andre formuleringen ), så avviser vi hypotesen om at denne befolkningen er upartisk i prisgissingen i lærebokene.
Hver av disse tilnærmingene får deg til samme sted på en annen måte. Ingen av dem krever å kjenne den sanne verdien av μ. De to første er de du bør vurdere i ditt tilfelle.
Kommentarer
- Takk for detaljert forklaring.En avklaring til, t-testen og funnetverdien av
t
for utvalget vårt er annerledes, ikke sant? For t-test bruker vi formel som er på spørsmålet mitt, og for å finne verdient
for vårt utvalg bruker vi forkortett
poengsum som viser verdiene tilt
som tilsvarer forskjellige områder under normalfordelingen for forskjellige prøvestørrelser (grader av freadom), har jeg rett? Så for å finne verdient
for prøven vår trenger vi bare prøvestørrelsen
, prosentandelen av arealet i halen (eller halene) og forkortet t score tabell, har jeg rett? - Her er skjermbilde av forkortet t score tabell fra læreboka mi: i.imgur.com/Odbm0Qc.png
- Fra prøven beregner du a) frihetsgrader, som her er en mindre enn antall observasjoner (n), b) gjennomsnittsverdien til prøven (X-bar), prøve standardavvik (er). Når du lager en hypotese om gjennomsnittet av populasjonen (μ), har du alt klart for å beregne statistikken (t). ' t-score tabellen ' lar deg velge mellom noen forskjellige ' nivåer av betydning ' for testen din.
- Etter mitt eksempel antar du at hypotesen om at befolkningen var 45 (μ = 45). Du får priser fra ti personer (n = 10) og disse gjetningene er gjennomsnittlig femti (X-bar = 50) med standardavvik fem (s = 5). Så statistikken t er 3,16. Den midterste kolonnen gir tall som t skal være større i absolutt verdi enn å avvise (at μ = 45) i en tosidig test på ' nivå ' 0,05 for forskjellige frihetsgrader. Her har du n-1 = 9, så tallet skal være større enn 2.262. 3.16 er større enn dette, så du kan avvise p < .05 at μ = 45 i populasjonen som dette er et utvalg av.
- Jeg kan også beregne t score for det enkelte elementet i prøven min, ikke sant? Hvilken formel skal du bruke for den
t=(X-μ)/S
ellert=(X-μ)/estimated standard error
? Jeg tror jeg må bruke den første, har jeg rett? I og med at formleneμ
er prøvestørrelse, erX
elementverdi,S
eksempel på standardavvik .
Svar
Det er to forskjellige $ \ mu $ «s involvert her:
- hypotesen betyr at du bruker telleren til t-statistikken din for en t-test (noen ganger betegnet som $ \ mu_0 $), og
- sanne populasjonsgjennomsnitt, $ \ mu $.
T-testen er faktisk å se om den sanne populasjonsgjennomsnittet skiller seg fra det hypoteserte gjennomsnittet – det vil si en test for en null hypotese $ H_0 \!: \, \ mu = \ mu_0 $.
Ikke forveksle $ \ mu $ med $ \ mu_0 $. Bare en av de to er kjent.
μ
gjennomsnittet av mange andre prøver? Men hvis jeg bare har ett utvalg (bestående av 30 elementer)?