Již několik měsíců studuji statistiku pro datovou vědu ..
1) Dozvídám se to, když budeme muset porovnat více vzorky (> 2), pak by T test byl zdlouhavý a místo toho bychom šli na ANOVA a provedli „F test“.
2) Nad porozuměním druh vytváří „vzájemně se vylučující požadavek mezi F testem a T testem.“
3) Také jsem se naučil, že T test (ať už: 1 vzorek / párový / 2 vzorek) v zásadě testuje rozdíly v prostředcích, zatímco „F test“ testuje rozdíly v odchylkách.
4) Nyní předpokládejme, že dvě skupiny vzorků mají téměř stejné prostředky, ale velmi odlišné odchylky, pak , oba testy by poskytly různé odpovědi, ne?
T test by řekl „nejsou odlišné“. Ale „F test“ by řekl „jsou různé“.
Nebo dokonce pro obrácený případ. (velmi odlišné prostředky, ale téměř stejné odchylky) ..
5) Takže na základě čeho (průměr? nebo rozptyl?) konečně rozhodneme o jejich skutečné odlišnosti?
6) Otázka tedy zní: Jak spolu souvisejí? Pokud bylo původním cílem zjistit, že dva nebo více vzorků se liší nebo ne, pak se změna „hledání prostředků“ (tj. Výběr T testu) pro menší počet skupin vzorků změní na „hledání odchylek“, když žádná ze skupin vzorků nebude jsou> 2? (Pokud je fakt: rozptyl a průměr jsou v zásadě nezávislé charakteristiky skupiny vzorků)
7) Neměly by se zkontrolovat tyto dvě metriky, aby se zjistilo, zda jsou tyto dva vzorky skutečně odlišné nebo ne?
(Zmínil jsem sériová čísla k bodům, které jsem uvedl. Laskavě prosím upozorněte, zda je některý z nich v zásadě špatně chápán. Ocenil bych, kdyby byly uvedeny odpovědi na každý bod)
Komentáře
- Co přesně máte na mysli tím, že “ porovnáte ukázky „? Mluvíte o srovnání, zda je průměr populace, kterou přicházejí, stejný / odlišný? Nebo mluvíte o kontrole, zda je jejich distribuce stejná / odlišná?
- Nejsem si jistý !! Protože to je to, co chci vědět.! Neměli bychom hledat oba pro rozhodování “ tyto dvě ukázkové skupiny jsou odlišné nebo ne “ ve všech aspektech? Nemohl jsem najít žádný tutoriál, který by zdůrazňoval tento pohled. Většina tutoriálů vysvětluje jako “ … pro porovnání více než dvou skupin přejděte na F test .. .. „. Tehdy se úhel pohledu změnil z “ pohledu na průměr “ na “ pohledu na odchylky !! “ .. Proto v tom nemám jasno!
- Jako nový student statistik nevím, na co si dát pozor! .. většina výukových programů říká .. “ T test NEBO F test “ .. žádný z tutoriálů neřekl “ zkontrolujte T i F !! (můj názor: Neměli bychom se ‚ dívat z obou úhlů? (tj. na prostředky i na odchylky)?
- Níže uvedený odkaz tam jde: Už jsem to doporučil. Ale ne přesně to odpovídá na mou otázku): stats.stackexchange.com/questions/78150/…
- No, provedením “ testu “ lze najít odpověď na otázku. První věc, kterou musíte vědět, je, co je skutečná otázka!
Odpověď
Termíny t-test a F-Test jsou nejednoznačné, protože jakýkoli test, kde statistika testu má t-distribuci (při nulové hypotéze), se nazývá t-test a jakýkoli test, kde má statistika testu F-distribuci, se nazývá F-test. Existuje více než jedna instance.
To je relevantní pro vaši otázku, protože existuje F-test, který porovnává odchylky dvou vzorků, ale toto není F -test používaný ve standardní analýze ANOVA. Ve skutečnosti test ANOVA F porovnává variabilitu mezi skupinami a uvnitř skupiny a variabilita mezi skupinami se ve skutečnosti měří čtvercem a sečtením rozdílů mezi průměrem skupiny, takže v tomto nastavení jsou t- i F-testy o srovnání skupina znamená. Ve skutečnosti, pokud máte pouze dvě skupiny / úrovně faktorů, je statistika F-testu druhou mocninou statistiky t-testu a F-test je ekvivalentem oboustranného t-testu. U více než dvou skupin je problémem s t-testy to, že t-test může porovnávat pouze dvě skupiny najednou, což znamená, že k porovnání všech skupin budete potřebovat několik t-testů, včetně problémů s více testy (tj. Pokud otestujte několik hypotéz na úrovni 5%, pravděpodobnost nalezení alespoň jedné nesprávné významnosti za předpokladu, že všechny nulové hypotézy jsou pravdivé, může být podstatně vyšší než 5%).
Máte navíc pravdu, že by vás mohlo zajímat zkoumání jak rozdílů mezi prostředky, tak rozdílů mezi odchylkami, a skupiny se stejným průměrem mohou mít stále různé odchylky. Můžete je opravdu zkontrolovat, i když to opět zahrnuje vícenásobné testování; neexistuje žádný oběd zdarma. V mnoha aplikacích ANOVA je buď docela rozumné předpokládat stejné odchylky, nebo jen podstatné rozdíly jsou podstatného zájmu (např. jen přemýšlení, zda jedna skupina funguje „lépe“ než jiná), proto rozdíly v odchylkách často nejsou výslovně vyšetřovány (zdržím se prohlášení, zda by to bylo „dobré“ nebo „správné“, nebo spíše moje odpověď by byla „záleží“ …).
Komentáře
- Děkujeme za vysvětlení
Odpověď
Pokud porovnávají více než dvě skupiny a zajímají se o srovnání jejich průměrů, pak je obvyklé udělat ANOVA, jak říkáte, která testuje hypotézu, že všechny průměrné skupiny jsou stejné. Provádění více $ t $ -tests není zcela ekvivalentní, protože každý test hodnotí, pouze pokud jsou prostředky v těchto dvou skupinách stejné. Váš bod 1)
Použití $ F $ test do cca ompare odchylky se používají, protože to, co porovnáváte v ANOVA, je rozptyl mezi skupinou znamená versus rozptyl ve skupinách. (Váš bod 3)
Na zbytek vašich otázek je těžké odpovědět, protože, viz mé body výše, si myslím, že máte mylné představy o tom, co se děje.
Odpověď
Zvažte tento vzorec
Ho: group1 and group2 has the same average (e.g. do they have the same average height) t = (mean-k)/(s/sqrt(n)), basic assumption. variance is known. Ho: Different level of fertilizer (NPK) has no significant effect on plants. F = n(mean-k)^2 / s^2, w/c is simply t^2
- z hlediska praktičnosti to by mohla být pravda správná.
2. Pokud máte kontrolní a ošetřenou skupinu ze stejné populace, pak budou stejné. Řekněme však, že pokud máte chlapce vs. dívky, místo 1 a místo 2, mohou se lišit.
- Správně.
- Možná
- Podle vašeho cíle. Pokud chcete jednoduše vědět, zda má skupina odlišné charakteristiky (například průměr), proveďte t-test. Pokud chcete vědět, zda mají určité aplikované faktory (jako různé úrovně nikotinu v cigaretách) významné účinky, použijte F-test.
-
Vzorec souvisí, ale aplikace se liší v závislosti na vašem cíli .
-
Ne, protože to nedává smysl, protože testy t a F mají jiný cíl nebo problém, který řeší.