Ik studeer Statistiek voor data science sinds een paar maanden.

1) Ik leer dat, als we meerdere monsters (> 2), dan zou een T-test vervelend zijn en in plaats daarvan gaan we voor ANOVA en voeren we een “F-test” uit.

2) Bovenstaand begrip creëert een “wederzijds exclusieve vereiste tussen F-test en T-test”.

3) Ik heb ook geleerd dat de T-test (zij het: 1 steekproef / gepaarde / 2 steekproef) test in feite op verschillen in gemiddelden, terwijl “F-test” test op verschillen in varianties.

4) Stel nu dat twee steekproevengroepen bijna gelijke gemiddelden hebben maar sterk verschillende varianties, dan , zouden beide tests verschillende antwoorden geven, toch?

T-test zou zeggen “ze zijn niet verschillend”. Maar “F-test” zou zeggen “ze zijn verschillend”.

Of zelfs voor een omgekeerd geval. (enorm verschillende middelen, maar bijna dezelfde varianties) ..

5) Dus op basis waarvan (het gemiddelde? of de variantie?) gaan we eindelijk beslissen over hun ware verschil?

6) Dus de vraag is: hoe zijn ze gerelateerd? Als het oorspronkelijke doel was om erachter te komen dat twee of meer steekproeven verschillend of niet zijn, hoe verandert zoeken naar middelen (dwz het kiezen van de T-test) voor een kleiner aantal steekproefgroepen in zoeken naar varianties wanneer geen van de steekproefgroepen zijn> 2? (Wanneer het feit is: de variantie en het gemiddelde zijn in wezen onafhankelijke kenmerken van een steekproefgroep)

7) Moeten deze beide statistieken niet worden gecontroleerd om te bepalen of de twee steekproeven echt verschillend zijn of niet?

(Ik heb serienummers genoemd op punten die ik heb genoemd. Geef aan of een van deze nummers in wezen een verkeerd begrip is. Zou het op prijs stellen als er voor elk punt antwoorden worden gegeven)

Reacties

  • Wat bedoel je precies met ” steekproeven vergelijken “? Heeft u het over vergelijken of het gemiddelde van de populatie waar ze vandaan komen hetzelfde / verschillend is? Of heb je het over het controleren of hun distributie hetzelfde / anders is?
  • Ik weet het niet zeker !! Omdat dat is wat ik wil weten.! Moeten we niet naar beide zoeken om te beslissen ” of deze twee steekproefgroepen verschillend zijn of niet ” in alle aspecten? Ik kon geen tutorial vinden die deze weergave benadrukte .. De meeste tutorials leggen uit zoals ” … voor het vergelijken van meer dan twee groepen, ga voor F-test .. .. “. Op dat moment verandert het gezichtspunt van ” kijkend naar gemiddelde ” naar ” kijkend naar varianties !! ” .. Daarom ben ik hier niet duidelijk over!
  • Als nieuwe student van stat weet ik niet waar ik op moet letten! .. de meeste van de tutorials zegt .. ” T-test OF F-test ” .. geen van de tutorials zei ” controleer voor zowel T EN F !! (mijn mening: Moeten we niet ‘ kijken vanuit beide hoeken? (dwz zowel de gemiddelden als de varianties)?
  • De onderstaande link gaat daar een beetje naartoe: Ik heb het al genoemd. Maar het beantwoordt niet precies mijn vraag): stats.stackexchange.com/questions/78150/…
  • Nou, het maken van een ” test ” is het antwoord op een vraag vinden. Het eerste dat u moet weten, is wat de eigenlijke vraag is!

Antwoord

De termen t-test en F-Test zijn dubbelzinnig, omdat elke test waarbij de teststatistiek een t-verdeling heeft (onder de nulhypothese) t-test wordt genoemd en elke test waarbij de teststatistiek een F-verdeling heeft, wordt F-test genoemd. Er zijn meer dan één gevallen hiervan.

Dit is relevant voor uw vraag omdat er een F-test is die de varianties van twee steekproeven vergelijkt, maar dit is niet de F -test gebruikt in standaard ANOVA-analyse. In feite vergelijkt de ANOVA F-test de variabiliteit tussen groepen en binnen de groep, en de variabiliteit tussen groepen wordt in feite gemeten door verschillen tussen groepsgemiddelden te kwadrateren en op te tellen, dus in deze opstelling gaan zowel de t- als de F-test over vergelijken. groep betekent. Als u slechts twee groepen / factorniveaus heeft, is de F-test-statistiek het kwadraat van de t-test-statistiek en is de F-test equivalent aan de tweezijdige t-test. Voor meer dan twee groepen is het probleem met t-tests dat de t-test slechts twee groepen tegelijk kan vergelijken, wat betekent dat u meerdere t-tests nodig hebt om alle groepen te vergelijken, waarbij problemen met meerdere tests voorkomen (bijv. Als u test verschillende hypothesen op 5% -niveau; de kans om ten minste één verkeerde significantie te vinden, ervan uitgaande dat de nulhypothesen allemaal waar zijn, kan aanzienlijk hoger zijn dan 5%).

Bovendien heb je gelijk dat men mogelijk geïnteresseerd is in het onderzoeken van zowel verschillen tussen gemiddelden als verschillen tussen varianties, en groepen met hetzelfde gemiddelde kunnen nog steeds verschillende varianties hebben. U kunt ze inderdaad allebei controleren, hoewel dit opnieuw meerdere testen inhoudt; er is geen gratis lunch. Bij veel toepassingen van ANOVA is het ofwel redelijk redelijk om gelijke varianties aan te nemen, of zijn alleen gemiddelde verschillen van substantieel belang (je vraagt je bijvoorbeeld alleen af of de ene groep beter presteert dan de andere), daarom verschillen in varianties worden vaak niet expliciet onderzocht (ik zal me onthouden van een verklaring of dit “goed” of “correct” zou zijn; of liever mijn antwoord zou zijn “het hangt ervan af” …).

Opmerkingen

  • Bedankt voor de uitleg

Antwoord

Als je vergelijkt meer dan twee groepen en zijn geïnteresseerd in het vergelijken van hun gemiddelden, dan is het gebruikelijk om ANOVA uit te voeren terwijl u zegt, waarmee de hypothese wordt getest dat alle groepsgemiddelden gelijk zijn. Als u meerdere $ t $ -tests is niet helemaal gelijkwaardig omdat elke test alleen tets als de gemiddelden in die twee groepen gelijk zijn. Jouw punt 1)

Het gebruik van de $ F $ -test tot c ompare varianties wordt gebruikt omdat wat je in ANOVA vergelijkt, de variantie is tussen de groepsgemiddelden versus de variantie binnen groepen. (Uw punt 3)

De rest van uw vragen is moeilijk te beantwoorden omdat, zie mijn bovenstaande punten, ik denk dat u een aantal verkeerde opvattingen heeft over wat er precies aan de hand is.

Antwoord

Beschouw deze formule

Ho: group1 and group2 has the same average (e.g. do they have the same average height) t = (mean-k)/(s/sqrt(n)), basic assumption. variance is known. Ho: Different level of fertilizer (NPK) has no significant effect on plants. F = n(mean-k)^2 / s^2, w/c is simply t^2 
  1. vanuit praktisch oogpunt dit zou waar correct kunnen zijn.

2.Als je een controlegroep hebt en een behandelde groep uit dezelfde populatie, dan zullen ze hetzelfde zijn. Maar stel dat als je jongens versus meisjes hebt, locatie1 versus locatie2, ze kunnen verschillen.

  1. Correct.
  2. Mogelijk
  3. Afhankelijk van uw doel. Als je gewoon wilt weten of de groep verschillende kenmerken heeft (zoals gemiddeld), dan t-test. Als u wilt weten of bepaalde toegepaste factoren (zoals verschillende niveaus van nicotinegehalte uit sigaretten) significante effecten hebben, gebruik dan de F-test.
  4. De formule is gerelateerd, maar de toepassing verschilt afhankelijk van uw doel .

  5. Nee, aangezien het nergens op slaat, aangezien de t- en de F-test een ander doel of ander probleem hebben dat ze oplossen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *