Chci otestovat ukázkovou korelaci $ r $ z hlediska významnosti pomocí p-hodnot, tj.

$ H_0: \ rho = 0, \; H_1: \ rho \ neq 0. $

Pochopil jsem, že k výpočtu toho mohu použít Fisherovu z-transformaci

$ z_ {obs} = \ displaystyle \ frac {\ sqrt {n-3}} {2} \ ln \ left (\ displaystyle \ frac {1 + r} {1-r} \ right) $

a nalezení hodnoty p pomocí

$ p = 2P \ left (Z > z_ {obs} \ right) $

pomocí standardní normální distribuce.

Moje otázka zní: jak velké by mělo být $ n $, aby to byla vhodná transformace? Je zřejmé, že $ n $ musí být větší než 3. Moje učebnice nezmiňuje žádná omezení, ale na snímku 29 tato prezentace říká, že $ n $ musí být větší než 10. Pro data, která budu zvažovat, budu mít něco jako $ 5 \ leq n \ leq 10 $.

Komentáře

  • Stránka Wikipedia uvádí standardní chybu $ z_ {obs } $, které je dáno $ 1 / \ sqrt {N-3} $, kde $ N $ je velikost vzorku. Takže ‚ budete potřebovat alespoň 4 úplné páry. I Nevím o žádných omezeních nad rámec velikosti vzorku.
  • Nevím, nakolik důvěřovat prezentaci od někoho, kdo ‚ Vyhláskovat své vlastní univerzitní jméno. Vážněji si dávejte pozor na všechny rady, které naznačují, že věci jsou v pořádku nad určitou velikost vzorku a jinak hrozné. ‚ Jde o to, aby se kvalita přiblížení plynule zvyšovala s velikostí vzorku a také v závislosti na distribuci dat. Jednoduchou radou je být velmi opatrný, vykreslit vše a provést křížovou kontrolu s bootstrapovanými intervaly spolehlivosti.
  • Snímek 17 popisuje t-test pro speciální případ $ \ rho = 0 $.
  • Odkaz na prezentaci na courses.education.illinois.edu/EdPsy580/lectures/… je nyní nefunkční ,

Odpověď

U takových otázek bych pouze spustil simulaci a zjistil, zda $ p $ – hodnoty se chovají tak, jak od nich očekávám. Hodnota $ p $ je pravděpodobnost náhodného nakreslení vzorku, který se odchyluje alespoň od nulové hypotézy jako data, která jste pozorovali, pokud je nulová hypotéza pravdivá. Takže pokud bychom měli mnoho takových vzorků a jeden z nich měl hodnotu $ p $ 0,04, pak bychom očekávali, že 4% těchto vzorků bude mít hodnotu menší než 0,04. Totéž platí pro všechny ostatní možné hodnoty $ p $.

Níže je uvedena simulace ve Statu. Grafy kontrolují, zda hodnoty $ p $ měří to, co mají měřit, to znamená, že ukazují, o kolik se podíl vzorků s hodnotami $ p $ menšími, než je nominální hodnota $ p $, odchyluje od nominální hodnoty $ p $ -hodnota. Jak vidíte, tento test je při tak malém počtu pozorování poněkud problematický. Ať už je to pro váš výzkum příliš problematické, či nikoli, záleží na vašem úsudku.

clear all set more off program define sim, rclass tempname z se foreach i of numlist 5/10 20(10)50 { drop _all set obs `i" gen x = rnormal() gen y = rnormal() corr x y scalar `z" = atanh(r(rho)) scalar `se" = 1/sqrt(r(N)-3) return scalar p`i" = 2*normal(-abs(`z"/`se")) } end simulate p5 =r(p5) p6 =r(p6) p7 =r(p7) /// p8 =r(p8) p9 =r(p9) p10 =r(p10) /// p20=r(p20) p30=r(p30) p40 =r(p40) /// p50=r(p50), reps(200000) nodots: sim simpplot p5 p6 p7 p8 p9 p10, name(small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

zde zadejte popis obrázku

simpplot p20 p30 p40 p50 , name(less_small, replace) /// scheme(s2color) ylabel(,angle(horizontal)) 

zde zadejte popis obrázku

Komentáře

  • Zkuste odečíst 2,5 místo 3 od $ n $ :-).

Odpovědět

FWIW Vidím doporučení $ N \ ge 10 $ v Myers & No (design výzkumu a statistické analýzy, druhé vydání, 2003, s. 492). Poznámka pod čarou uvádí:

Přesněji řečeno, transformace $ Z $ je předpjata o částku $ r / (2 (N-1)) $: viz Pearson a Hartley (1954, s. 29). Toto zkreslení bude obecně zanedbatelné, pokud $ N $ nebude malé a $ \ rho $ bude velké, a my to zde ignorujeme.

Komentáře

  • Zdá se, že je to pro mě odpověď.

Odpověď

Nejste si jisti, zda je zde vhodná Fisherova $ z $ transformace. Pro $ H_0: \ rho = 0 $ (NB: nulová hypotéza je pro populaci $ \ rho $, ne vzorek $ r $), rozdělení vzorkování korelačního koeficientu je již symetrické, takže není třeba snižovat šikmost, k čemuž Fisherova $ z $ hodlá ano, a můžete použít Studentovu $ t $ aproximaci.

Za předpokladu, že máte na mysli $ H_0: \ rho = \ rho_0 \ not = 0 $, pak bude šikmost tohoto PDF záviset na navrhované hodnotě $ \ rho_0 $, takže by potom neexistovala žádná obecná odpověď na to, jak velké by $ n $ mělo být. Minimální hodnoty $ n $ by také závisely na hladině významnosti $ \ alpha $, na které pracujete. uveďte jeho hodnotu.

Nickův bod je spravedlivý: aproximace a doporučení vždy fungují v nějaké šedé oblasti.

Pokud tedy váš Fisher ap blízkost je dostatečně dobrá (= symetrická), použil bych vázané $ n \ geq (t _ {\ alpha / 2} s / \ epsilon) ^ 2 $ použitelné pro $ t $ -distribuce, kde $ s $ je ukázkový standard odchylka.Pokud je to dostatečně blízko normálnosti, stane se to $ n \ geq (1,96 s / \ epsilon) ^ 2 $.

Komentáře

  • myslím to zjednodušuje “ cíl “ Fishera ‚ s $ z $, který je částečně věc účelu i matematiky. Šikmost nebo ne je pouze částí obrázku; $ z $ transformuje omezenou distribuci na neomezenou, což je důležité pro intervaly spolehlivosti. Ve skutečnosti bych tvrdil, že pokud nulová hypotéza nulové korelace není také vědeckou otázkou, je použití Fisher ‚ s $ z $ pro intervaly spolehlivosti mnohem plodnější než snaha o získejte hodnotu P.
  • Omlouváme se, ale jsem nováčkem v Fisherovi ‚ s $ z $ -transformace. Měl bych ji použít pouze v případě, že chci otestovat $ H_0: \ rho = \ rho_0 \ neq 0 $? Důvodem pro výpočet P-hodnot je to, že chci použít metodu Holm-Bonferroni k řízení rodinné chybovosti při provádění více srovnání. Mám raději vypočítat P-hodnoty ze studentské ‚ s $ t $ distribuce?
  • Otázka je podle mě špatně. Fisher ‚ s $ z $ je lepší metoda pro intervaly spolehlivosti a obecně pro odvození. Většina softwaru, myslím, používá k testování $ \ rho = 0 $ na základě $ t $. Pokud máte pochybnosti, mohlo by být opravdu důležité ukázat, zda použití jedné metody má pro vaše data rozdíl. Pokud se tedy metody dohodnou, není problém.
  • Další informace o Fisherově ‚ s $ z $ transformaci naleznete zde: stata-journal.com/article.html?article=pr0041
  • Dobře, děkuji @NickCox! @Lucozade, co je $ \ epsilon $ ve vazbě na $ n $?

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *