Moje pytanie dotyczy związku między wersjami alfa i beta oraz ich definicji w statystykach.

alfa = współczynnik błędów typu I = poziom istotności uwzględniany przy założeniu, że hipoteza NULL jest poprawna

Beta = współczynnik błędów typu II

Jeśli alfa jest obniżona (swoistość wzrasta, gdy alfa = 1-specyficzność ), wzrasta beta (czułość / moc spada, gdy beta = 1 – czułość / moc)

Jak zmiana alfa wpływa na beta? Czy istnieje zależność liniowa, czy nie? Czy stosunek alfa / beta jest zawsze taki sam, innymi słowy stosunek swoistość / czułość jest zawsze taki sam? Jeśli tak, oznacza to, że stosując korekcję bonferroni „po prostu przechodzimy do niższej czułości i wyższej specyficzności”, ale nie zmieniamy stosunku czułość / swoistość. Czy to prawda?

Aktualizacja (pytanie dotyczące konkretnego przypadku):

Dla danego projektu eksperymentu uruchamiamy 5 modeli liniowych na danych. Mamy wskaźnik prawdziwie pozytywnych wyników (czułość / moc) na poziomie 0,8 i prawdziwie ujemny wskaźnik (swoistość) na poziomie 0,7. (Wyobraźmy sobie, że wiemy, co powinno być dodatnie, a co nie.). Jeśli teraz poprawimy poziom istotności za pomocą metody Bonferroni na 0,05 / 5 = 0,01. Czy możemy oszacować liczbowo wynikowy wskaźnik prawdziwie dodatnich wyników (czułość / moc) i wartość True Stawka ujemna (szczegółowość)?

Wielkie dzięki za pomoc.

Odpowiedź

$ \ alpha $ i $ \ beta $ są powiązane. Spróbuję zilustrować ten punkt testem diagnostycznym. Powiedzmy, że masz test diagnostyczny, który mierzy poziom markera krwi. Wiadomo, że ludzie z pewną chorobą mają niższy poziom tego markera w porównaniu do osób zdrowych. Jest od razu jasne, że musisz zdecydować o wartości odcięcia wartość, poniżej której osoba jest klasyfikowana jako „chora”, podczas gdy osoby z wartościami powyżej tej wartości granicznej są uważane za zdrowych. Jest jednak bardzo prawdopodobne, że rozmieszczenie znacznika krwi różni się znacznie nawet wewnątrz chorych i zdrowych ludzi. Niektóre zdrowe osoby mogą mieć bardzo niski poziom markera krwi, mimo że są całkowicie zdrowe. A niektórzy chorzy mają wysoki poziom markera krwi, mimo że chorują.

Istnieją cztery możliwości, które mogą wystąpić:

  1. chory jest prawidłowo zidentyfikowany jako chory (prawdziwie dodatni = TP)
  2. chory jest fałszywie sklasyfikowany jako zdrowy (fałszywie ujemny = FN)
  3. zdrowa osoba jest prawidłowo identyfikowana jako zdrowa (prawdziwie ujemny = TN)
  4. zdrowa osoba jest fałszywie sklasyfikowana jako chora (fałszywie dodatnia = FP)

Te możliwości można zilustrować za pomocą tabeli 2×2 :

 Sick Healthy Test positive TP FP Test negative FN TN 

$ \ alpha $ oznacza współczynnik fałszywie dodatnich, który wynosi $ \ alpha = FP / (FP + TN) $. $ \ beta $ to stawka fałszywie ujemna, która wynosi $ \ beta = FN / (TP + FN) $. Napisałem prosty skrypt R, aby graficznie zilustrować sytuację.

alphabeta <- function(mean.sick=100, sd.sick=10, mean.healthy=130, sd.healthy=10, cutoff=120, n=10000, side="below", do.plot=TRUE) { popsick <- rnorm(n, mean=mean.sick, sd=sd.sick) pophealthy <- rnorm(n, mean=mean.healthy, sd=sd.healthy) if ( side == "below" ) { truepos <- length(popsick[popsick <= cutoff]) falsepos <- length(pophealthy[pophealthy <= cutoff]) trueneg <- length(pophealthy[pophealthy > cutoff]) falseneg <- length(popsick[popsick > cutoff]) } else if ( side == "above" ) { truepos <- length(popsick[popsick >= cutoff]) falsepos <- length(pophealthy[pophealthy >= cutoff]) trueneg <- length(pophealthy[pophealthy < cutoff]) falseneg <- length(popsick[popsick < cutoff]) } twotable <- matrix(c(truepos, falsepos, falseneg, trueneg), 2, 2, byrow=T) rownames(twotable) <- c("Test positive", "Test negative") colnames(twotable) <- c("Sick", "Healthy") spec <- twotable[2,2]/(twotable[2,2] + twotable[1,2]) alpha <- 1 - spec sens <- pow <- twotable[1,1]/(twotable[1,1] + twotable[2,1]) beta <- 1 - sens pos.pred <- twotable[1,1]/(twotable[1,1] + twotable[1,2]) neg.pred <- twotable[2,2]/(twotable[2,2] + twotable[2,1]) if ( do.plot == TRUE ) { dsick <- density(popsick) dhealthy <- density(pophealthy) par(mar=c(5.5, 4, 0.5, 0.5)) plot(range(c(dsick$x, dhealthy$x)), range(c(c(dsick$y, dhealthy$y))), type = "n", xlab="", ylab="", axes=FALSE) box() axis(1, at=mean(pophealthy), lab=substitute(mu[H[0]]~paste("=",m, sep=""), list(m=mean.healthy)), cex.axis=1.5,tck=0.02) axis(1, at=mean(popsick), lab=substitute(mu[H[1]]~paste("=",m, sep=""), list(m=mean.sick)), cex.axis=1.5, tck=0.02) axis(1, at=cutoff, lab=substitute(italic(paste("Cutoff=",coff, sep="")), list(coff=cutoff)), pos=-0.004, tick=FALSE, cex.axis=1.25) lines(dhealthy, col = "steelblue", lwd=2) if ( side == "below" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x<=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x<=cutoff],0), col = "grey65") } else if ( side == "above" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x>=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x>=cutoff],0), col = "grey65") } lines(dsick, col = "red", lwd=2) if ( side == "below" ) { polygon(c(cutoff,dsick$x[dsick$x>cutoff],cutoff),c(0,dsick$y[dsick$x>cutoff],0) , col="grey90") } else if ( side == "above" ) { polygon(c(cutoff,dsick$x[dsick$x<=cutoff],cutoff),c(0,dsick$y[dsick$x<=cutoff],0) , col="grey90") } legend("topleft", legend=(c(as.expression(substitute(alpha~paste("=", a), list(a=round(alpha,3)))), as.expression(substitute(beta~paste("=", b), list(b=round(beta,3)))))), fill=c("grey65", "grey90"), cex=1.2, bty="n") abline(v=mean(popsick), lty=3) abline(v=mean(pophealthy), lty=3) abline(v=cutoff, lty=1, lwd=1.5) abline(h=0) } #list(specificity=spec, sensitivity=sens, alpha=alpha, beta=beta, power=pow, positiv.predictive=pos.pred, negative.predictive=neg.pred) c(alpha, beta) } 

Spójrzmy na przykład. Zakładamy, że średni poziom markera krwi wśród chorych wynosi 100 przy odchyleniu standardowym 10. U osób zdrowych średni poziom we krwi wynosi 140 przy odchyleniu standardowym 15. Klinicysta ustala wartość graniczną na 120.

alphabeta(mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, cutoff=120, n=100000, do.plot=TRUE, side="below") Sick Healthy Test positive 9764 901 Test negative 236 9099 

Beta i alfa z odcięciem 120

Widzisz, że zacieniony obszary są ze sobą w relacji. W tym przypadku $ \ alpha = 901 / (901+ 9099) \ ok. 0,09 $ i $ \ beta = 236 / (236 + 9764) \ ok. 0,024 $. Ale co się stanie, jeśli lekarz ustawił wartość odcięcia inaczej? Ustawmy ją nieco niżej, na 105 i zobaczmy, co się stanie.

 Sick Healthy Test positive 6909 90 Test negative 3091 9910 

Odcięcie 105

Nasz $ \ alpha $ jest teraz bardzo niski, ponieważ prawie u żadnego zdrowego człowieka nie zdiagnozowano choroby. Ale nasz $ \ beta $ wzrósł, ponieważ chorzy ludzie z wysokim poziomem markera krwi są teraz fałszywie klasyfikowani jako zdrowi.

Na koniec przyjrzyjmy się, jak zmieniają się $ \ alpha $ i $ \ beta $ dla różnych wartości odcięcia:

cutoffs <- seq(0, 200, by=0.1) cutoff.grid <- expand.grid(cutoffs) plot.frame <- apply(cutoff.grid, MARGIN=1, FUN=alphabeta, mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, n=100000, do.plot=FALSE, side="below") plot(plot.frame[1,]~cutoffs, type="l", las=1, xlab="Cutoff value", ylab="Alpha/Beta", lwd=2, cex.axis=1.5, cex.lab=1.2) lines(plot.frame[2,]~cutoffs, col="steelblue", lty=2, lwd=2) legend("topleft", legend=c(expression(alpha), expression(beta)), lwd=c(2,2),lty=c(1,2), col=c("black", "steelblue"), bty="n", cex=1.2) 

Wykres alfa i beta z różnymi wartościami odcięcia

Ty od razu widzi, że stosunek $ \ alpha $ do $ \ beta $ nie jest stały. Bardzo ważna jest również wielkość efektu. W tym przypadku byłaby to różnica średnich poziomów markerów krwi wśród osób chorych i zdrowych. Im większa różnica, tym łatwiej dwie grupy można rozdzielić przecięciem:

Idealne odcięcie

Tutaj mamy „ doskonały „test w tym sensie, że wartość graniczna 150 odróżnia chorych od zdrowych.


Korekty Bonferroniego

Korekty Bonferroni zmniejszają błąd $ \ alpha $, ale zwiększają błąd typu II ($ \ beta $) .Oznacza to, że błąd przy podejmowaniu fałszywie negatywnej decyzji jest zwiększany, a fałszywe alarmy są minimalizowane. Dlatego korekta Bonferroniego jest często nazywana konserwatywną. Na powyższych wykresach zwróć uwagę, jak wzrósł $ \ beta $, gdy obniżyliśmy wartość odcięcia ze 120 do 105: z 0,02 $ do 0,31 $. W tym samym czasie $ Wartość \ alpha $ spadła z 0,09 $ do 0,01 $.

Komentarze

  • @COOLSerdash Wow dobra odpowiedź! Dziękuję. W Twoim przykładzie wybór znaczący poziom można przeprowadzić na znanych rozkładach. Na przykład w biologii nie można znać rozkładu zmiennej zależnej, jeśli leczenie ma skutek. Innymi słowy, wybierając poziom istotności, wybierasz współczynnik fałszywie dodatnich, ale prawie nie masz pojęcia jak ustalana jest stawka fałszywie ujemna. Ponieważ nie masz pojęcia, jak są ustalane stawki prawdziwie dodatnie i ujemne. Czy to prawda?
  • @ Remi.b Dziękuję. Myślę, że masz rację. Zwykle po prostu wybierz $ \ alpha $ jako poziom istotności lub wykonaj wcześniej obliczenie mocy (przyjmując założenia dotyczące wielkości efektu, $ \ alpha $ a i moc (1 $ \ beta $). Ale ' masz rację: możesz kontrolować $ \ alpha $, wybierając go, ale $ \ beta $ jest często nieznane. Ten artykuł jest bardzo dobrym punktem wyjścia na temat wartości $ p $ i tego, co naprawdę oznaczają poziomy $ \ alpha $.

Odpowiedź

Dla innych w przyszłości:

Przy szacowaniu wielkości próby suma Z jest obliczana przez dodanie Z odpowiadającego alfa a Z odpowiada mocy (1-beta). Więc matematycznie, jeśli wielkość próbki jest stała, zwiększenie Z dla alfa oznacza zmniejszenie Z dla potęgi o TĘ SAMĄ wartość, np. Zwiększenie Zalpha z 0,05 do 0,1 zmniejsza Zpower o 0,05.

Różnica to Z dla wersji alfa jest dwustronny, podczas gdy Z dla wersji beta jest jednostronny. Tak więc, podczas gdy wartość Z zmienia się o tę samą kwotę, ale prawdopodobieństwo%, że odpowiada ta wartość Z, nie zmienia się o tę samą kwotę.

Przykład:

5% alfa ( 95% ufności) z 80% mocą (20% beta) daje taki sam rozmiar próbki jak

20% alfa (80% pewność) z 93,6% mocą (6,4% beta) zamiast 95% mocy my miałby, gdyby relacja wynosiła 1: 1.

Odpowiedź

Nie ma ogólnej zależności między alfa i beta.

Wszystko zależy od twojego testu, weź prosty przykład:

(Wikipedia)

W potocznym typie I błąd można traktować jako „skazanie niewinnej osoby” i błąd typu II „wypuszczenie winnego na wolność”.

Ława przysięgłych może być poważna: brak błędu typu II, niektóre ławy przysięgłych typu IA mogą być „miłe”: nie ławy przysięgłych typu I, ale niektóre ławy przysięgłych typu II A może być normalne: niektóre jury typu I i niektóre typu II mogą być doskonałe: bez błędu

W praktyce występują dwa efekty antagonistyczne:

Kiedy jakość testu idzie w górę, t Błędy I i II typu zmniejszają się do pewnego momentu. Kiedy jury się poprawia, ma tendencję do lepszej oceny zarówno osób niewinnych, jak i winnych.

Po pewnym czasie podstawowy problem pojawia się podczas tworzenia testu. Typ I lub II są ważniejsze dla osoby przeprowadzającej test. W przypadku jury, błędy typu I są ważniejsze, więc proces prawny jest tworzony tak, aby uniknąć typu I. Jeśli istnieją jakiekolwiek wątpliwości, osoba jest wolna. Intuicyjnie prowadzi to do wzrostu błędu typu II.

Odnośnie Bonferroniego:

(znowu Wikipedia)

Poprawka Bonferroniego kontroluje tylko prawdopodobieństwo fałszywych trafień. Korekta zwykle odbywa się kosztem zwiększenia prawdopodobieństwa wytworzenia fałszywych wyników negatywnych, a w konsekwencji zmniejszenia mocy statystycznej. Podczas testowania dużej liczby hipotez może to skutkować dużymi wartościami krytycznymi.

Komentarze

  • Dziękuję za odpowiedź. To przydatne, ale wciąż coś nie jest dla mnie jasne. Zaktualizowałem swój post, dodając nowe pytanie.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *