Spørsmålet mitt har å gjøre med forholdet mellom alfa og beta og deres definisjoner i statistikk.

alpha = type I feilrate = signifikansnivå under vurdering av at NULL-hypotesen er riktig

Beta = type II feilrate

Hvis alfa senkes (spesifisitet øker som alfa = 1- spesifisitet ), beta øker (følsomhet / effekt avtar som beta = 1 – følsomhet / effekt)

Hvordan påvirker en endring i alfa beta? Er det et lineært forhold eller ikke? Er forholdet alfa / beta alltid det samme, med andre ord er forholdsspesifisiteten / følsomheten alltid den samme? Hvis ja, betyr det at ved å bruke en bonferroni-korreksjon skifter vi bare til lavere følsomhet og høyere spesifisitet, men vi endrer ikke sensitivitets / spesifisitetsforholdet. Er det riktig å si det?

Oppdatering (Saksspesifikt spørsmål):

For en gitt eksperimentell design kjører vi 5 lineære modeller på dataene. Vi har en sann positiv hastighet (sensitivitet / kraft) på 0,8 og en sann negativ hastighet (spesifisitet) på 0,7. (La oss forestille oss at vi vet hva som skal være positivt og hva som ikke bør.). Hvis vi nå korrigerer signifikansnivået ved å bruke Bonferroni til 0,05 / 5 = 0,01. Kan vi beregne den resulterende sanne positive frekvensen (følsomhet / kraft) og sant Negativ hastighet (spesifisitet)?

Tusen takk for hjelpen.

Svar

$ \ alpha $ og $ \ beta $ er relatert. Jeg prøver å illustrere poenget med en diagnostisk test. La oss si at du har en diagnostisk test som måler nivået av en blodmarkør. Det er kjent at personer som har en viss sykdom har lavere nivåer av denne markøren sammenlignet med friske mennesker. Det er umiddelbart klart at du må bestemme en avskjæring. verdi, under hvilken en person er klassifisert som «syk» mens mennesker med verdier over denne grenseverdien antas å være sunne. Det er imidlertid veldig sannsynlig at fordelingen av blodmarkøren varierer betydelig selv innen syke og friske mennesker. Noen friske personer kan ha svært lave blodmarkørnivåer, selv om de er helt sunne. Og noen syke mennesker har høye nivåer av blodmarkøren selv om de har sykdommen.

Det er fire muligheter som kan oppstå:

  1. en syk person er riktig identifisert som syk (virkelig positiv = TP)
  2. en syk person er falskt klassifisert som sunn (falsk negativ = FN)
  3. en sunn person er riktig identifisert som sunn (true negative = TN)
  4. en sunn person blir falskt klassifisert som syk (falsk positiv = FP)

Disse mulighetene kan illustreres med en 2×2 tabell :

 Sick Healthy Test positive TP FP Test negative FN TN 

$ \ alpha $ betegner den falske positive frekvensen, som er $ \ alpha = FP / (FP + TN) $. $ \ beta $ er den falske negative frekvensen, som er $ \ beta = FN / (TP + FN) $. Jeg skrev et ganske enkelt R skript for å illustrere situasjonen grafisk.

alphabeta <- function(mean.sick=100, sd.sick=10, mean.healthy=130, sd.healthy=10, cutoff=120, n=10000, side="below", do.plot=TRUE) { popsick <- rnorm(n, mean=mean.sick, sd=sd.sick) pophealthy <- rnorm(n, mean=mean.healthy, sd=sd.healthy) if ( side == "below" ) { truepos <- length(popsick[popsick <= cutoff]) falsepos <- length(pophealthy[pophealthy <= cutoff]) trueneg <- length(pophealthy[pophealthy > cutoff]) falseneg <- length(popsick[popsick > cutoff]) } else if ( side == "above" ) { truepos <- length(popsick[popsick >= cutoff]) falsepos <- length(pophealthy[pophealthy >= cutoff]) trueneg <- length(pophealthy[pophealthy < cutoff]) falseneg <- length(popsick[popsick < cutoff]) } twotable <- matrix(c(truepos, falsepos, falseneg, trueneg), 2, 2, byrow=T) rownames(twotable) <- c("Test positive", "Test negative") colnames(twotable) <- c("Sick", "Healthy") spec <- twotable[2,2]/(twotable[2,2] + twotable[1,2]) alpha <- 1 - spec sens <- pow <- twotable[1,1]/(twotable[1,1] + twotable[2,1]) beta <- 1 - sens pos.pred <- twotable[1,1]/(twotable[1,1] + twotable[1,2]) neg.pred <- twotable[2,2]/(twotable[2,2] + twotable[2,1]) if ( do.plot == TRUE ) { dsick <- density(popsick) dhealthy <- density(pophealthy) par(mar=c(5.5, 4, 0.5, 0.5)) plot(range(c(dsick$x, dhealthy$x)), range(c(c(dsick$y, dhealthy$y))), type = "n", xlab="", ylab="", axes=FALSE) box() axis(1, at=mean(pophealthy), lab=substitute(mu[H[0]]~paste("=",m, sep=""), list(m=mean.healthy)), cex.axis=1.5,tck=0.02) axis(1, at=mean(popsick), lab=substitute(mu[H[1]]~paste("=",m, sep=""), list(m=mean.sick)), cex.axis=1.5, tck=0.02) axis(1, at=cutoff, lab=substitute(italic(paste("Cutoff=",coff, sep="")), list(coff=cutoff)), pos=-0.004, tick=FALSE, cex.axis=1.25) lines(dhealthy, col = "steelblue", lwd=2) if ( side == "below" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x<=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x<=cutoff],0), col = "grey65") } else if ( side == "above" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x>=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x>=cutoff],0), col = "grey65") } lines(dsick, col = "red", lwd=2) if ( side == "below" ) { polygon(c(cutoff,dsick$x[dsick$x>cutoff],cutoff),c(0,dsick$y[dsick$x>cutoff],0) , col="grey90") } else if ( side == "above" ) { polygon(c(cutoff,dsick$x[dsick$x<=cutoff],cutoff),c(0,dsick$y[dsick$x<=cutoff],0) , col="grey90") } legend("topleft", legend=(c(as.expression(substitute(alpha~paste("=", a), list(a=round(alpha,3)))), as.expression(substitute(beta~paste("=", b), list(b=round(beta,3)))))), fill=c("grey65", "grey90"), cex=1.2, bty="n") abline(v=mean(popsick), lty=3) abline(v=mean(pophealthy), lty=3) abline(v=cutoff, lty=1, lwd=1.5) abline(h=0) } #list(specificity=spec, sensitivity=sens, alpha=alpha, beta=beta, power=pow, positiv.predictive=pos.pred, negative.predictive=neg.pred) c(alpha, beta) } 

La oss se på et eksempel. Vi antar at gjennomsnittsnivået for blodmarkøren blant de syke er 100 med et standardavvik på 10. Blant de friske menneskene er det gjennomsnittlige blodnivået 140 med et standardavvik på 15. Klinikeren setter grenseverdien til 120.

alphabeta(mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, cutoff=120, n=100000, do.plot=TRUE, side="below") Sick Healthy Test positive 9764 901 Test negative 236 9099 

Beta og alfa med en cutoff på 120

Du ser at den skyggelagte områdene er i et forhold til hverandre. I dette tilfellet $ \ alpha = 901 / (901+ 9099) \ ca 0,09 $ og $ \ beta = 236 / (236 + 9764) \ ca 0,024 $. Men hva skjer hvis hadde klinikeren satt avskjæringen annerledes? La oss sette den litt lavere, til 105 og se hva som skjer.

 Sick Healthy Test positive 6909 90 Test negative 3091 9910 

Cutoff 105

Våre $ \ alpha $ er veldig lave nå fordi nesten ingen friske mennesker blir diagnostisert som syke. Men vår $ \ beta $ har økt, fordi syke mennesker med høyt blodmarkørnivå nå er falskt klassifisert som sunne.

Til slutt, la oss se hvordan $ \ alpha $ og $ \ beta $ endres for forskjellige cutoffs:

cutoffs <- seq(0, 200, by=0.1) cutoff.grid <- expand.grid(cutoffs) plot.frame <- apply(cutoff.grid, MARGIN=1, FUN=alphabeta, mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, n=100000, do.plot=FALSE, side="below") plot(plot.frame[1,]~cutoffs, type="l", las=1, xlab="Cutoff value", ylab="Alpha/Beta", lwd=2, cex.axis=1.5, cex.lab=1.2) lines(plot.frame[2,]~cutoffs, col="steelblue", lty=2, lwd=2) legend("topleft", legend=c(expression(alpha), expression(beta)), lwd=c(2,2),lty=c(1,2), col=c("black", "steelblue"), bty="n", cex=1.2) 

Plott av alfa og beta med forskjellige cutoff-verdier

Du kan umiddelbart se at forholdet mellom $ \ alpha $ og $ \ beta $ ikke er konstant. Det som også er veldig viktig er effektstørrelsen. I dette tilfellet vil dette være forskjellen mellom blodmarkørnivåene blant syke og friske mennesker. Jo større forskjell, jo lettere kan de to gruppene skilles fra hverandre:

Perfekt avskjæring

Her har vi en » perfekt «test i den forstand at avskjæringen på 150 diskriminerer de syke fra de sunne.


Bonferroni-justeringer

Bonferroni-justeringer reduserer $ \ alpha $ -feilen, men blåser opp type II-feilen ($ \ beta $) .Dette betyr at feilen med å ta en falsk negativ beslutning økes mens falske positive minimeres. Derfor blir Bonferroni-justeringen ofte kalt konservativ. I grafene ovenfor, merk deg hvordan $ \ beta $ økte da vi senket cutoff fra 120 til 105: den økte fra $ 0,02 $ til $ 0,31 $. Samtidig $ \ alpha $ redusert fra $ 0,09 $ til $ 0,01 $.

Kommentarer

  • @COOLSerdash Wow fint svar! Takk. I eksempelet ditt valget av signifikant nivå kan gjøres på kjente distribusjoner. I biologi kan du for eksempel ikke vite fordelingen av din avhengige variabel hvis behandlingen har en effekt. Med andre ord, ved å velge et signifikansnivå, velger du False Positive Rate, men du har nesten ingen anelse hvordan den falske negative hastigheten er satt. Da du faktisk ikke har noen anelse om hvordan de sanne positive og negative prisene er satt. Er det riktig?
  • @ Remi.b Takk. Jeg tror du har rett. Vanligvis, du velger bare $ \ alpha $ som et signifikansnivå eller gjør en effektberegning før (ved å gjøre antakelser om effektstørrelsen, $ \ alpha $ a nd power ($ 1- \ beta $). Men du ' har rett: du kan kontrollere $ \ alpha $ ved å velge den, men $ \ beta $ er ofte ukjent. Denne artikkelen er et veldig godt utgangspunkt for $ p $ -verdier og hva $ \ alpha $ nivåer egentlig betyr.

Svar

For andre i fremtiden:

I estimering av prøvestørrelse beregnes Ztotalen ved å legge til Z som tilsvarer alfa og Z tilsvarer kraft (1-beta). Så matematisk, hvis prøvestørrelsen holdes konstant, vil økning av Z for alfa bety at du reduserer Z for effekt med Samme mengde, for eksempel ved å øke Zalpha fra 0,05 til 0,1, reduseres Zpower med 0,05. for alfa er to-halet mens Z for beta er 1-halet. Så mens Z-verdien endres med samme mengde, men sannsynligheten% som denne Z-verdien tilsvarer, endres ikke med samme mengde.

Eksempel:

5% alfa ( 95% konfidens) med 80% effekt (20% beta) gir samme utvalgsstørrelse som

20% alfa (80% konfidens) med 93,6% effekt (6,4% beta) i stedet for 95% effekt vi ville hatt om forholdet var 1: 1.

Svar

Det er ingen generell sammenheng mellom alfa og beta.

Alt avhenger av testen din, ta det enkle eksemplet:

(Wikipedia)

I daglig brukstype kan jeg tenke på feil som «å dømme en uskyldig person» og type II-feil «la en skyldig gå fri».

En jury kan være alvorlig: ingen type II-feil, noen type IA-juryer kan være «snille»: ingen type I men noen type II A-juryer kan være normalt: noen type I og noen type II En jury kan være perfekt: ingen feil

I praksis er det to antagonisteffekter:

Når kvaliteten på testen går opp, t ype I og type II feil reduseres til et tidspunkt. Når en jury forbedrer seg, har han en tendens til å gi bedre skjønn over både uskyldige og skyldige mennesker.

Etter et eller annet tidspunkt dukker det underliggende problemet opp i testens bygging. Type I eller II er viktigere for den som kjører testen. Med juryeksemplet er type I-feil viktigere, og lovprosessen er derfor bygd for å unngå type I. Hvis det er tvil, er personen fri. Intuitivt førte dette til en vekst i type II-feil.

Når det gjelder Bonferroni:

(Wikipedia igjen)

Bonferroni-korreksjon kontrollerer bare sannsynligheten for falske positive. Korreksjonen koster vanligvis kostnadene for å øke sannsynligheten for å produsere falske negativer, og dermed redusere statistisk kraft. Når du tester et stort antall hypoteser, kan dette resultere i store kritiske verdier.

Kommentarer

  • Takk for svaret ditt, Det er nyttig, men likevel noe er ikke klart for meg. Jeg oppdaterte innlegget mitt og la til et nytt spørsmål.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *