Întrebarea mea are legătură cu relația dintre alfa și beta și definițiile lor din statistici.

alfa = rata de eroare de tip I = nivelul de semnificație având în vedere că ipoteza NULL este corectă

Beta = rata de eroare de tip II

Dacă alfa este redus (specificitatea crește ca alfa = 1- specificitate ), beta crește (sensibilitatea / puterea scade pe măsură ce beta = 1 – sensibilitatea / puterea)

Cum afectează beta o modificare a alfa? Există sau nu o relație liniară? Raportul alfa / beta este întotdeauna același, cu alte cuvinte, raportul specific / sensibilitate este întotdeauna același? Dacă da, înseamnă că, folosind o corecție a bonferronii, „trecem doar la sensibilitate mai mică și specificitate mai mare, dar nu schimbăm raportul sensibilitate / specificitate. Este corect să spunem așa?

Actualizare (întrebare specifică cazului):

Pentru un proiect experimental dat, rulăm 5 modele liniare pe date. Avem o rată adevărată pozitivă (sensibilitate / putere) la 0,8 și o rată adevărată negativă (specificitate) la 0,7. (Să ne imaginăm că știm ce ar trebui să fie pozitiv și ce nu.). Dacă acum corectăm nivelul de semnificație folosind Bonferroni la 0,05 / 5 = 0,01. Putem estima numeric Rata Pozitivă Adevărată rezultată (sensibilitate / putere) și Adevărat Rată negativă (specificitate)?

Mulțumesc mult pentru ajutor.

Răspuns

$ \ alpha $ și $ \ beta $ sunt înrudite. Voi încerca să ilustrez punctul cu un test de diagnosticare. Să spunem că aveți un test de diagnostic care măsoară nivelul unui marker de sânge. Se știe că persoanele care au o anumită boală au niveluri mai scăzute ale acestui marker în comparație cu persoanele sănătoase. Este imediat clar că trebuie să decideți o limită valoare, sub care o persoană este clasificată ca „bolnavă”, în timp ce persoanele cu valori peste această limită sunt considerate sănătoase. Totuși, este foarte probabil ca distribuția marcatorului de sânge să varieze considerabil chiar și în și oameni sănătoși. Unele persoane sănătoase ar putea avea un nivel foarte scăzut al markerului sanguin, chiar dacă sunt perfect sănătoși. Și unii bolnavi au niveluri ridicate ale markerului sanguin, chiar dacă au boala.

Există patru posibilități care pot apărea:

  1. o persoană bolnavă este identificată corect ca fiind bolnav (adevărat pozitiv = TP)
  2. o persoană bolnavă este clasificată fals ca fiind sănătoasă (fals negativ = FN)
  3. o persoană sănătoasă este identificată corect ca fiind sănătoasă (adevărat negativ = TN)
  4. o persoană sănătoasă este clasificată în mod fals ca bolnav (fals pozitiv = FP)

Aceste posibilități pot fi ilustrate cu un tabel 2×2 :

 Sick Healthy Test positive TP FP Test negative FN TN 

$ \ alpha $ denotă rata fals pozitivă, care este $ \ alpha = FP / (FP + TN) $. $ \ beta $ este rata fals negativă, care este $ \ beta = FN / (TP + FN) $. Am scris pur și simplu un script R pentru a ilustra grafic situația.

alphabeta <- function(mean.sick=100, sd.sick=10, mean.healthy=130, sd.healthy=10, cutoff=120, n=10000, side="below", do.plot=TRUE) { popsick <- rnorm(n, mean=mean.sick, sd=sd.sick) pophealthy <- rnorm(n, mean=mean.healthy, sd=sd.healthy) if ( side == "below" ) { truepos <- length(popsick[popsick <= cutoff]) falsepos <- length(pophealthy[pophealthy <= cutoff]) trueneg <- length(pophealthy[pophealthy > cutoff]) falseneg <- length(popsick[popsick > cutoff]) } else if ( side == "above" ) { truepos <- length(popsick[popsick >= cutoff]) falsepos <- length(pophealthy[pophealthy >= cutoff]) trueneg <- length(pophealthy[pophealthy < cutoff]) falseneg <- length(popsick[popsick < cutoff]) } twotable <- matrix(c(truepos, falsepos, falseneg, trueneg), 2, 2, byrow=T) rownames(twotable) <- c("Test positive", "Test negative") colnames(twotable) <- c("Sick", "Healthy") spec <- twotable[2,2]/(twotable[2,2] + twotable[1,2]) alpha <- 1 - spec sens <- pow <- twotable[1,1]/(twotable[1,1] + twotable[2,1]) beta <- 1 - sens pos.pred <- twotable[1,1]/(twotable[1,1] + twotable[1,2]) neg.pred <- twotable[2,2]/(twotable[2,2] + twotable[2,1]) if ( do.plot == TRUE ) { dsick <- density(popsick) dhealthy <- density(pophealthy) par(mar=c(5.5, 4, 0.5, 0.5)) plot(range(c(dsick$x, dhealthy$x)), range(c(c(dsick$y, dhealthy$y))), type = "n", xlab="", ylab="", axes=FALSE) box() axis(1, at=mean(pophealthy), lab=substitute(mu[H[0]]~paste("=",m, sep=""), list(m=mean.healthy)), cex.axis=1.5,tck=0.02) axis(1, at=mean(popsick), lab=substitute(mu[H[1]]~paste("=",m, sep=""), list(m=mean.sick)), cex.axis=1.5, tck=0.02) axis(1, at=cutoff, lab=substitute(italic(paste("Cutoff=",coff, sep="")), list(coff=cutoff)), pos=-0.004, tick=FALSE, cex.axis=1.25) lines(dhealthy, col = "steelblue", lwd=2) if ( side == "below" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x<=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x<=cutoff],0), col = "grey65") } else if ( side == "above" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x>=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x>=cutoff],0), col = "grey65") } lines(dsick, col = "red", lwd=2) if ( side == "below" ) { polygon(c(cutoff,dsick$x[dsick$x>cutoff],cutoff),c(0,dsick$y[dsick$x>cutoff],0) , col="grey90") } else if ( side == "above" ) { polygon(c(cutoff,dsick$x[dsick$x<=cutoff],cutoff),c(0,dsick$y[dsick$x<=cutoff],0) , col="grey90") } legend("topleft", legend=(c(as.expression(substitute(alpha~paste("=", a), list(a=round(alpha,3)))), as.expression(substitute(beta~paste("=", b), list(b=round(beta,3)))))), fill=c("grey65", "grey90"), cex=1.2, bty="n") abline(v=mean(popsick), lty=3) abline(v=mean(pophealthy), lty=3) abline(v=cutoff, lty=1, lwd=1.5) abline(h=0) } #list(specificity=spec, sensitivity=sens, alpha=alpha, beta=beta, power=pow, positiv.predictive=pos.pred, negative.predictive=neg.pred) c(alpha, beta) } 

Să vedem un exemplu. Presupunem că nivelul mediu al markerului sanguin în rândul persoanelor bolnave este de 100, cu o abatere standard de 10. În rândul persoanelor sănătoase, nivelul sanguin mediu este de 140, cu o abatere standard de 15. Clinicul stabilește limita la 120.

alphabeta(mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, cutoff=120, n=100000, do.plot=TRUE, side="below") Sick Healthy Test positive 9764 901 Test negative 236 9099 

Beta și alfa cu o limită de 120

Vedeți că umbrele zonele sunt în relație între ele. În acest caz, $ \ alpha = 901 / (901+ 9099) \ aproximativ 0,09 $ și $ \ beta = 236 / (236 + 9764) \ aproximativ 0,024 $. Dar ce se întâmplă dacă clinicianul a stabilit limita diferit? Să o setăm puțin mai jos, la 105 și să vedem ce se întâmplă.

 Sick Healthy Test positive 6909 90 Test negative 3091 9910 

Cutoff 105

$ \ alpha $ este foarte scăzut acum, deoarece aproape nici o persoană sănătoasă nu este diagnosticată ca fiind bolnavă. Dar $ \ beta $ a crescut, deoarece persoanele bolnave cu un nivel ridicat de marker sanguin sunt acum clasificate în mod fals ca fiind sănătoase.

În cele din urmă, să ne uităm cum se schimbă $ \ alpha $ și $ \ beta $ pentru diferite limite:

cutoffs <- seq(0, 200, by=0.1) cutoff.grid <- expand.grid(cutoffs) plot.frame <- apply(cutoff.grid, MARGIN=1, FUN=alphabeta, mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, n=100000, do.plot=FALSE, side="below") plot(plot.frame[1,]~cutoffs, type="l", las=1, xlab="Cutoff value", ylab="Alpha/Beta", lwd=2, cex.axis=1.5, cex.lab=1.2) lines(plot.frame[2,]~cutoffs, col="steelblue", lty=2, lwd=2) legend("topleft", legend=c(expression(alpha), expression(beta)), lwd=c(2,2),lty=c(1,2), col=c("black", "steelblue"), bty="n", cex=1.2) 

Grafic alfa și beta cu valori diferite de limitare

Tu poate vedea imediat că raportul $ \ alpha $ și $ \ beta $ nu este constant. Ceea ce este, de asemenea, foarte important este dimensiunea efectului. În acest caz, aceasta ar fi diferența dintre nivelurile markerului sanguin în rândul persoanelor bolnave și sănătoase. Cu cât diferența este mai mare, cu atât cele două grupuri pot fi mai ușor separate printr-o limită:

Limită perfectă

Aici avem un ” test „perfect în sensul că limita de 150 discriminează bolnavii de cei sănătoși.


Ajustări Bonferroni

Ajustările Bonferroni reduc eroarea $ \ alpha $, dar umflă eroarea de tip II ($ \ beta $) .Aceasta înseamnă că eroarea de a lua o decizie fals falsă este crescută în timp ce falsurile pozitive sunt minimizate. De aceea, ajustarea Bonferroni este adesea numită conservatoare. În graficele de mai sus, rețineți cum a crescut $ \ beta $ când am redus limita de la 120 la 105: a crescut de la 0,02 $ la 0,31 $ $. În același timp, $ \ alpha $ a scăzut de la 0,09 $ la 0,01 $.

Comentarii

  • @COOLSerdash Wow răspuns frumos! Mulțumesc. În exemplul dvs., alegerea nivel semnificativ se poate face pe distribuții cunoscute. În biologie, de exemplu, nu puteți cunoaște distribuția variabilei dvs. dependente dacă tratamentul are efect. Cu alte cuvinte, alegând un nivel de semnificație, alegeți Rata pozitivă falsă, dar aproape că nu aveți idee cum este setată rata falsă negativă. Deoarece nu aveți de fapt idee despre modul în care sunt stabilite ratele adevărate pozitive și negative. Este corect?
  • @ Remi.b Mulțumesc. Cred că aveți dreptate. De obicei, pur și simplu alegeți $ \ alpha $ ca nivel de semnificație sau efectuați un calcul al puterii înainte (făcând presupuneri despre dimensiunea efectului, $ \ alpha $ a putere nd ($ 1- \ beta $). Dar aveți ‘ dreptate: puteți controla $ \ alpha $ alegându-l, dar $ \ beta $ este adesea necunoscut. Această lucrare este un punct de plecare foarte bun despre valorile $ p $ și ce înseamnă cu adevărat nivelurile $ \ alpha $.

Răspuns

Pentru alții în viitor:

În estimarea dimensiunii eșantionului, Ztotalul se calculează prin adăugarea Z corespunzătoare alfa și Z corespunzător puterii (1-beta). Deci matematic, dacă dimensiunea eșantionului este menținută constantă, creșterea Z pentru alfa înseamnă că reduceți Z pentru putere cu aceeași cantitate, de exemplu, creșterea Zalpha de la 0,05 la 0,1 scade Zpower cu 0,05.

Diferența este Z pentru alfa este cu două cozi, în timp ce Z pentru beta este cu o coadă. Deci, în timp ce valoarea Z se modifică cu aceeași cantitate, dar probabilitatea% la care corespunde această valoare Z nu se modifică cu aceeași cantitate.

Exemplu:

5% alfa ( 95% încredere) cu 80% putere (20% beta) oferă aceeași dimensiune a eșantionului ca

20% alfa (80% încredere) cu 93,6% putere (6,4% beta), mai degrabă decât 95% putere pe care o avem ar avea dacă relația ar fi 1: 1.

Răspuns

Nu există nicio relație generală între alfa și beta.

Totul depinde de testul dvs., luați exemplul simplu:

(Wikipedia)

În tipul I de utilizare colocvială, eroarea poate fi considerată „condamnarea unei persoane nevinovate” și eroarea de tip II „lăsând liberă o persoană vinovată”.

Un juriu poate fi sever: nu există eroare de tip II, un juriu de tip IA poate fi „amabil”: nu există un tip I, dar un juriu de tip II A poate fi normal: unele tip I și altele II Un juriu poate fi perfect: fără eroare

În practică există două efecte antagoniste:

Când calitatea testului crește, t erorile tip I și tip II scad până la un moment dat. Când un juriu se îmbunătățește, el tinde să dea o judecată mai bună atât asupra persoanelor nevinovate, cât și asupra celor vinovați.

După un moment dat, problema de bază apare în construcția testului. Tipul I sau II sunt mai importante pentru cel care efectuează testul. Cu exemplul juriului, erorile de tip I sunt mai importante și deci procesul legii este construit pentru a evita tipul I. Dacă există vreo îndoială, persoana este liberă. Intuitiv, acest lucru duce la o creștere a erorii de tip II.

În ceea ce privește Bonferroni:

(Wikipedia din nou)

Corecția Bonferroni controlează doar probabilitatea falsului pozitiv. Corecția are în mod obișnuit costul creșterii probabilității de a produce negative negative și, în consecință, a reducerii puterii statistice. Când testați un număr mare de ipoteze, acest lucru poate duce la valori critice mari.

Comentarii

  • Vă mulțumim pentru răspunsul dvs., este util, dar totuși ceva nu este clar pentru mine. Mi-am actualizat postarea adăugând o întrebare nouă.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *