Estatísticas: relação entre alfa e beta

Minha pergunta tem a ver com a relação entre alfa e beta e suas definições nas estatísticas.

alfa = taxa de erro tipo I = nível de significância sob consideração de que a hipótese NULL está correta

Beta = taxa de erro tipo II

Se alfa for reduzido (a especificidade aumenta conforme alfa = 1- especificidade ), o beta aumenta (a sensibilidade / potência diminui conforme beta = 1 – sensibilidade / potência)

Como uma mudança no alfa afeta o beta? Existe uma relação linear ou não? A razão alfa / beta é sempre a mesma, em outras palavras, a razão especificidade / sensibilidade é sempre a mesma? Se sim, isso significa que, ao usar uma correção de bonferroni, estamos apenas mudando para menor sensibilidade e maior especificidade, mas não estamos mudando a razão de sensibilidade / especificidade. É correto dizer isso?

Atualização (questão específica do caso):

Para um determinado projeto experimental, executamos 5 modelos lineares nos dados. Temos uma taxa positiva verdadeira (sensibilidade / potência) de 0,8 e uma taxa verdadeira negativa (especificidade) de 0,7. (Vamos imaginar que sabemos o que deve ser positivo e o que não deve.). Se agora corrigirmos o nível de significância usando Bonferroni para 0,05 / 5 = 0,01. Podemos estimar numericamente a Taxa Positiva Verdadeira (sensibilidade / potência) e a Verdadeira Taxa negativa (especificidade)?

Muito obrigado pela sua ajuda.

Resposta

$ \ alpha $ e $ \ beta $ estão relacionados. Tentarei ilustrar esse ponto com um teste de diagnóstico. Digamos que você tenha um teste diagnóstico que mede o nível de um marcador sanguíneo. Sabe-se que pessoas com uma determinada doença têm níveis mais baixos desse marcador em comparação com pessoas saudáveis. É imediatamente claro que você deve decidir um ponto de corte valor, abaixo do qual uma pessoa é classificada como “doente”, enquanto pessoas com valores acima desse ponto de corte são consideradas saudáveis. No entanto, é muito provável que a distribuição do marcador sanguíneo varie consideravelmente, mesmo em doentes e pessoas saudáveis. Algumas pessoas saudáveis podem ter níveis de marcadores sanguíneos muito baixos, embora sejam perfeitamente saudáveis. E algumas pessoas doentes têm níveis elevados de marcadores sanguíneos, embora tenham a doença.

Existem quatro possibilidades que podem ocorrer:

uma pessoa doente é corretamente identificada como doente (verdadeiro positivo = TP)
uma pessoa doente é falsamente classificada como saudável (falso negativo = FN)
uma pessoa saudável é identificada corretamente como saudável (verdadeiro negativo = TN)
uma pessoa saudável é falsamente classificada como doente (falso positivo = FP)

Essas possibilidades podem ser ilustradas com uma tabela 2×2 :

 Sick Healthy Test positive TP FP Test negative FN TN

$ \ alpha $ denota a taxa de falsos positivos, que é $ \ alpha = FP / (FP + TN) $. $ \ beta $ é a taxa de falsos negativos, que é $ \ beta = FN / (TP + FN) $. Eu escrevi um script R simplesmente para ilustrar a situação graficamente.

alphabeta <- function(mean.sick=100, sd.sick=10, mean.healthy=130, sd.healthy=10, cutoff=120, n=10000, side="below", do.plot=TRUE) { popsick <- rnorm(n, mean=mean.sick, sd=sd.sick) pophealthy <- rnorm(n, mean=mean.healthy, sd=sd.healthy) if ( side == "below" ) { truepos <- length(popsick[popsick <= cutoff]) falsepos <- length(pophealthy[pophealthy <= cutoff]) trueneg <- length(pophealthy[pophealthy > cutoff]) falseneg <- length(popsick[popsick > cutoff]) } else if ( side == "above" ) { truepos <- length(popsick[popsick >= cutoff]) falsepos <- length(pophealthy[pophealthy >= cutoff]) trueneg <- length(pophealthy[pophealthy < cutoff]) falseneg <- length(popsick[popsick < cutoff]) } twotable <- matrix(c(truepos, falsepos, falseneg, trueneg), 2, 2, byrow=T) rownames(twotable) <- c("Test positive", "Test negative") colnames(twotable) <- c("Sick", "Healthy") spec <- twotable[2,2]/(twotable[2,2] + twotable[1,2]) alpha <- 1 - spec sens <- pow <- twotable[1,1]/(twotable[1,1] + twotable[2,1]) beta <- 1 - sens pos.pred <- twotable[1,1]/(twotable[1,1] + twotable[1,2]) neg.pred <- twotable[2,2]/(twotable[2,2] + twotable[2,1]) if ( do.plot == TRUE ) { dsick <- density(popsick) dhealthy <- density(pophealthy) par(mar=c(5.5, 4, 0.5, 0.5)) plot(range(c(dsick$x, dhealthy$x)), range(c(c(dsick$y, dhealthy$y))), type = "n", xlab="", ylab="", axes=FALSE) box() axis(1, at=mean(pophealthy), lab=substitute(mu[H[0]]~paste("=",m, sep=""), list(m=mean.healthy)), cex.axis=1.5,tck=0.02) axis(1, at=mean(popsick), lab=substitute(mu[H[1]]~paste("=",m, sep=""), list(m=mean.sick)), cex.axis=1.5, tck=0.02) axis(1, at=cutoff, lab=substitute(italic(paste("Cutoff=",coff, sep="")), list(coff=cutoff)), pos=-0.004, tick=FALSE, cex.axis=1.25) lines(dhealthy, col = "steelblue", lwd=2) if ( side == "below" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x<=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x<=cutoff],0), col = "grey65") } else if ( side == "above" ) { polygon(c(cutoff, dhealthy$x[dhealthy$x>=cutoff], cutoff), c(0, dhealthy$y[dhealthy$x>=cutoff],0), col = "grey65") } lines(dsick, col = "red", lwd=2) if ( side == "below" ) { polygon(c(cutoff,dsick$x[dsick$x>cutoff],cutoff),c(0,dsick$y[dsick$x>cutoff],0) , col="grey90") } else if ( side == "above" ) { polygon(c(cutoff,dsick$x[dsick$x<=cutoff],cutoff),c(0,dsick$y[dsick$x<=cutoff],0) , col="grey90") } legend("topleft", legend=(c(as.expression(substitute(alpha~paste("=", a), list(a=round(alpha,3)))), as.expression(substitute(beta~paste("=", b), list(b=round(beta,3)))))), fill=c("grey65", "grey90"), cex=1.2, bty="n") abline(v=mean(popsick), lty=3) abline(v=mean(pophealthy), lty=3) abline(v=cutoff, lty=1, lwd=1.5) abline(h=0) } #list(specificity=spec, sensitivity=sens, alpha=alpha, beta=beta, power=pow, positiv.predictive=pos.pred, negative.predictive=neg.pred) c(alpha, beta) }

Vejamos um exemplo. Presumimos que o nível médio do marcador sanguíneo entre as pessoas doentes seja 100 com um desvio padrão de 10. Entre as pessoas saudáveis, o nível sanguíneo médio é 140 com um desvio padrão de 15. O médico define o ponto de corte em 120.

alphabeta(mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, cutoff=120, n=100000, do.plot=TRUE, side="below") Sick Healthy Test positive 9764 901 Test negative 236 9099

Beta e alfa com um corte de 120

Você vê que o sombreado áreas estão em relação umas com as outras. Neste caso, $ \ alpha = 901 / (901+ 9099) \ aproximadamente 0,09 $ e $ \ beta = 236 / (236 + 9764) \ aproximadamente 0,024 $. Mas o que acontece se o clínico definiu o corte de forma diferente? Vamos defini-lo um pouco mais baixo, para 105 e ver o que acontece.

 Sick Healthy Test positive 6909 90 Test negative 3091 9910

Corte 105

Nosso $ \ alpha $ está muito baixo agora porque quase nenhuma pessoa saudável é diagnosticada como doente. Mas nosso $ \ beta $ aumentou, porque pessoas doentes com um nível alto de marcadores sanguíneos agora são falsamente classificadas como saudáveis.

Finalmente, vejamos como $ \ alpha $ e $ \ beta $ mudam para diferentes cortes:

cutoffs <- seq(0, 200, by=0.1) cutoff.grid <- expand.grid(cutoffs) plot.frame <- apply(cutoff.grid, MARGIN=1, FUN=alphabeta, mean.sick=100, sd.sick=10, mean.healthy=140, sd.healthy=15, n=100000, do.plot=FALSE, side="below") plot(plot.frame[1,]~cutoffs, type="l", las=1, xlab="Cutoff value", ylab="Alpha/Beta", lwd=2, cex.axis=1.5, cex.lab=1.2) lines(plot.frame[2,]~cutoffs, col="steelblue", lty=2, lwd=2) legend("topleft", legend=c(expression(alpha), expression(beta)), lwd=c(2,2),lty=c(1,2), col=c("black", "steelblue"), bty="n", cex=1.2)

Gráfico de alfa e beta com diferentes valores de corte

Você pode ver imediatamente que a proporção de $ \ alpha $ e $ \ beta $ não é constante. O que também é muito importante é o tamanho do efeito. Nesse caso, essa seria a diferença das médias dos níveis dos marcadores sanguíneos entre pessoas saudáveis e doentes. Quanto maior a diferença, mais facilmente os dois grupos podem ser separados por um corte:

Corte perfeito

Aqui temos um ” teste perfeito “no sentido de que o ponto de corte de 150 discrimina doentes de saudáveis.

Ajustes de Bonferroni

Os ajustes de Bonferroni reduzem o erro $ \ alpha $, mas aumentam o erro do tipo II ($ \ beta $) .Isso significa que o erro de tomar uma decisão falsa negativa aumenta, enquanto os falsos positivos são minimizados. É por isso que o ajuste de Bonferroni costuma ser chamado de conservador. Nos gráficos acima, observe como $ \ beta $ aumentou quando reduzimos o corte de 120 para 105: aumentou de $ 0,02 $ para $ 0,31 $. Ao mesmo tempo, $ \ alpha $ diminuiu de $ 0,09 $ para $ 0,01 $.

Comentários

@COOLSerdash Uau, boa resposta! Obrigado. No seu exemplo, a escolha do nível significativo pode ser feito em distribuições conhecidas. Em biologia, por exemplo, você não pode saber a distribuição de sua variável dependente se o tratamento tiver um efeito. Em outras palavras, ao escolher um nível de significância, você escolhe a Taxa de Falso Positivo, mas quase não tem ideia como a taxa de falso negativo é definida. Como você realmente não tem ideia de como as taxas de verdadeiro positivo e negativo são definidas. Correto?
@ Remi.b Obrigado. Acho que você está certo. Normalmente, você apenas escolhe $ \ alpha $ como um nível de significância ou faz um cálculo de poder antes (fazendo suposições sobre o tamanho do efeito, $ \ alpha $ a nd potência ($ 1- \ beta $). Mas você ' está certo: você pode controlar $ \ alpha $ escolhendo-o, mas $ \ beta $ geralmente é desconhecido. Este artigo é um bom ponto de partida sobre os valores de $ p $ e o que os níveis de $ \ alpha $ realmente significam.

Resposta

Para outros no futuro:

Na estimativa do tamanho da amostra, o Ztotal é calculado adicionando o Z correspondente a alfa e Z correspondendo à potência (1-beta). Então, matematicamente, se o tamanho da amostra for mantido constante, aumentar Z para alfa significa que você diminui Z para potência na MESMA quantidade, por exemplo, aumentar Zalfa de 0,05 para 0,1 diminui Z para potência em 0,05.

A diferença é o Z para alfa é bicaudal, enquanto o Z para beta é 1-cauda. Portanto, embora o valor Z mude na mesma quantidade, mas a probabilidade% a que esse valor Z corresponde não muda na mesma quantidade.

Exemplo:

5% alfa ( 95% de confiança) com 80% de poder (20% beta) dá o mesmo tamanho de amostra que

20% alfa (80% de confiança) com 93,6% de poder (6,4% beta) em vez do poder de 95% teria se a relação fosse 1: 1.

Resposta

Não há uma relação geral entre alfa e beta.

Tudo depende do seu teste, pegue o exemplo simples:

(Wikipedia)

No uso coloquial, o erro do tipo I pode ser considerado como “condenar uma pessoa inocente” e erro do tipo II “deixando uma pessoa culpada ir em liberdade”.

Um júri pode ser severo: nenhum erro do tipo II, algum júri do tipo IA pode ser “gentil”: nenhum tipo I, mas algum júri do tipo II A pode ser normal: algum tipo I e algum tipo II. Um júri pode ser perfeito: sem erro

Na prática, há dois efeitos antagônicos:

Quando a qualidade do teste aumenta, t os erros de tipo I e tipo II diminuem até certo ponto. Quando um júri melhora, ele tende a julgar melhor tanto os inocentes quanto os culpados.

Depois de algum ponto, o problema subjacente aparece na construção do teste. Os tipos I ou II são mais importantes para quem faz o teste. Com o exemplo do júri, os erros do tipo I são mais importantes e assim o processo judicial é elaborado para evitar o tipo I. Se houver alguma dúvida a pessoa está livre. Intuitivamente, isso leva a um aumento no erro tipo II.

Com relação a Bonferroni:

(Wikipedia novamente)

A correção de Bonferroni controla apenas a probabilidade de falsos positivos. A correção normalmente ocorre ao custo de aumentar a probabilidade de produzir falsos negativos e, conseqüentemente, reduzir o poder estatístico. Ao testar um grande número de hipóteses, isso pode resultar em grandes valores críticos.

Comentários

Obrigado por sua resposta, é útil, mas ainda é algo não está claro para mim. Eu atualizei minha postagem adicionando uma nova pergunta.

Resposta

Comentários

Resposta

Resposta

Comentários

Deixe uma resposta Cancelar resposta