O que são Testes de Hipótese? - Bioestatística #9





Testes de hipótese servem para ajudar o pesquisador a tomar uma decisão, se deve aceitar, ou não, que existe uma diferença, ou correlação, nas populações de origem de suas amostras. Mas tem muita teoria por detrás disso, pode parecer confuso no início, mas me acompanhe.

O resultado de uma amostra é uma estimativa de qual seria o resultado da população. Quando queremos apenas conhecer esse valor, usamos um intervalo de confiança, ou margem de erro, que nos dá uma ideia da precisão dessa estimativa. Porém, quando fazemos comparações entre estimativas, seja entre duas amostras ou entre duas variáveis diferentes, a coisa fica mais complicada.

Mesmo que tenhamos duas amostras da mesma população, é razoável esperar que cada amostra tenha um resultado diferente, por causa da variação amostral. Então como ter certeza de que realmente existe uma diferença entre as populações, e que a diferença encontrada não é explicada apenas pela variação amostral?

Primeiro, certeza não teremos nunca, mas da mesma forma que o intervalo de confiança nos ajuda a determinar a precisão de uma estimativa, temos uma ferramenta que nos ajuda a decidir por aceitar ou não, que existe uma diferença entre os grupos. E essa ferramenta é justamente o teste de hipótese!

O teste de hipótese ajuda a não sermos tendenciosos no momento de aceitar ou não uma diferença ou correlação como reais. Funciona da seguinte forma:

Primeiro definimos duas hipóteses:
- Hipótese Nula (H0)
- Hipótese Alternativa (H1)

A H0 representa uma igualdade, ou ausência de correlação, entre as populações de origem das amostras (µ12).

A H1 representa uma diferença, ou correlação, entre as populações de origem das amostras (µ1≠µ2).

*A H1 também pode representar um grupo maior que outro (µ1> µ2), ou menor (µ12), e a H0 a ausência dessa relação (µ1≤µ2) ou (µ1≥µ2) respectivamente. Mas por enquanto vamos focar no básico, a H0 vai representar igualdade, e a H1 uma diferença.

Uma das duas deve ser verdadeira, então temos que tomar uma decisão. Podemos aceitar a H0, ou rejeitá-la, em favor da H1. A partir disso 4 situações podem ocorrer:

- Se a H0 for verdadeira:
(1) A aceitarmos (decisão correta)
(2) A rejeitamos (Erro Tipo I: rejeitar a H0 quando ela é verdadeira)

          - Se a H0 for falsa:
(3) A aceitamos (Erro Tipo II: aceitar a H0 quando ela é falsa)
(4) A rejeitamos (decisão correta)


Note que não sabemos se a H0 é verdadeira ou falsa, do contrário seria uma decisão muito fácil. Então agora é hora usar alguns truques matemáticos.

Se a H0 for verdadeira, quer dizer que as populações das duas amostras são iguais, estando sujeitas à mesma variação amostral. Usando um dos grupos como base, é possível calcular a probabilidade de obter um resultado em uma faixa igual ou mais extrema. É exatamente isso que o teste de hipótese faz, uma equação que calcula a probabilidade de um resultado igual ou mais extremo caso a H0 seja verdadeira.


(distribuição amostral, com as faixas de valores iguais ou mais extremos que o resultado marcadas em verde forte, e a área dentro da curva, que determina a probabilidade de um resultado nessa faixa, marcada em verde fraco)


O resultado dessa conta se chama valor de probabilidade (valor p), que representa a probabilidade de, caso a H0 seja verdadeira, um resultado igual ou mais extremo. Se essa probabilidade (valor p) for muito pequena, quer dizer que estamos diante de um resultado muito difícil de acontecer no caso de H0 ser verdadeira! Isso deve nos fazer pensar que existir uma diferença real entre as populações (H1 verdadeira) é uma explicação mais plausível, e nesse caso rejeitamos a H0 e aceitamos a H1.

Ou, se o valor p não for pequeno, ficamos mais seguros aceitando que a H0 ser verdadeira explica bem esse resultado, e a aceitamos.

Mas não pode ficar só no “achismo”, o critério de decisão deve ser objetivo. Então é preciso definir um limite entre aceitar ou rejeitar a H0, e isso é feito ainda no projeto da pesquisa, quando se estabelece o nível de significância (α). O nível de significância é o limite entre o que é considerado estatisticamente significante, ou não.

É costume se considerar significativo um valor p < 5% ou < 1%. Esses valores são usados porque... por motivo algum na verdade, são limites arbitrários, que comeram a ser usados a muito tempo (uma longa história sobre chá e poderes adivinhação, que vai ficar para outro dia), e acabaram virando moda.

Um erro muito comum é pensar que o valor p é “a probabilidade da H0 ser verdadeira”. Como dito logo acima, o valor p é a probabilidade de se obter um resultado igual ou mais extremo no caso da H0 ser verdadeira, mas a probabilidade de esse ser realmente o caso ou não é desconhecida!

Outros equívocos comuns são pensar que “o valor p determina a intensidade da diferença ou correlação” ou que “um valor p significativo indica que o fator avaliado no experimento causou essa diferença ou que a relação direta”.

Entenda, a interpretação do valor p tem sentido lógico, apenas verdadeiro ou falso. Apenas se aceita ou não que há uma diferença ou correlação, qualquer, causada por um fator qualquer. Além disso, o valor p é extremamente influenciado pelo tamanho amostral. Com uma amostra grande o suficiente, é possível encontrar um valor p significativo em qualquer comparação.

O que vai indicar a intensidade do efeito ou relação é a análise e comparação descritiva dos resultados, não o valor p. E determinar qual a causa do efeito observado é uma questão de controle de variáveis de confusão e interpretação das relações entre os grupos e as variáveis, novamente o valor p não tem nada a ver com isso.

Por fim, uma consideração muito importante. Quando o valor p está acima do nível de significância (maior que seus 5%), quer dizer apenas que os resultados não permitem descartar a H0 com segurança, o que não significa que ela seja verdadeira! Você opta por aceita-la por que o risco de cometer um erro tipo I ao rejeita-la foi muito grande, mas agora você pode estar cometendo um erro tipo II (aceitar a H0 quando ela é falsa), que não é controlado pelo nível de significância (α), mas sim pelo poder do teste (β). Como não é possível fazer um cálculo de probabilidade baseado na H1, então o teste de hipótese não serve para encontrar igualdades, apenas para encontrar diferenças!  Se lembre, dizer que não encontrou uma diferença ou correlação é diferente de dizer que não existe uma.


Por conta de todas essas ressalvas e problemas de interpretação envolvendo o uso dos testes de hipótese (e ainda tem vários pontos que não mencionei), muitos autores se colocam contra essa prática, pois são muitos problemas para se obter um resultado de valor lógico limitado, e que é baseado em um nível de significância arbitrário.

Isso ainda é debatido, mas é consenso que a análise nunca deve se limitar à interpretação do valor p.


Obrigado, e até mais.

Comentários