Amostras e Erro Amostral - Bioestatística #7
Sempre que se faz uma pesquisa científica é preciso definir a população que vai ser estudada. Porém, frequentemente não é possível ter acesso a todos os seus membros. Por isso, é muito comum o uso se amostras, que são um “pedaço” da população selecionado para representa-la.
Uma população é um grupo de indivíduos (pessoas, animais, ou objetos) que compartilham uma característica em comum. A “característica” que define a população pode ser algo simples (“moradores do bairro X”, “fumantes residentes na cidade Y”, “ratos da espécie Z”, ...), ou mais complexo, com vários critérios de inclusão e exclusão.
Pode ser inclusive um espaço geográfico (por exemplo, ao analisar a atmosfera de uma cidade ou o solo de uma fazenda). Mas também pode ter uma definição mais abstrata, como ao estudar os resultados de um dado, em que a população pode ser definida como “infinitas jogadas”. Perceba que o que importa é definir a população de acordo com o objetivo da pesquisa.
Na área da saúde, o mais comum é estudar um grupo de pessoas ou animais. Mas frequentemente não possível, ou prático, coletar dados de TODOS os seus membros. Pode ser que não se tenha recursos suficientes, seus indivíduos podem não cooperar, o acesso a eles pode ser difícil, ou a população pode ser simplesmente grande demais (imagine estudar todos os animais de uma determinada espécie do planeta... não da neh...). Nestes casos, o que se faz é escolher um subgrupo desta população para representa-la, e este subgrupo é o que chamamos de amostra.
O uso de amostras facilita bastante a pesquisa, pois se trabalha com uma quantidade menor de indivíduos enquanto economiza tempo e material. Porém é preciso ter atenção a um problema chamado erro amostral.
Todo resultado de uma amostra é apenas uma estimativa da população. O erro amostral é a diferença entre o valor real da população e o estimado pela amostra. Como não se conhece o valor real (do contrário não seria preciso todo esse trabalho), o tamanho do erro é desconhecido. Então para que a amostra seja uma boa representante de sua população, é preciso ter controle sobre o erro amostral.
Essa diferença existe porque nem todos os indivíduos da população fazem parte da amostra, então, como consequência, os valores são diferentes. Existem inúmeras possíveis combinações que podem compor a amostra de uma mesma população, e cada uma vai apresentar um resultado diferente, porque são formadas por indivíduos diferentes.
Exemplo:
População: <3 – 7 – 4 – 2 – 6 – 5 – 4 – 8 – 5 – 7> (média = 5,10)
amostra 1: <3 4 6 5> (média = 4,50)
amostra 2: <7 4 2 8> (média = 5,25)
amostra 3: <5 4 8 7> (média = 6,00)
amostra 4: <3 2 4 8> (média = 4,25)
...
A variação desses possíveis resultados forma a distribuição amostral, que pode ser representada por uma curva de probabilidades. Pode ser da sua média ou frequência, e tem como centro o seu valor real na população.
Mas cuidado para não se confundir. Não estou falando da distribuição de uma variável quantitativa, que é a frequência de cada faixa de valores, e que pode ser representada por uma curva de frequências.
Estou falando das possíveis médias ou frequências que podem ser obtidas por diferentes amostras dessa população, e a probabilidade de se retirar uma amostra aleatória em diversas faixas. Isso é a distribuição amostral, que pode ser ilustrada em uma curva de probabilidades.
E, segundo o teorema do limite central, a distribuição amostral sempre segue uma distribuição normal, independente da distribuição da variável na população de origem (para isso a amostra só precisa não ser muito pequena, em geral um tamanho maior do que vinte já serve).
Mas qual é a importância disso? Veja, conhecendo a distribuição do erro, é possível calcular a probabilidade de obter um resultado em qualquer faixa. Então pode se estabelecer um intervalo de confiança (IC) e determinar a precisão da estimativa. Apesar de não se conhecer o tamanho exato do erro, é possível estima-lo.
Na realidade, como não se conhece a população, também não se conhece sua distribuição amostral. Então o que se faz é usar a amostra para estimar sua própria precisão.
O IC é uma faixa ao redor da estimativa em que es espera que o valor real esteja, geralmente com uma probabilidade de 95%. Uma estimativa precisa deve ter um IC pequeno, e o tamanho do intervalo pode ser controlado pelo tamanho da amostra. Quanto maior a amostra, menor o IC.
Uma amostra muito pequena vai ter um IC muito grande, enquanto que uma amostra muito grande, apesar de ser precisa, vai acabar gerando os mesmos problemas de se estudar a população inteira. A amostra precisa ter um tamanho adequado, que diminua os custos da pesquisa e garanta a precisão necessária.
Porém, tudo isso só é válido partindo do pressuposto de que a amostra foi selecionada de forma aleatória. O que nem sempre é feito, e nem sempre é possível. Quando a seleção não é aleatória, o erro se torna sistemático, sendo vulnerável a tendenciosidades e vieses, e todo o trabalho pode perder o significado. Para garantir que a amostra seja representativa, é preciso, também, encontrar o melhor método de seleção para o estudo.
O cálculo do tamanho amostral e os métodos de seleção fazem parte do processo chamado de amostragem.
Mas isso vai ficar para a próxima.
Obrigado, e até mais!
Comentários
Postar um comentário