Amostragem: Seleção e Cálculo Amostral - Bioestatística #8
O resultado de uma amostra é uma
estimativa dessa característica na população. Para que essas estimativas sejam
confiáveis, e a amostra seja uma boa representante de sua população, é preciso
ter controle sobre os parâmetros que influenciam no erro amostral.
A amostragem é o processo de se obter uma amostra, e para garantir
sua representatividade, deve envolver a definição do seu tamanho e a forma
de seleção adequadas.
O tamanho amostral controla a
variação aleatória, o que determina a precisão da estimativa. Porém a precisão
estimada só é válida caso a seleção não seja tendenciosa, o que só pode ser
garantido com um método aleatório.
Não existe um tamanho exato e
certo para qualquer amostra, e também não existe forma de seleção que seja
perfeita para qualquer situação. Tudo isso vai depender da natureza da sua
pesquisa e como você pretende analisar os resultados.
CÁLCULO AMOSTRAL:
Uma amostra muito grande vai ter
muita precisão, mas vai apresentar os mesmos problemas de se estudar a
população inteira (e é por causa desses problemas que se usa a amostra). Mas
uma amostra muito pequena, apesar de dar menos trabalho e gastar menos
recursos, é pouco confiável.
É preciso encontrar um tamanho
que facilite a pesquisa e que lhe dê tanta precisão quanto necessária. E para
isso é feito um cálculo que envolve diversos parâmetros que influenciam em sua
precisão. Você pode tentar fazer as contas à mão, mas eu recomendo usar alguma
calculadora amostral. Se não conhecer nenhuma, seguem alguns links:
Porém, usando uma calculadora é
preciso entender os parâmetros que vão ser necessários para a conta. Então vou
tentar explicar alguns deles aqui:
- Frequência ou Desvio Padrão estimados:
Se a
variável for qualitativa, a precisão vai depender de sua frequência.
Quanto mais próxima de 50%, maior será a variação amostral, necessitando uma
amostra maior para garantir a precisão.
Obviamente a
frequência na população não é conhecida, pois é para isso que estamos tendo
todo esse trabalho. O que se faz é estimar um valor próximo do esperado para
fazer a conta. Para isso você pode se basear na literatura ou estudar uma
amostra piloto. Se não tiver a menor ideia, o recomendado é usar 50% para a
conta, pois vai gerar a maior amostra possível, que é mais confiável.
Se a
variável for quantitativa, a regra é a mesma, só que agora a variação vai
depender do seu desvio padrão. Mas vai seguir a mesma história, você tem
que estimar um valor para usar na conta.
- Erro máximo desejado:
Qual é a
precisão que você deseja? Qual o erro máximo que você aceita?
Pode ser que
para responder à questão de sua pesquisa você não precise de um resultado
extremamente preciso. Pense em qual seria a margem máxima do intervalo de
confiança que você aceitaria no resultado.
- Nível de significância:
O nível de
significância é a probabilidade estimada do valor real estar fora da margem
do erro máximo que foi escolhida. Um número muito usado aqui é 5%.
- Número de grupos / amostras:
Se desejar
apenas descrever um grupo, ou compara-lo a um valor fixo, então irá precisar de
apenas uma amostra.
Mas caso o
objetivo seja comparar dois grupos, então serão necessárias duas
amostras. Isso quer dizer que os resultados vão estar sujeitos a dois erros
amostrais, e, para compensar, o tamanho da amostra deve ser maior.
Neste caso o erro
máximo desejado é substituído pela diferença
a ser detectada, que é exatamente o que diz, o tamanho da diferença que
você quer que as amostras sejam capazes de encontrar.
Para ser capaz
de encontrar diferenças pequenas é preciso uma amostra maior, mais precisa, e
vice-versa. Para evitar detectar diferenças irrelevantes, escolha um valor
que tenha importância para o que você está avaliando.
- Ao usar testes de hipótese:
É muito comum
o uso de testes de hipótese quando se usa amostras para fazer comparações, para
se ter uma avaliação mais objetiva. Explicando de forma simplificada, testes
de hipótese estatística são usados para verificar se a diferença ou
correlação observados nas amostras realmente existem entre suas populações de
origem.
O nível de significância nesse
caso passa a ter outro sentido, que é a probabilidade de se cometer o chamado erro
tipo I: “encontrar uma diferença ou correlação que na realidade não existe”
O poder desejado para o teste, é probabilidade
de detectar uma diferença ou correlação quando realmente existir uma. Geralmente
se usa valores por volta de 70 a 90%.
Esses testes trabalham com as probabilidades das distribuições do erro,
que podem ser desenhadas em um gráfico como curvas. O teste pode buscar uma diferença
ou correlação quaisquer entre os grupos, usando os intervalos das duas
extremidades da curva, que são chamadas de caudas. E por isso esse tipo de
análise é chamada de bicaudal.
Ou, pode buscar apenas se um grupo é maior ou se é menor que o outro, e
ser chamado de monocaudal.
Testes
monocaudais precisam de uma amostra menor para detectar uma mesma diferença ou
correlação. Mas o preço disso é que o significado da sua resposta é ainda mais
limitado. Ao invés de encontrar qualquer diferença, ele diz apenas se um grupo
é maior, ou então se é menor que o outro.
A depender do caso, outros
parâmetros podem ser necessários, como o tamanho da população, ou a proporção
entre os grupos, por exemplo. Mas o raciocínio é basicamente o mesmo, controlar
a variação do erro para obter a precisão desejada.
E para finalizar essa parte, note
uma coisa. Tudo isso leva em consideração apenas uma única variável e
comparação. Quer dizer que essa amostra vai ser adequada para analisar esta
variável, e não necessariamente as outras. Então escolha bem qual a variável
que vai usar, se concentre no foco da pesquisa.
MÉTODOS DE SELEÇÃO
O ideal seria que todas as
amostras fossem aleatórias, mas isso nem sempre é possível. A
seleção é dita aleatória quando todos os membros da população têm a mesma
probabilidade de serem escolhidos. E para fazer isso é preciso ter uma lista de
todos os membros desse grupo.
Agora imagine um trabalho sobre
as condições de saúde de moradores de rua, ou de usuários de drogas injetáveis.
Dificilmente vai existir uma lista com todos os membros dessas populações.
Muitos vão inclusive ser indigentes e outros não vão querer se revelar para
você. Mas ainda assim, é importante planejar bem o método de seleção,
principalmente porque pode facilitar o trabalho e ajudar a encontrar membros
para compor sua amostra.
- Seleção aleatória simples:
Com uma lista
de todo o grupo, pode se usar programas de computador ou mesmo dados
simples para selecionar quem entra ou não, e isso garante cada indivíduo tem
igual probabilidade de ser selecionado. Esse tipo de seleção é muito
simples efetivo para minimizar vieses.
Um erro
comum é se basear em fatores que podem parecer aleatórios, mas não são,
como datas de internamento, dia de nascimento, hora do atendimento, número do
prontuário, tabelas com valores aleatórios pré-definidos. De uma forma geral,
se o número que vai decidir quem entra na amostra, ou a que grupo o sujeito vai
pertencer, já existia antes do ato da seleção, então ela não é aleatória.
- Seleção sistemática:
A amostra
sistemática envolve usar algum método organizado que facilite a seleção. Como
colocar todos os indivíduos em ordem e escolher um intervalo regular, cabendo
randomizar apenas o primeiro elemento.
Por exemplo,
você pode sortear apenas uma das 3 primeiras casas de uma rua, e incluir todas
as casas que caem em um intervalo de 3 em 3 iniciando pela sorteada.
Esse tipo de
seleção facilita bastante o trabalho, mas pode ser vulnerável tendenciosidades
por características que variam periodicamente no sistema.
- Seleção estratificada:
Se a
população for notadamente dividida em diferentes classes ou categorias, é
interessante que a proporção entre esses estratos se mantenha na amostra.
Para isso são
feitas amostragens separadas para cada estrato, o que vai acabar
precisando de mais indivíduos, vai dar mais trabalho e vai aumentar os custos
da pesquisa. Mas se isso for possível é muito bom, pois garante uma melhor
representatividade e pode inclusive permitir que posteriormente se faça alguma
comparação entre esses subgrupos.
- Seleção por agrupamentos:
Uma forma
bastante custo-efetiva é não selecionar indivíduo por indivíduo, mas sim por
agrupamentos. Um exemplo comum é, ao invés de usar uma lista de cada habitante
da cidade, selecionar por ruas, e incluir todos os moradores das ruas
selecionadas.
Isso deixa
os membros da amostra mais próximos uns dos outros e facilita o deslocamento
entre eles. Mas a depender do caso, cada agrupamento, ou rua, pode ter
características distintas, o que pode facilitar um resultado tendencioso.
- Seleção por conveniência:
É
provavelmente o tipo de seleção mais usada, porque é muito simples e fácil. Trata-se
de buscar os membros da população que estão próximos do pesquisador.
Você pode ir
até um local público e com boa movimentação para convidar quem está a seu
alcance. Ou ainda, pode divulgar o questionário em redes sociais pela internet.
Obviamente
esse tipo de seleção não tem como ser aleatória, pois as únicas pessoas com
alguma chance de entrar na amostra são as que estiverem no mesmo local que o
pesquisador e no mesmo período de tempo.
Então é
impossível garantir que esse tipo de amostra vai representar bem a população,
por isso esse método é mais adequado para estudos piloto. Mas em algumas
situações essa pode ser a única forma disponível, então vale a pena considerar
se a questão da sua pesquisa poderia ser respondida com um nível de evidência
menor.
Além disso, é
sempre interessante discutir na publicação os motivos pelos quais as pessoas
nesse local poderiam ser diferentes do resto, em relação à variável estudada.
- Seleção por bola de neve:
Esse tipo de
seleção também não é nada aleatório, mas é particularmente útil para
populações de difícil acesso, como moradores de rua por exemplo, em que não
se dispõe de uma lista com endereço ou meio de contato de cada um.
Ao encontrar
algum membro do grupo, você pode pedir que ele chame outros para você, ou que
te indique onde encontra-los. Cada um destes pode te indicar mais outros, e
assim sua amostra vai crescendo. Daí vem o nome.
Então, apesar
de não ser aleatório, é possível encontrar mais membros para a amostra, o que
já ajuda bastante, considerando que o maior problema era não saber como ou onde
encontra-los.
Quando se publica os resultados
da pesquisa, é fundamental relatar todos os parâmetros da seleção da amostra
e também do cálculo amostral, com todos os valores usados. Não fazer isso é
um erro primário, e bastante comum. Não é possível interpretar bem os resultados
sem essas informações. Sempre informem todos os parâmetros da amostragem em
suas publicações.
Obrigado, e até mais!
Comentários
Postar um comentário