Amostragem: Seleção e Cálculo Amostral - Bioestatística #8



O resultado de uma amostra é uma estimativa dessa característica na população. Para que essas estimativas sejam confiáveis, e a amostra seja uma boa representante de sua população, é preciso ter controle sobre os parâmetros que influenciam no erro amostral.

A amostragem é o processo de se obter uma amostra, e para garantir sua representatividade, deve envolver a definição do seu tamanho e a forma de seleção adequadas.


O tamanho amostral controla a variação aleatória, o que determina a precisão da estimativa. Porém a precisão estimada só é válida caso a seleção não seja tendenciosa, o que só pode ser garantido com um método aleatório.

Não existe um tamanho exato e certo para qualquer amostra, e também não existe forma de seleção que seja perfeita para qualquer situação. Tudo isso vai depender da natureza da sua pesquisa e como você pretende analisar os resultados.

CÁLCULO AMOSTRAL:

Uma amostra muito grande vai ter muita precisão, mas vai apresentar os mesmos problemas de se estudar a população inteira (e é por causa desses problemas que se usa a amostra). Mas uma amostra muito pequena, apesar de dar menos trabalho e gastar menos recursos, é pouco confiável.

É preciso encontrar um tamanho que facilite a pesquisa e que lhe dê tanta precisão quanto necessária. E para isso é feito um cálculo que envolve diversos parâmetros que influenciam em sua precisão. Você pode tentar fazer as contas à mão, mas eu recomendo usar alguma calculadora amostral. Se não conhecer nenhuma, seguem alguns links:

Porém, usando uma calculadora é preciso entender os parâmetros que vão ser necessários para a conta. Então vou tentar explicar alguns deles aqui:

- Frequência ou Desvio Padrão estimados:

Se a variável for qualitativa, a precisão vai depender de sua frequência. Quanto mais próxima de 50%, maior será a variação amostral, necessitando uma amostra maior para garantir a precisão.

Obviamente a frequência na população não é conhecida, pois é para isso que estamos tendo todo esse trabalho. O que se faz é estimar um valor próximo do esperado para fazer a conta. Para isso você pode se basear na literatura ou estudar uma amostra piloto. Se não tiver a menor ideia, o recomendado é usar 50% para a conta, pois vai gerar a maior amostra possível, que é mais confiável.

Se a variável for quantitativa, a regra é a mesma, só que agora a variação vai depender do seu desvio padrão. Mas vai seguir a mesma história, você tem que estimar um valor para usar na conta.

- Erro máximo desejado:

Qual é a precisão que você deseja? Qual o erro máximo que você aceita?

Pode ser que para responder à questão de sua pesquisa você não precise de um resultado extremamente preciso. Pense em qual seria a margem máxima do intervalo de confiança que você aceitaria no resultado.

- Nível de significância:

O nível de significância é a probabilidade estimada do valor real estar fora da margem do erro máximo que foi escolhida. Um número muito usado aqui é 5%.

- Número de grupos / amostras:

Se desejar apenas descrever um grupo, ou compara-lo a um valor fixo, então irá precisar de apenas uma amostra.

Mas caso o objetivo seja comparar dois grupos, então serão necessárias duas amostras. Isso quer dizer que os resultados vão estar sujeitos a dois erros amostrais, e, para compensar, o tamanho da amostra deve ser maior.

Neste caso o erro máximo desejado é substituído pela diferença a ser detectada, que é exatamente o que diz, o tamanho da diferença que você quer que as amostras sejam capazes de encontrar.

Para ser capaz de encontrar diferenças pequenas é preciso uma amostra maior, mais precisa, e vice-versa. Para evitar detectar diferenças irrelevantes, escolha um valor que tenha importância para o que você está avaliando.

- Ao usar testes de hipótese:

É muito comum o uso de testes de hipótese quando se usa amostras para fazer comparações, para se ter uma avaliação mais objetiva. Explicando de forma simplificada, testes de hipótese estatística são usados para verificar se a diferença ou correlação observados nas amostras realmente existem entre suas populações de origem.

O nível de significância nesse caso passa a ter outro sentido, que é a probabilidade de se cometer o chamado erro tipo I: “encontrar uma diferença ou correlação que na realidade não existe”

O poder desejado para o teste, é probabilidade de detectar uma diferença ou correlação quando realmente existir uma. Geralmente se usa valores por volta de 70 a 90%.

Esses testes trabalham com as probabilidades das distribuições do erro, que podem ser desenhadas em um gráfico como curvas. O teste pode buscar uma diferença ou correlação quaisquer entre os grupos, usando os intervalos das duas extremidades da curva, que são chamadas de caudas. E por isso esse tipo de análise é chamada de bicaudal.


Ou, pode buscar apenas se um grupo é maior ou se é menor que o outro, e ser chamado de monocaudal.


Testes monocaudais precisam de uma amostra menor para detectar uma mesma diferença ou correlação. Mas o preço disso é que o significado da sua resposta é ainda mais limitado. Ao invés de encontrar qualquer diferença, ele diz apenas se um grupo é maior, ou então se é menor que o outro.


A depender do caso, outros parâmetros podem ser necessários, como o tamanho da população, ou a proporção entre os grupos, por exemplo. Mas o raciocínio é basicamente o mesmo, controlar a variação do erro para obter a precisão desejada.

E para finalizar essa parte, note uma coisa. Tudo isso leva em consideração apenas uma única variável e comparação. Quer dizer que essa amostra vai ser adequada para analisar esta variável, e não necessariamente as outras. Então escolha bem qual a variável que vai usar, se concentre no foco da pesquisa.


MÉTODOS DE SELEÇÃO

O ideal seria que todas as amostras fossem aleatórias, mas isso nem sempre é possível. A seleção é dita aleatória quando todos os membros da população têm a mesma probabilidade de serem escolhidos. E para fazer isso é preciso ter uma lista de todos os membros desse grupo.

Agora imagine um trabalho sobre as condições de saúde de moradores de rua, ou de usuários de drogas injetáveis. Dificilmente vai existir uma lista com todos os membros dessas populações. Muitos vão inclusive ser indigentes e outros não vão querer se revelar para você. Mas ainda assim, é importante planejar bem o método de seleção, principalmente porque pode facilitar o trabalho e ajudar a encontrar membros para compor sua amostra.

- Seleção aleatória simples:

Com uma lista de todo o grupo, pode se usar programas de computador ou mesmo dados simples para selecionar quem entra ou não, e isso garante cada indivíduo tem igual probabilidade de ser selecionado. Esse tipo de seleção é muito simples efetivo para minimizar vieses.

Um erro comum é se basear em fatores que podem parecer aleatórios, mas não são, como datas de internamento, dia de nascimento, hora do atendimento, número do prontuário, tabelas com valores aleatórios pré-definidos. De uma forma geral, se o número que vai decidir quem entra na amostra, ou a que grupo o sujeito vai pertencer, já existia antes do ato da seleção, então ela não é aleatória.

- Seleção sistemática:
         
A amostra sistemática envolve usar algum método organizado que facilite a seleção. Como colocar todos os indivíduos em ordem e escolher um intervalo regular, cabendo randomizar apenas o primeiro elemento.

Por exemplo, você pode sortear apenas uma das 3 primeiras casas de uma rua, e incluir todas as casas que caem em um intervalo de 3 em 3 iniciando pela sorteada.


Esse tipo de seleção facilita bastante o trabalho, mas pode ser vulnerável tendenciosidades por características que variam periodicamente no sistema.

- Seleção estratificada:

Se a população for notadamente dividida em diferentes classes ou categorias, é interessante que a proporção entre esses estratos se mantenha na amostra.
         
Para isso são feitas amostragens separadas para cada estrato, o que vai acabar precisando de mais indivíduos, vai dar mais trabalho e vai aumentar os custos da pesquisa. Mas se isso for possível é muito bom, pois garante uma melhor representatividade e pode inclusive permitir que posteriormente se faça alguma comparação entre esses subgrupos.

- Seleção por agrupamentos:

Uma forma bastante custo-efetiva é não selecionar indivíduo por indivíduo, mas sim por agrupamentos. Um exemplo comum é, ao invés de usar uma lista de cada habitante da cidade, selecionar por ruas, e incluir todos os moradores das ruas selecionadas.

Isso deixa os membros da amostra mais próximos uns dos outros e facilita o deslocamento entre eles. Mas a depender do caso, cada agrupamento, ou rua, pode ter características distintas, o que pode facilitar um resultado tendencioso.

- Seleção por conveniência:

É provavelmente o tipo de seleção mais usada, porque é muito simples e fácil. Trata-se de buscar os membros da população que estão próximos do pesquisador.

Você pode ir até um local público e com boa movimentação para convidar quem está a seu alcance. Ou ainda, pode divulgar o questionário em redes sociais pela internet.

Obviamente esse tipo de seleção não tem como ser aleatória, pois as únicas pessoas com alguma chance de entrar na amostra são as que estiverem no mesmo local que o pesquisador e no mesmo período de tempo.

Então é impossível garantir que esse tipo de amostra vai representar bem a população, por isso esse método é mais adequado para estudos piloto. Mas em algumas situações essa pode ser a única forma disponível, então vale a pena considerar se a questão da sua pesquisa poderia ser respondida com um nível de evidência menor.

Além disso, é sempre interessante discutir na publicação os motivos pelos quais as pessoas nesse local poderiam ser diferentes do resto, em relação à variável estudada.

- Seleção por bola de neve:

Esse tipo de seleção também não é nada aleatório, mas é particularmente útil para populações de difícil acesso, como moradores de rua por exemplo, em que não se dispõe de uma lista com endereço ou meio de contato de cada um.

Ao encontrar algum membro do grupo, você pode pedir que ele chame outros para você, ou que te indique onde encontra-los. Cada um destes pode te indicar mais outros, e assim sua amostra vai crescendo. Daí vem o nome.

Então, apesar de não ser aleatório, é possível encontrar mais membros para a amostra, o que já ajuda bastante, considerando que o maior problema era não saber como ou onde encontra-los.


Quando se publica os resultados da pesquisa, é fundamental relatar todos os parâmetros da seleção da amostra e também do cálculo amostral, com todos os valores usados. Não fazer isso é um erro primário, e bastante comum. Não é possível interpretar bem os resultados sem essas informações. Sempre informem todos os parâmetros da amostragem em suas publicações.


Obrigado, e até mais!

Comentários