Distribuição Normal - Bioestatística #4




A distribuição de um grupo de dados quantitativos é forma como ele se apresenta ao se dividir faixas de valores e observar a frequência de cada faixa.

Embora existam inúmeras formas de distribuição possíveis, algumas tem mais importância. A principal delas é a distribuição normal, também conhecida como distribuição Gaussiana, ou paramétrica.


Uma distribuição normal tem forma de uma curva simétrica, parecida com um sino, e é definida por apenas duas medidas, a média e o desvio padrão. A média é a posição do centro da curva, e o desvio padrão o ponto em que ela deixa de ser côncava e se torna convexa. Ou seja, a média posiciona o centro da curva, e o desvio padrão determina o quão dispersa ou concentrada ela é.

A distribuição normal é importante por várias razões, entre elas, por causa do teorema do limite central e outras equações que não vou discutir hoje, e também porque ao estudar diversos fenômenos naturais é observado que esse tipo de distribuição é incrivelmente comum. Então ela tem uma grande importância tanto matemática como prática.

Por exemplo, vamos estudar a altura de um grupo de milhares de pessoas do mesmo sexo, da mesma idade, e etnia.

Ao colocar os resultados em um histograma, percebemos que existe uma faixa de altura mais comum, e a medida que se distancia dessa faixa mais comum a frequência é cada vez menor. Ou seja, existem muitos indivíduos próximos de uma altura média, e poucos com alturas extremas (muito baixos ou muito altos). Se traçarmos a curva de densidade desse histograma, sua forma vai ser a típica curva simétrica em forma de sino da distribuição normal.

(histograma)

A curva de densidade é usada para determinar a probabilidade de se obter um resultado dentro de qualquer faixa de valores. Essa probabilidade é dada pela área dentro da curva limitada pela faixa desejada. No caso da distribuição normal, a faixa a 1 desvio padrão de distância da média sempre tem probabilidade de cerca de 68%. Então se selecionarmos aleatoriamente um indivíduo desse grupo, a probabilidade de ser alguém entre 1,65m e 1,75m é de 68%.

(curva de densidade)

E isso é o que torna a distribuição normal tão importante para a estatística.
Quando se sabe que o grupo segue essa distribuição, é possível calcular a probabilidade, ou a frequência relativa, de QUALQUER faixa de resultados.
Só é preciso duas medidas, a média e o desvio padrão. Sempre que um grupo segue uma distribuição normal, a média e o desvio padrão são a melhor forma de representa-lo.

Isso é muito explorado na estatística inferencial, pois melhora e simplifica diversas formas de calcular probabilidades.


Mas antes de fazer qualquer coisa, é importante garantir que a variável realmente segue uma distribuição normal. Embora algumas vezes o histograma ou a curva de densidade possam fazer parecer que o grupo tenha uma distribuição normal, não é seguro se basear apenas neles.

Pode se calcular a simetria e a curtose (achatamento) da curva, para ver se estão em faixas aceitáveis, e também podem ser usados gráficos Q-Q ou P-P. Outra forma, mais objetiva, é usando testes de hipótese específicos para isso, alguns dos mais usados são os testes de Shapiro-Wilk, de Lilliefor, ou de D’Agustino.

Se o grupo seguir uma distribuição normal, pode-se usar a média e o desvio padrão, e fazer quais quer testes ou cálculos paramétricos. Caso não siga, ainda é possível realizar testes não paramétricos e descrever o grupo com a mediana e separatrizes, como quartis (próximo tema).

Obrigado, e até mais!

Comentários