Distribuição Normal - Bioestatística #4
A distribuição de um grupo de dados quantitativos é forma
como ele se apresenta ao se dividir faixas de valores e observar a frequência
de cada faixa.
Embora existam inúmeras formas de distribuição possíveis,
algumas tem mais importância. A principal delas é a distribuição normal, também conhecida como distribuição Gaussiana,
ou paramétrica.
Uma distribuição normal
tem forma de uma curva simétrica, parecida com um sino, e é definida
por apenas duas medidas, a média e o desvio padrão. A média é
a posição do centro da curva, e o desvio padrão o ponto em que ela deixa de ser
côncava e se torna convexa. Ou seja, a média posiciona o centro da curva,
e o desvio padrão determina o quão dispersa ou concentrada ela é.
A distribuição normal é importante por várias razões, entre
elas, por causa do teorema do limite central e outras equações que não vou
discutir hoje, e também porque ao estudar diversos fenômenos naturais é observado
que esse tipo de distribuição é incrivelmente comum. Então ela tem uma grande
importância tanto matemática como prática.
Por exemplo, vamos estudar a
altura de um grupo de milhares de pessoas do mesmo sexo, da mesma idade, e
etnia.
Ao colocar os resultados em um
histograma, percebemos que existe uma faixa de altura mais comum, e a medida
que se distancia dessa faixa mais comum a frequência é cada vez menor. Ou seja,
existem muitos indivíduos próximos de uma altura média, e poucos com alturas
extremas (muito baixos ou muito altos). Se traçarmos a curva de densidade
desse histograma, sua forma vai ser a típica curva simétrica em forma de sino
da distribuição normal.
A curva de densidade
é usada para determinar a probabilidade de se obter um resultado dentro de
qualquer faixa de valores. Essa probabilidade é dada pela área dentro da
curva limitada pela faixa desejada. No caso da distribuição normal, a faixa
a 1 desvio padrão de distância da média sempre tem probabilidade de cerca de
68%. Então se selecionarmos aleatoriamente um indivíduo desse grupo, a
probabilidade de ser alguém entre 1,65m e 1,75m é de 68%.
E isso é o que torna a distribuição normal tão importante
para a estatística.
Quando se sabe que o grupo segue essa distribuição, é
possível calcular a probabilidade, ou a frequência relativa, de QUALQUER faixa
de resultados.
Só é preciso duas medidas, a média e o desvio padrão. Sempre
que um grupo segue uma distribuição normal, a média e o desvio padrão são a
melhor forma de representa-lo.
Isso é muito explorado na estatística inferencial, pois
melhora e simplifica diversas formas de calcular probabilidades.
Mas antes de fazer qualquer coisa, é importante garantir que
a variável realmente segue uma distribuição normal. Embora algumas vezes o
histograma ou a curva de densidade possam fazer parecer que o grupo tenha uma distribuição
normal, não é seguro se basear apenas neles.
Pode se calcular a simetria e a curtose
(achatamento) da curva, para ver se estão em faixas aceitáveis, e também podem
ser usados gráficos Q-Q ou P-P. Outra forma, mais objetiva, é usando testes
de hipótese específicos para isso, alguns dos mais usados são os testes de
Shapiro-Wilk, de Lilliefor, ou de D’Agustino.
Se o grupo seguir uma distribuição normal, pode-se usar a
média e o desvio padrão, e fazer quais quer testes ou cálculos paramétricos. Caso
não siga, ainda é possível realizar testes não paramétricos e descrever o grupo
com a mediana e separatrizes, como quartis (próximo tema).
Obrigado, e até mais!
Comentários
Postar um comentário