Gráficos - como usar



Interpretar padrões em dados textualmente é um processo trabalhoso, difícil e chato. Mas quando essa mesma informação é mostrada graficamente fica tudo muito mais fácil. Padrões e relações que poderiam facilmente passar desapercebidos, mesmo por um leitor atento, agora ficam perfeitamente nítidos e intuitivamente interpretáveis.

Seja na hora de realizar a análise, ou de escrever o artigo, gráficos são uma importante ferramenta que facilita a exploração dos dados, e direciona sua leitura e interpretação. Mas como toda ferramenta, é importante saber como usar.

Então, primeiro e mais importante, conheça suas variáveis. Elas são quantitativas? Qualitativas? Categóricas? Dicotômicas? Discretas? Contínuas? Depois, decida o que você quer ver. Existem gráficos para visualizar uma única variável, com suas frequências, e existem gráficos para correlacionar duas ou mais variáveis (sejam elas qualitativas ou quantitativas).


A base de toda a análise descritiva é a frequência, e ao focar em uma única variável isso é bem direto.

Para visualizar uma única variável qualitativa existem gráficos voltado para sua frequência absoluta e outros para a relativa.

O gráfico de barras é muito conhecido, muito simples, e muito bom para comparar as frequências absolutas. Cada barra representa uma categoria, sua base pode ficar no eixo horizontal ou no vertical, e sua extensão no eixo oposto representa a frequência dessa categoria. Para representar a precisão de uma estimativa, como um intervalo de confiança, pode-se traçar uma linha acima e abaixo do topo da barra.

Uma Barra empilhada pode ser usada para comparar as frequências relativas. A barra inteira representa o total de indivíduos, cada categoria é representada por uma camada, e sua respectiva extensão indica sua parcela, sua % do total.  Lembrando que sempre que se usa a frequência relativa, é importante indicar os valores absolutos em algum lugar.

O gráfico de setores, famoso gráfico de ‘pizza’, é muito popular e é também é usado para representar a frequência relativa. Cada fatia representa uma categoria, e seu tamanho, o ângulo da fatia, representa intuitivamente sua %. Porém esse gráfico é uma questão controversa entre estatísticos, se possível, evite usá-lo.

Definir com precisão a diferença entre cada fatia é complicado, nosso cérebro não é muito bom para identificar e comparar ângulos visualmente, então fica muito fácil cometer um engano. Mesmo um gráfico de barras, que é voltado para frequência absoluta, facilita mais a comparação. E para dar ênfase na contribuição de cada parte ao total, uma barra empilhada é sempre uma boa alternativa.

Mas se ainda assim você quiser muito usar um gráfico de setores... então lembre-se que a frequência absoluta deve sempre estar descrita em algum lugar, nunca separe as fatias, e jamais coloque uma 3ª dimensão, isso vai distorcer a visualização de todos os ângulos, tornar os pedaços mais próximos visualmente maiores e os mais distantes menores, destruindo completamente a já pobre visualização que esse tipo de gráfico tinha.

Para ilustrar uma única variável quantitativa, continuamos com o foco na frequência.
No gráfico chamado Histograma, divide-se os resultados em faixas, para visualizar a frequência absoluta de cada faixa. A ideia aqui é ilustrar a distribuição dos resultados, para visualizar em quais regiões estão concentrados e como estão dispersos. É possível também calcular a curva de densidade dessa distribuição, que aproxima a frequência relativa de qualquer faixa de valores, de acordo com a sua área dentro da curva.


Caso queira visualizar a relação entre duas variáveis, existem outras opções.

Para relacionar uma variável qualitativa vs. quantitativa, pode-se usar um gráfico de barras.

É o mesmo gráfico já comentei. Continua-se usando uma barra para cada categoria, e a distribuição da variável quantitativa (que vimos no histograma) é representada simplificadamente, usando medidas deposição e dispersão. Aqui a extensão da barra vai indicar a média do grupo, e de seu topo pode-se estender linhas para indicar o desvio padrão. Em algumas situações o interesse maior pode não ser a dispersão do grupo, mas a precisão da estimativa, então a linha também pode indicar o intervalo de confiança.

Como a média e o desvio padrão só podem ser usados para representar distribuições normais, o gráfico de barras também só é usado quando a distribuição da variável quantitativa é normal em todas as categorias.

Se esse não for o caso, pode se usar o gráfico de caixas. Continua-se colocando as categorias lado a lado, mas a representação da distribuição é feita com a mediana, quartis e os limites. Ao usar quatis, cada uma das quatro regiões vai ter a mesma quantidade de resultados, ¼ do total em cada, então as regiões menores são onde há maior concentração. Assim é possível representar distribuições assimétricas, o que não podia ser feito com a média o desvio padrão.

Para comparar duas variáveis qualitativas pode-se usar barras agrupadas.
Separa-se uma região para cada categoria de uma das variáveis, e coloca-se em cada região uma barra para cada categoria da outra variável. A extensão da barra novamente indica a frequência absoluta. Para comparar a frequência relativa de duas variáveis, basta colocar duas barras empilhadas lado a lado. Nunca tente comparar dois gráficos de setores lado a lado (simplesmente não funciona).

A comparação entre duas variáveis quantitativas pode ser feita com um gráfico de dispersão.

Como as duas variáveis são numéricas, elas podem ser representadas em um plano cartesiano tradicional, cada uma em um eixo, x ou y, e para cada indivíduo é colocado um ponto na posição que representa seus resultados.
- Se existir uma relação entre as variáveis, pode-se calcular e traçar uma linha de regressão.

Sempre que houver uma variação através do tempo, é importante usar um gráfico de linhas, que ilustra a relação temporal entre as outras variáveis, quantitativas e/ou qualitativas.
O eixo horizontal representa o tempo, enquanto o vertical pode ser a frequência de uma variável qualitativa, ou uma medida de uma variável quantitativa. O resultado do grupo em cada momento é representado por pontos, com uma linha ligando cada ponto, que enfatiza a variação entre eles. Para comparar várias categorias, basta traçar uma linha para cada.


Recapitulando:
- Uma única variável qualitativa:
Gráfico de barras para comparar as frequências absolutas
E de Barras empilhadas para comparar a frequência relativa

- Uma única variável quantitativa:
Histograma, que é a representação visual de sua distribuição.

 Para relacionar:
- Quantitativa vs. Qualitativa: Gráfico de barras, ou gráfico de caixas
          - Qualitativa vs. Qualitativa: Barras agrupadas
          - Quantitativa vs. Quantitativa: Gráfico de dispersão
- Para mostrar variação temporal: Gráfico de linhas

Esses foram apenas alguns exemplos, existem vários outros modelos de gráficos, para as mais diversas situações específicas. Porém, a maioria é apenas uma variação de algum destes tipos básicos.

Lembre-se também que você sempre deve descrever os resultados textualmente, o gráfico é apenas uma adição à obra. Apesar da leitura dos parágrafos de resultados ser monótona e trabalhosa para interpretar, é muito importante ter nota dos valores exatos. E quando tiver algo importante para mostrar, faça um gráfico.

Obrigado, e até mais!

Comentários