Análise Exploratória de Dados
Conhecida como uma nova corrente criada por Tukey, a análise exploratória de dados permite, através principalmente de técnicas visuais, a familiarização com o processo nas investigações do pesquisador. Etapa realizada após a coleta e inserção dos dados em um banco apropriado, a análise descritiva organiza e sintetiza as informações para que suas questões sejam respondidas.
A regularidade ou padrão na descrição dos dados, sem a utilização de cálculos, é a principal característica desse método. A tendência é formulada na produção de tabelas, gráficos e medidas de resumos, quantificado a variabilidade e permitindo a detecção de estruturas interessantes e valores diferentes no banco de dados.
Tipo de Variáveis
Variáveis são definidas como cada uma das características observadas ou medidas que são consideradas interessantes durante um estudo. Eles são denominadas quantitativas, caso assumam valores numéricos, e qualitativas, caso não sejam numéricas.
-
Variáveis Qualitativas
Os valores dessas variáveis são qualidades ou atributos, como sexo, raça ou classe social, por exemplo. Elas recebem o nome de qualitativas ordinais caso sejam classificadas de acordo como um ordem natural, indicando intensidades crescentes de realização, como classe social baixa, média ou alta. Caso não seja possível estabelecer uma ordem entre os valores, elas são classificadas como qualitativas nominais, como sexo masculino ou feminino, por exemplo.
-
Variáveis Quantitativas
Discretas ou contínuas são as denominações dadas às variáveis quantitativas, que são aquelas que assumem valores numéricos em uma pesquisa. As discretas tem valores inteiros e são resultantes de contagens, como número de filhos, por exemplo. Já as contínuas são caracterizadas por valores que podem estar dentro de um intervalo especificado e geralmente se apresentam como resultados de mensuração, como peso, em kg; altura, em metros, por exemplo.
Descrição dos dados
Para a realização de uma boa análise descritiva dos dados, é muito importante que o pesquisador saiba construir os principais tipos de medidas resumo, gráficos e tabela. Cada uma dessas ferramentas nos oferece um tipo de informação. A sua utilização varia de acordo com o tipo de variável que está sendo analisada.
Para a variável qualitativa (ou também as quantitativas discretas), utilizamos as seguintes ferramentas de investigação: tabela de frequências, gráfico de barras, diagrama circular (pizza).
Para a quantitativa, são utilizadas as seguintes ferramentas de análise: medidas de posição (média, mediana, moda), medidas de dispersão (variância, desvio-padrão, amplitude, coeficiente de variação, tabela de frequências, histograma, boxplot, gráfico de linha ou sequência e polígono de frequências.)
Tabela de frequências
Nesta ferramenta é exposto o valor da variável e sua respectiva contagem. Frequências absolutas ou apenas frequência é o nome que se dá a essas contagens. Sendo numéricos ou não, a principal função da tabela de frequências é fazer é listar os valores e fazer a contagem do número de ocorrências dos dados brutos.
Frequência do valor i = ni Frequência total = n Frequência relativa= fi= ni/n
As frequências acumuladas (fac) podem ser incluídas em uma coluna para as variáveis cujos valores assumem ordenação natural, como as qualitativas ordinais e as quantitativas em sua maioria. O fac é determinado pela soma da frequências de todos os valores da variável, sejam elas menores ou iguais ao valor considerado.
Para situações de infinitos e diferentes valores contínuos nas variáveis, é viável a criação de classes ou faixas, contando o número de ocorrências dentro de cada intervalo. As faixas 30 a 40 Kg, 40 a 50 Kg, por exemplo, no caso da varável peso de adultos. Geralmente, utiliza-se de 5 a 8 faixas com a mesma amplitude. Em um caso ou outro, a utilização de faixas de tamanho desigual pode ser conveniente quando o objetivo é representar os valores nas extremidades da tabela.
Gráficos de Barras
Nessa ferramenta de análise, os valores da variável são representados no eixo das abscissas. Já as suas porcentagens ou frequências são inseridas no eixo das ordenadas. Dependendo do valor de cada variável, é importante desenhar uma barra com altura correspondente à sua frequência ou porcentagem. Essa análise é bastante interessante no caso de variáveis qualitativas ordinais ou quantitativas discretas, permitindo a investigação da presença de tendência nos dados.
Diagrama Circular
Também conhecido como gráfico de pizza, o diagrama circular é construído com o intuito de se corresponder cada parte da divisão de um disco circular com às porcentagens de cada valor. As variáveis qualitativas nominais adaptam-se bem a esse tipo de análise, onde calcula-se o valor de cada porcentagem, multiplicando-se a frequência relativa por 100.
O que é Histograma?
Esta análise é realizada com base na construção de retângulos contíguos onde a base é fixada nas faixas de valores da variável. A área desses retângulos é correspondente à frequência relativa da faixa respectiva. Densidade de frequência é a denominação que se dá à altura de cada retângulo, sendo ela o quociente da área pela amplitude da faixa.
Medidas de posição (tendência central)
O objetivo dessa ferramenta é identificar a tendência de agrupamento de um determinado conjunto de dados em torno de um valor. Média Aritmética, Mediana e Moda são as medidas de posição ou de tendência central mais utilizadas.
-
Definição de Média Aritmética
Quando se divide a soma de todas as ocorrências pela quantidade de ocorrências.
-
Definição de Mediana
Quando os dados estão dispostos em uma ordem, a mediana e o valor que ocupa a posição central entre eles. Em casos que o número de observações é par, a mediana será definida pela média aritmética entre os dois valores que ocupam a posição central.
-
Definição de Moda
Quando ocorre uma frequência de um valor em um conjunto de dados, a ele dá-se o nome de moda.
Medidas de dispersão
O principal objetivo das medidas de dispersão ou variabilidade é descrever e discriminar diferentes conjuntos de dados. Elas permitem a visualização da concentração ou como os dados se espalham em torno do valor central. Para mensurar a variabilidade pode-se utilizar algumas das seguintes estatísticas: amplitude total, distância interquartílica, desvio médio, variância, desvio padrão e coeficiente de variação.
-
Definição de Amplitude Total
No conjunto de dados, é a diferença entre o maior e o menor valor.
-
Definição de Distância Interquartílica
Primeiramente, é necessário definir o que seria o 1º, 2º e 3º quartil de um conjunto de dados. O 1º quartil é o valor que deixa um quarto dos valores abaixo e três acima dele. O 3º é o que deixa três quartos abaixo e um acima dele. O 2º é a mediana. Logo, a distância interquartílica é a diferença entre o 3º e o 1º quartis de um conjunto de dados.
-
Definição de Desvio Médio
O Desvio Médio, no conjunto de dados, é a diferença entre o valor observado e a medida de tendência central.
-
Definição de Variância
É identificada pela medida que descreve o desvio quadrático dentro de um conjunto de dados. A sua unidade é o quadrado da unidade dos dados.
-
Definição de Desvio Padrão
Define-se desvio padrão como a raiz quadrada da variância. Sua unidade de medida é determinada pela mesma do conjunto de dados.
-
Definição de Coeficiente de Variação
É a razão percentual entre o desvio padrão e a média, sendo uma medida de variabilidade relativa. Logo, também pode ser definido como uma medida adimensional que é expressa em percentual.
O que é Boxblot?
O gráfico do Boxplot apresenta informações sobre posição, dispersão, assimetria, caudas e valores discrepantes.
Gráfico de linha ou sequência
As observações medidas ao logo do tempo são analisadas pelo gráfico de linha, pois é bastante adequado para enfatizar a tendência ou periodicidade.
Polígono de Frequências
Bastante semelhante ao histograma, o polígono de frequências é construído com base nos pontos médios das classes.
Gráfico de ogiva
Esse gráfico utiliza uma poligonal ascendente com pontos extremos e apresenta a distribuição de frequências acumuladas.
Diagrama de dispersão
O comportamento conjunto de duas variáveis quantitativas é descrito por esse diagrama, onde cada ponto do gráfico representa um par de valores observados.