Menu
HomeApostilasApostila GrátisEstatísticaNoções Básicas de Estatística

Noções Básicas de Estatística

Análise Exploratória de Dados

Conhecida como uma nova corrente criada por Tukey, a análise exploratória de dados permite, através principalmente de técnicas visuais, a familiarização com o processo nas investigações do pesquisador. Etapa realizada após a coleta e inserção dos dados em um banco apropriado, a análise descritiva organiza e sintetiza as informações para que suas questões sejam respondidas.

A regularidade ou padrão na descrição dos dados, sem a utilização de cálculos, é a principal característica desse método. A tendência é formulada na produção de tabelas, gráficos e medidas de resumos, quantificado a variabilidade e permitindo a detecção de estruturas interessantes e valores diferentes no banco de dados.

Gráfico de Estatísticas

Tipo de Variáveis

Variáveis são definidas como cada uma das características observadas ou medidas que são consideradas interessantes durante um estudo. Eles são denominadas quantitativas, caso assumam valores numéricos, e qualitativas, caso não sejam numéricas.

  • Variáveis Qualitativas

Os valores dessas variáveis são qualidades ou atributos, como sexo, raça ou classe social, por exemplo. Elas recebem o nome de qualitativas ordinais caso sejam classificadas de acordo como um ordem natural, indicando intensidades crescentes de realização, como classe social baixa, média ou alta. Caso não seja possível estabelecer uma ordem entre os valores, elas são classificadas como qualitativas nominais, como sexo masculino ou feminino, por exemplo.

  • Variáveis Quantitativas

Discretas ou contínuas são as denominações dadas às variáveis quantitativas, que são aquelas que assumem valores numéricos em uma pesquisa. As discretas tem valores inteiros e são resultantes de contagens, como número de filhos, por exemplo. Já as contínuas são caracterizadas por valores que podem estar dentro de um intervalo especificado e geralmente se apresentam como resultados de mensuração, como peso, em kg; altura, em metros, por exemplo.

Descrição dos dados

Para a realização de uma boa análise descritiva dos dados, é muito importante que o pesquisador saiba construir os principais tipos de medidas resumo, gráficos e tabela. Cada uma dessas ferramentas nos oferece um tipo de informação. A sua utilização varia de acordo com o tipo de variável que está sendo analisada.

Para a variável qualitativa (ou também as quantitativas discretas), utilizamos as seguintes ferramentas de investigação: tabela de frequências, gráfico de barras, diagrama circular (pizza).

Para a quantitativa, são utilizadas as seguintes ferramentas de análise: medidas de posição (média, mediana, moda), medidas de dispersão (variância, desvio-padrão, amplitude, coeficiente de variação, tabela de frequências, histograma, boxplot, gráfico de linha ou sequência e polígono de frequências.)

Tabela de frequências

Nesta ferramenta é exposto o valor da variável e sua respectiva contagem. Frequências absolutas ou apenas frequência é o nome que se dá a essas contagens. Sendo numéricos ou não, a principal função da tabela de frequências é fazer é listar os valores e fazer a contagem do número de ocorrências dos dados brutos.

Frequência do valor i = ni Frequência total = n Frequência relativa= fi= ni/n

As frequências acumuladas (fac) podem ser incluídas em uma coluna para as variáveis cujos valores assumem ordenação natural, como as qualitativas ordinais e as quantitativas em sua maioria. O fac é determinado pela soma da frequências de todos os valores da variável, sejam elas menores ou iguais ao valor considerado.

Para situações de infinitos e diferentes valores contínuos nas variáveis, é viável a criação de classes ou faixas, contando o número de ocorrências dentro de cada intervalo. As faixas 30 a 40 Kg, 40 a 50 Kg, por exemplo, no caso da varável peso de adultos. Geralmente, utiliza-se de 5 a 8 faixas com a mesma amplitude. Em um caso ou outro, a utilização de faixas de tamanho desigual pode ser conveniente quando o objetivo é representar os valores nas extremidades da tabela.

Gráficos de Barras

Nessa ferramenta de análise, os valores da variável são representados no eixo das abscissas. Já as suas porcentagens ou frequências são inseridas no eixo das ordenadas. Dependendo do valor de cada variável, é importante desenhar uma barra com altura correspondente à sua frequência ou porcentagem. Essa análise é bastante interessante no caso de variáveis qualitativas ordinais ou quantitativas discretas, permitindo a investigação da presença de tendência nos dados.

Diagrama Circular

Também conhecido como gráfico de pizza, o diagrama circular é construído com o intuito de se corresponder cada parte da divisão de um disco circular com às porcentagens de cada valor. As variáveis qualitativas nominais adaptam-se bem a esse tipo de análise, onde calcula-se o valor de cada porcentagem, multiplicando-se a frequência relativa por 100.

O que é Histograma?

Esta análise é realizada com base na construção de retângulos contíguos onde a base é fixada nas faixas de valores da variável. A área desses retângulos é correspondente à frequência relativa da faixa respectiva. Densidade de frequência é a denominação que se dá à altura de cada retângulo, sendo ela o quociente da área pela amplitude da faixa.

Medidas de posição (tendência central)

O objetivo dessa ferramenta é identificar a tendência de agrupamento de um determinado conjunto de dados em torno de um valor. Média Aritmética, Mediana e Moda são as medidas de posição ou de tendência central mais utilizadas.

  • Definição de Média Aritmética

Quando se divide a soma de todas as ocorrências pela quantidade de ocorrências.

  • Definição de Mediana

Quando os dados estão dispostos em uma ordem, a mediana e o valor que ocupa a posição central entre eles. Em casos que o número de observações é par, a mediana será definida pela média aritmética entre os dois valores que ocupam a posição central.

  • Definição de Moda

Quando ocorre uma frequência de um valor em um conjunto de dados, a ele dá-se o nome de moda.

Medidas de dispersão

O principal objetivo das medidas de dispersão ou variabilidade é descrever e discriminar diferentes conjuntos de dados. Elas permitem a visualização da concentração ou como os dados se espalham em torno do valor central. Para mensurar a variabilidade pode-se utilizar algumas das seguintes estatísticas: amplitude total, distância interquartílica, desvio médio, variância, desvio padrão e coeficiente de variação.

  • Definição de Amplitude Total

No conjunto de dados, é a diferença entre o maior e o menor valor.

  • Definição de Distância Interquartílica

Primeiramente, é necessário definir o que seria o 1º, 2º e 3º quartil de um conjunto de dados. O 1º quartil é o valor que deixa um quarto dos valores abaixo e três acima dele. O 3º é o que deixa três quartos abaixo e um acima dele. O 2º é a mediana. Logo, a distância interquartílica é a diferença entre o 3º e o 1º quartis de um conjunto de dados.

  • Definição de Desvio Médio

O Desvio Médio, no conjunto de dados, é a diferença entre o valor observado e a medida de tendência central.

  • Definição de Variância

É identificada pela medida que descreve o desvio quadrático dentro de um conjunto de dados. A sua unidade é o quadrado da unidade dos dados.

  • Definição de Desvio Padrão

Define-se desvio padrão como a raiz quadrada da variância. Sua unidade de medida é determinada pela mesma do conjunto de dados.

  • Definição de Coeficiente de Variação

É a razão percentual entre o desvio padrão e a média, sendo uma medida de variabilidade relativa. Logo, também pode ser definido como uma medida adimensional que é expressa em percentual.

O que é Boxblot?

O gráfico do Boxplot apresenta informações sobre posição, dispersão, assimetria, caudas e valores discrepantes.

Gráfico de linha ou sequência

As observações medidas ao logo do tempo são analisadas pelo gráfico de linha, pois é bastante adequado para enfatizar a tendência ou periodicidade.

Polígono de Frequências

Bastante semelhante ao histograma, o polígono de frequências é construído com base nos pontos médios das classes.

Gráfico de ogiva

Esse gráfico utiliza uma poligonal ascendente com pontos extremos e apresenta a distribuição de frequências acumuladas.

Diagrama de dispersão

O comportamento conjunto de duas variáveis quantitativas é descrito por esse diagrama, onde cada ponto do gráfico representa um par de valores observados.


Matérias do Concurso

Estudantes lendo livro Concurso Público

Você já escolheu a área em que você vai prestar concurso público? Se sim, aproveite para ler os conteúdos que mais caem nas provas.

Matérias do Concurso