Dados Enem 2012
Por: Juliana2017 • 3/5/2018 • 4.557 Palavras (19 Páginas) • 310 Visualizações
...
- Mineração de Dados - MDs
A MDs consiste em abstrair de um banco de dados informações que gerem conhecimento e possam auxiliar no processo de tomada de decisão. De acordo com Fayyad et al. (1996), a mineração de dados é a principal etapa do processo KDD, e está voltada a aplicar algoritmos e produzir padrões sobre uma base de dados.
A MDs de acordo com a DWBrasil (2004), segue três caminhos. O primeiro deles é a estatística clássica, que envolve conceitos básicos (distribuição normal, variância, etc.) usados para estudar os dados e os relacionamentos entre eles; o segundo caminho traçado pela MDs é a Inteligência Artificial, a qual é construída a partir dos fundamentos da heurística, em oposição à estatística, e tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos; e o terceiro caminho é a aprendizagem de máquina (machine learning), que pode ser compreendida como a junção entre a estatística e a Inteligência Artificial. A aprendizagem de máquina tenta fazer com que os programas de computador aprendam com os dados que utilizam, de tal modo que esses programas tomem decisões diferentes, baseadas nas características dos dados, usando a estatística para os conceitos fundamentais e adicionando heurística avançada da Inteligência Artificial e algoritmos para alcançar os seus objetivos.
O uso da MDs como parte do processo KDD tem grande potencial para auxiliar as organizações na extração de informações provenientes dos seus bancos de dados, predizendo padrões e comportamentos futuros e respondendo a questões que tomariam muito tempo para serem resolvidas, o que possibilita tomar decisões corretas, por estarem apoiadas em conhecimento. A MDs dispõe de tarefas básicas classificadas nas categorias descritivas e preditivas, entre as quais se podem citar: a classificação, associação, segmentação (ou clustering), estimativa (ou regressão) e sumarização. A seguir serão descritas as tarefas de MDs utilizadas para a descoberta do conhecimento neste trabalho.
- Classificação – Associação – Segmentação – Árvore de Decisão e WEKA
A tarefa de classificação consiste em construir um modelo que possa ser aplicado a dados não classificados com vista a dividi-los em classes. Os dados são analisados e separados por classes. A classificação tem como resultado a construção da “árvore de decisão”, que apresenta uma visualização gráfica das diferentes correlações dos dados, permitindo estabelecer a classificação de cada elemento. A tarefa de classificação pode ser considerada uma tarefa maldefinida (indeterminística), que é inevitável, em caso, em que envolve predição, como os processos de classificação dentro do contexto da Mineração de dados (Freitas, 2000, p.65).
A associação consiste em determinar quais itens estão correlacionados, ou seja, costumam ser encontrados juntos nos mesmos tipos de transação. A tarefa de associação é considerada bem-determinística e não envolve processo de predição como resultado final.
Segmentar significa dividir grupos heterogêneos em subgrupos mais homogêneos. Na segmentação de dados não há classes predefinidas, os registros são agrupados de acordo com a semelhança, formando subgrupos que permitem a visualização de relações de analogia.
A árvore de decisão é uma representação gráfica de alternativas disponíveis geradas a partir de uma decisão inicial que pode servir de apoio às tomadas de decisão. Uma das grandes vantagens de uma árvore de decisão é a possibilidade de transformação ou de decomposição de um problema complexo em diversos subproblemas mais simples.
Para efetuar a representação gráfica da árvore de decisão são geralmente usadas linhas para identificar a decisão (por exemplo, "sim" ou "não") e nós para identificar as questões sobre as quais se deve decidir. Cada um dos ramos formados por linhas e nós termina numa espécie de folha que identifica a consequência mais provável da sequência de decisões.
O WEKA (Waikato Environment for Knowledge Analysis) é uma ferramenta que permite realizar a MDs. Consiste num software utilizado na linguagem Java e desenvolvido no meio acadêmico da Universidade de Waikato, na Nova Zelândia, em 1999. Tem como vantagem o fato de ser de domínio público. É uma ferramenta formada por um conjunto de algoritmos que implementam diversas técnicas para resolver problemas de MDs.
3. Metodologia
-
O presente trabalho realizou a MDs do banco de dados do Enem 2010. Os dados minerados são dos estados de Rio Grande do Sul, Santa Catarina e Paraná.
O banco de dados é disponibilizado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), vinculado ao Ministério da Educação (MEC) inicialmente em arquivo-texto (txt) de aproximadamente cinco Giga Bytes.
Para acessar o banco de dados foi utilizado o software IBM-SPSS, software estatístico que permite extrair de um determinado banco de dados (relativamente grande) somente os dados que interessa para o foco da pesquisa.
No banco de dados do Enem 2010 existem registrados aproximadamente 4.200.000 (quatro milhões e duzentos mil) alunos que se inscreveram em todo o Brasil para prestar o exame. As questões socioeconômicas a serem respondidas são aproximadamente 200 (duzentas), assim o número de informações existentes neste arquivo é aproximadamente 1.500.000.000 (um bilhão e meio) Após a utilização do software estatístico o arquivo SPSS apresentou um tamanho aproximado de dez Giga bytes.
A partir disso foi realizada a fase de pré-processamento, em que foram selecionados somente os dados dos estados de Santa Catarina (SC), Rio Grande do Sul (RS) e Paraná (PR). Neste contexto foram selecionadas três questões (das duzentas) e o arquivo foi reduzido para 500 Mega bytes.
Na seqüência foram eliminados do banco de dados os alunos que não compareceram à prova, o que resultou em aproximadamente 370.000 (trezentos e setenta mil) alunos dos três estados. O arquivo gerado em planilha eletrônica apresentou um tamanho de 30 Mega Bytes.
As questões escolhidas para o estudo foram as seguintes:
Questão “A” – “Até quando seu pai estudou?”, alternativas de resposta: analfabeto “ANA”, 1º grau “1GR”, 2º grau “2GR” e superior “SUP”. Inicialmente, também se selecionou a questão que indagava a escolaridade
...