Mineração de Dados dos Cadastros da Clínica-Escola da UFPI
Por: eduardamaia17 • 31/10/2018 • 1.739 Palavras (7 Páginas) • 301 Visualizações
...
[pic 1]
Etapas do Processo de Data Mining:
- Conhecimento do Domínio: Entendimento do domínio da aplicação, considerando aspectos como os objetivos dessa aplicação e as fontes de dados das quais se pretende extrair conhecimento.
- Pré-Processamento: Realiza uma seleção de dados a partir dessas fontes, de acordo com os objetivos do processo.
- Extração de Padrões: Tem como objetivo encontrar correlações dos dados.
- Pós-Processamento: Avalia o conhecimento quanto a qualidade e/ou utilidade para que, em caso positivo, seja utilizado para apoio de algum processo de tomada de decisão.
Para Tzerpos (2001), embora o desenvolvimento e aprimoramento de algoritmos de Aprendizagem de Máquina tenha sido foco de muitos pesquisadores, poucos trabalhos são relacionados à interpretação dos clusters formados. Muitos pesquisadores se preocuparam com os demais problemas e não têm demonstrado atenção necessária ao problema específico de melhor compreendê-los.
Nos últimos anos, grandes empresas multinacionais perceberam o potencial escondido em suas bases de dados, e investiram pesadamente em processos de descoberta de conhecimentos. Esta atitude permitiu a muitas delas ter um retorno de investimento vultuoso, em vista das informações relevantes escondidas nos padrões existentes em suas bases de dados.
A ferramenta Weka contém uma coleção de algoritmos de Aprendizagem de Máquina e ferramentas de pré-processamento de dados, projetada para que possa experimentar rapidamente os métodos existentes em novos conjuntos de dados de forma flexível. Ainda fornece suporte para todo o processo de mineração de dados experimental, incluindo a preparação dos dados de entrada, avaliação de sistemas de aprendizagem estatística, visualizar os dados de entrada e o resultado da aprendizagem. Essas ferramentas são acessadas através de uma interface em comum, de modo que seus usuários podem comparar diferentes métodos e identificar aqueles que são mais adequadas para o problema em questão [Witten et al. 2011].
O sistema é escrito em Java e distribuído sob os termos da GNU General Public License. Ele executa em diversas plataformas e foi testado em Linux, Windows e sistemas operacionais Macintosh. O Weka fornece uma interface uniforme para muitos algoritmos de aprendizagem diferentes, juntamente como os métodos de pré e pós processamento e para avaliar o resultado de sistemas de aprendizagem em qualquer conjunto de dados fornecido. Ele também inclui métodos para os problemas de mineração de dados padrão: regressão, classificação, clustering, de mineração de regras de associação e seleção de atributos [Bouckaert et al. 2015].
Baseando-se em outros trabalhos relacionados à mineração de dados como do aluno Neto, que trabalha com desenvolvimento de processos de descoberta de conhecimento em base de dados para o aprendizado automático dos perfis de usuários do Sistema Integrado de Atividades Acadêmicas (SIGAA) da Universidade Federal do Piauí (UFPI). Neste trabalho o aluno utiliza o data mining para dividir os alunos pelo IRA(Índice de Rendimento Acadêmico) e saber a que classe pertence os alunos com alto e baixo IRA, e relacionar a que classe social pertence, se alta, média ou baixa.
Atualmente na UFPI também estudam a utilização do Data Mining para análise de dados sobre a presença de peixe-boi marinho (Trichechus manatus manatus Linnaeus, 1758) no estuário dos rios Timonha e Ubatuba (PI/CE) e fazem descoberta de conhecimento nos registros de avistamento dessa espécie através do uso de classificadores de paradigma simbólico.
Os meios de realização dos estudos é através da mineração dos dados para saber as causas de extinção do animal nos rios localizados no Piauí e no Ceará.
Existem também sistemas que fazem o reconhecimento de caracteres manuscritos utilizando tecnologias como redes neurais e análise sintática, entre outras. Estudos realizado por alunos de mestrado da Universidade Federal da Paraíba- UFPB, destacam leitoras automáticas de cheques bancários, máquinas automáticas de processamento de códigos postais para auxiliar as agências de correio, máquinas automáticas para processar todo e qualquer tipo de formulário preenchido manualmente, etc. A contribuição do artigo reside na exploração de uma classe de algoritmos de garimpagem de dados ("data mining"), conhecida por regras de associação, para o reconhecimento de caracteres numéricos manuscritos.
O processo de gestão do conhecimento demanda um constante número de decisões acerca das atividades presentes em uma organização, tendo como base para essas decisões o conhecimento adquirido com a experiência profissional, impactando diretamente em toda a cadeia produtiva da organização. Para auxiliar nesse gerenciamento, ferramentas computacionais geradoras de novos conhecimentos são essenciais. Alunos do Centro Universitário de João Pessoa – UNIPÊ descrevem o processo de descoberta de conhecimento em bases de dados, através da mineração de dados, demo demonstrando suas aplicabilidades no processo de apoio na tomada de decisão.
3. Metodologia
A metodologia empregada segue os passos de Lopes (2014), baseando-se na aplicação de algoritmos de Aprendizagem de Máquina supervisionados para a formação de clusters, com posterior aplicação de algoritmos de Aprendizagem de Máquina não-supervisionados para extração de regras de produção que possam rotular cada cluster formado e está representada na figura 2.
[pic 2]
No entanto, Lopes (2014) utiliza uma Rede Neural Artificial (RNA) do tipo Multilayer Perceptron para rotular os clusters, o que não pode ser aplicado ao problema tratado neste trabalho devido à presença de atributos com valores nominais que não poderiam ser analisados por uma RNA.
Foi inserida uma etapa extra, chamada de pré-processamento, onde é feita uma análise inicial dos dados para compreender a estrutura das tabelas, valores dos atributos, formatos e tipos de dados, além de toda a operação necessária à escolha dos dados relevantes aos objetivos do projeto. Nesta fase foram escolhidos quais atributos serão levados em consideração. Visando o objetivo da pesquisa de obter os padrões que descrevem os perfis dos diferentes clusters de alunos, foram escolhidos atributos acadêmicos e socioeconômicos.
4. Cronograma das Atividades
ATIV
...