Data Mining
Por: YdecRupolo • 2/1/2018 • 1.900 Palavras (8 Páginas) • 374 Visualizações
...
Portanto, a diferença entre KDD e Data Mining é: Enquanto KDD refere-se a todo processo de descoberta de conhecimento útil de dados, enquanto Data Mining refere-se à aplicação de algoritmos para extrair modelos dos dados.
---------------------------------------------------------------
---------------------------------------------------------------
- DIFERENÇA ENTRE UM MODELO DE CONHECIMENTO PREDITIVO E UM MODELO DESCRITIVO
Padrões preditivos são construídos com o objetivo de resolver um determinado problema de prever os valores de um ou mais atributos, em função dos valores de outros atributos.
O Padrão Descritivo tem como centro apresentar informações interessantes que um especialista do domínio da aplicação possa desconhecer.
---------------------------------------------------------------
---------------------------------------------------------------
- PROBLEMA
Sabe-se que ao preencher a declaração anual do Imposto de Renda, muitos contribuintes praticam a chamada sonegação ou evasão fiscal.
Ou seja, “escondem” rendimentos e “inventam” gastos inexistentes, visando pagar menos imposto.
É necessário elaborar um “sistema de malha” que seja capaz de detectar com precisão a ocorrência de tais infrações.
Detecção de Fraudes no Imposto de Renda
Quais seriam as primeiras providências a serem tomadas pela equipe após receber o problema? Justifique a resposta.
1 - Revisar todas as declarações de forma eletrônica na qual são efetuadas verificações com outros elementos.
O sistema irá cruzar as informações passadas pelos contribuintes com instituições bancárias. Ira analisar:
- Inclusão de despesas não dedutíveis entre as despesas médicas
- Inclusão de despesas não dedutíveis entre as despesas com educação
- Omissão da renda do dependente
- Omissão de receitas de diferentes fontes pagadoras
- Divulgação incorreta de valores
- Omissão do recebimento de pensão alimentícia
- Omissão do recebimento de aluguéis
- Inclusão não permitida de dependentes
2 - Iniciar o processamento dos dados dos contribuintes, realizar sequências de verificações para identificar erros de preenchimento e inconsistência das informações apresentadas, que podem caracterizar infração à legislação tributária.
3 - Caso haja alguma inconsistência dos dados, o caso é parado até a solução do problema.
- Ferramenta de KDD – DataStage
Integra todos os tipos de dados em plataformas distribuídas e mainframe. O IBM® InfoSphere® DataStage® integra dados entre múltiplos sistemas usando uma estrutura paralela de alto desempenho e suporta o gerenciamento de metadados estendidos e a conectividade corporativa. A plataforma escalável fornece integração mais flexível de todos os tipos de dados, incluindo Big Data de todos os dados (baseado em Hadoop) ou em movimento (baseado em fluxo), em plataformas distribuídas e mainframe.
O InfoSphere DataStage fornece estes recursos e benefícios:
- Plataforma ETL poderosa e escalável — suporta a coleta, integração e transformação de grandes volumes de dados, com estruturas de dados variando de simples a complexas.
- Suporte a Big Data e Hadoop — permite acessar diretamente Big Data em um sistema de arquivos distribuído e ajuda os clientes de forma mais eficiente a aproveitarem novas origens de dados fornecendo suporte JSON e um novo conector JDBC.
- Integração de dados quase em tempo real — assim como conectividade entre origens de dados e aplicativos.
- Gerenciamento de regras de carga de trabalho e negócios — o ajuda otimizar a utilização de hardware e priorizar tarefas essenciais.
- Facilidade de uso — ajuda a melhorar a velocidade, flexibilidade e efetividade para construção, implementação, atualização e gerenciamento de sua infraestrutura de integração de dados.
- Suporte enriquecido para DB2Z e DB2 for z/OS — incluindo otimização de carregamento de dados para DB2Z e otimização balanceada para DB2 on z/OS
[pic 1]
Fonte: http://etl-tools.info/en/datastage-tutorial-L009_datastage-jobs-real-life-solutions.htm
- Clusterização de Dados
Corresponde ao processo de agrupar os elementos (objetos) de uma base de dados (conjunto) de tal forma que os grupos formados, ou clusters, representem uma configuração em que cada elemento possua uma maior similaridade com qualquer elemento do mesmo cluster do que com elementos de outros clusters. As técnicas de clusterização vêm sendo tratadas com frequência na literatura para a solução de vários problemas de aplicações práticas em diversas áreas do conhecimento.
Berkhin, 2002 - Aponta como vantagens dos algoritmos de clusterização hierárquica a facilidade em lidar com qualquer medida de similaridade utilizada e a sua conseqüente aplicabilidade a qualquer tipo de atributo (numérico ou categórico).
As desvantagens relacionam-se à imprecisão do critério de parada e ao fato de que a maioria dos algoritmos desta classe não re-visitarem os clusters formados ao longo de suas execuções.
[pic 2]
Fonte: http://www2.ic.uff.br/~satoru/conteudo/artigos/ERI-Minicurso-SATORU.pdf
Nos algoritmos de aglomeração, que utilizam uma abordagem bottom-up, cada elemento do conjunto é, inicialmente, associado a um cluster distinto, e novos clusters vão sendo formados pela união dos clusters existentes. Esta união ocorre de acordo com alguma medida que forneça a informação sobre quais deles estão mais próximos uns
...