TÉCNICAS E MÉTODOS PARA PRESERVAÇÃO DE PRIVACIDADE NA MINERAÇÃO DE DADOS
Por: YdecRupolo • 27/10/2018 • 2.462 Palavras (10 Páginas) • 310 Visualizações
...
Essa técnica mencionada anteriormente é denominada KDD (Knowledge Discovery in Database - Descoberta de Conhecimento em Base de Dados), esse, usa ferramentas de software utilizadas pelo usuário que geralmente não sabe especificamente o que quer, porém está procurando por padrões determinados ou linhas de ação. Navegar através de grandes quantidades de dados para produzir relacionamentos de conteúdo está vinculado a este processo. Possibilita prever costumes e comportamentos (por exemplo, carrinho de compras de lojas, quando lhe recomendam um produto que outros usuários com o mesmo gosto também compraram), permitindo que as áreas de negócio sejam mais proativas e com decisões baseadas em conhecimento (FAYYAD ET AL. 1996B).
Empresas que visam garantir seu crescimento e obtenção de vantagens competitivas no mercado estão extremamente preocupadas com seu capital intelectual, uma vez que o conhecimento é de suma importância para o desenvolvimento econômico de uma organização. O uso de uma ferramenta de KDD tem como objetivo facilitar e agilizar a obtenção deste conhecimento. Deste modo, ao pensar em integrar tecnologia de informação (TI) e aprendizado para gestão do conhecimento organizacional, um ponto que ganha destaque imediato dentre os demais existentes é à descoberta do conhecimento em bases de dados que, talvez seja o tópico de maior relevância prática no contexto da atual gestão estratégica do conhecimento. A tecnologia é algo que se desenvolve predominantemente nas empresas por meio de conhecimentos acumulados e pelas suas manifestações físicas decorrentes (Chiavenato, 1987).
Para Han e Kamber (2000), a técnica de KDD é um processo de identificação de padrões de dados válidos, não triviais, potencialmente úteis e compreensíveis. É utilizado para descrever todo o processo de extração de conhecimentos dos dados, e possui varias etapas interligadas conforme apresentado na ‘Figura1’:
[pic 1]
- Limpeza dos dados: para remover ruídos e dados irrelevantes;
- Integração dos dados: onde fontes de dados múltiplos podem ser combinadas;
- Seleção dos dados: onde dados relevantes para a análise são recuperados do banco de dados;
- Transformação dos dados: onde os dados são transformados ou consolidados no formato apropriado para mineração;
- Mineração de dados: é um processo onde métodos inteligentes são utilizados a fim de extrair padrões de dados;
- Avaliação e representação do conhecimento: onde técnicas de visualização e representação de conhecimento são utilizadas para apresentar o conhecimento extraído para o usuário.
Alguns autores consideram KDD e Mineração de Dados como processos distintos (Fayyad et alii, 1996). Entretanto, em algumas bibliografias, o termo mineração de dados (Data Mining) tornou-se mais popular que o KDD e é utilizado quando se refere ao processo de identificação de padrões a partir de grandes quantidades de dados armazenados em bancos de dados ou outro tipo de banco de armazenamento (Han e Kamber, 2000).
O Data Mining (DM), também conhecido como Mineração de Dados, tornou-se uma ferramenta de apoio com papel fundamental à gestão da informação dentro das organizações. A manipulação dos dados e a análise das informações de maneira tradicional tornou-se inviável devido ao grande volume de dados (coletados diariamente e armazenados em bases históricas). Descobrir padrões implícitos e relacionamentos em repositórios que contém um grande volume de dados de forma manual deixou de ser uma opção. As técnicas de mineração passaram a estarem presentes no dia a dia.
Segundo Addrians & Zantinge (1996), Data Mining é uma tecnologia que emergiu da intersecção de três áreas: estatística clássica, inteligência artificial e aprendizado de máquina, sendo a primeira a mais antiga delas. Observa-se que o Data Mining é parte de um processo maior conhecido como KDD, mencionado na subseção do capítulo anterior, e permite a extração não trivial de conhecimento previamente desconhecido e potencialmente útil de um banco de dados.
Já TAN (2009), ressalta que Data Mining define o processo automatizado de captura e análise de grandes conjuntos de dados para extrair um significado, sendo usado tanto para descrever características do passado como para predizer tendências para o futuro.
Apesar dos bons resultados obtidos com a aplicação da Mineração de Dados, os desafios ainda são muitos. Diversos problemas relativos ao uso da mineração (tais como a segurança dos dados e a privacidade dos indivíduos), juntamente com o aumento na complexidade das estruturas de armazenamento, criam cenários complexos e desafiadores.
Temos ciência de que a privacidade é essencial para mantermos uma sociedade aberta em uma era eletrônica. Privacidade não é o mesmo que segredo. Assunto privado é o que determinado indivíduo não quer que todo o mundo saiba, por exemplo. Assunto secreto é alguma coisa que determinado indivíduo não quer que ninguém saiba. Ou seja, privacidade é a capacidade de se revelar seletivamente ao mundo (DONEDA, 2006).
Porém, como garantir a privacidade de informações confidenciais (ou sensíveis ou sigilosas) e a preservação da identidade de indivíduos neste processo de mineração? Esse questionamento guia o presente estudo como principal questão de pesquisa. Han (2006) ressalta que a privacidade na mineração de dados pode ser caracterizada como uma área que trabalha com a obtenção de resultados válidos de mineração de dados sem divulgar os valores subjacentes de dados sensíveis. Conforme mencionado no capitulo anterior, sobre privacidade, ‘privacidade é a capacidade de se revelar algo, seletivamente ao mundo’. Trazendo essa aplicação para a mineração de dados, é possível afirmar que o significado está na garantia de que um algoritmo de mineração de dados não permita uso indevido de informações pessoais.
O impacto social da mineração de dados, avaliando como se podem proteger as informações do uso indevido e da divulgação indevida (além da violação da privacidade individual e os direitos de proteção de dados) e a preservação da privacidade, calculando o risco de divulgar uma informação pessoal de um indivíduo através da observação do quão sensível são os dados minerados, são medidas que podem ser utilizadas na segurança e privacidade da mineração de dados (HAN, 2006).
A segurança e prevenção dentro da mineração de dados
...