Identificação de Aspectos de Candidatos Eleitorais em Comentários de Notícias com Base na Mineração de Opinião
Por: kamys17 • 27/12/2017 • 1.196 Palavras (5 Páginas) • 298 Visualizações
...
1000 com o de Saúde. Sendo esses corpus gerados a partir da classificação da Folha de São
Paulo. Seguindo os seguintes passos: primeiro foi chamado de documento de domínio, após a
extração dessas notícias são geradas as palavras candidatas que são tratadas juntamente com o
documento de domínio e as palavras sementes pelas ferramentas citadas nos experimentos,
com isso são gerados os termos representativos, referentes aos aspectos, que
logo contribuirá para a identificação e a classificação dos aspectos em cada comentário.
2
---------------------------------------------------------------
Experimentos
Nessa parte são utilizadas as técnicas escolhidas para testar a teoria e chegar aos resultados,
que foram três: EMIM, Phi-Squared e LSI.
As técnicas escolhidas foram as que utilizaram co-ocorrência, que tem por objetivo descobrir
se as palavras candidatas poderiam se tornar significativas para determinado aspecto, por
exemplo, a palavra câncer, caso ela alcançasse resultado satisfatório nas técnicas propostas ela
seria considerado um termo representativo do aspecto Saúde. Sendo que para um melhor
funcionamento dessas técnicas todas as palavras foram limpas, tipo sem acento, hífen, ç.
Palavras Sementes
Para definir “a base” dos termos representativos dos aspectos foi considerado as palavras
sementes, desse modo se o comentário tiver palavra semente ele é contado como um
comentário que menciona aspecto.
EMIM (Expected Mutual Information Measure)
Essa técnica compara a probabilidade de se ver duas palavras x e y, onde x é uma palavra
candidata e y uma palavra semente, juntas com a probabilidade de vê-las separadas.
Caso o resultado seja maior que zero x passa a ser considerado um termo representativo.
Experimentos anteriores foram ruins usando só esse critério. Para melhorar os resultados foi
usado o resultado do EMIM com o número de vezes que x e y co-ocorrem em todo o
documento. O melhor experimento nessa abordagem foi o que uniu o conjunto de candidatas
com sementes onde x e y co-ocorrem no mínimo 10 vezes em todos os documentos do
domínio.
Phi-Squared
Ela é uma medida estatística que favorece altas ocorrências de um evento escolhido.
Com essa técnica também foram feitos vários experimentos variando o valor mínimo. Como
no EMIM também foi levado em conta com o número de vezes que x e y co-ocorrem em todo
o documento. Por fim o experimento com melhor resultado foi o que teve o valor mínimo de
0,02 e onde x e y co-ocorrem no mínimo 20 vezes em todos os documentos do domínio.
3
---------------------------------------------------------------
LSI (Indexação Semântica Latente)
Essa abordagem não funciona como a maioria dos métodos de busca, procurando apenas pelas
palavras chaves, ela também acha outras informações, como sinônimos e palavras
relacionadas.
Nesse experimento foi verificada a frequência que as palavras candidatas e sementes co-
ocorriam no corpo da notícia, e para alcançar melhores resultados houve variações de
similaridade no LSI das palavras sementes.
Resultados
Para avaliação dos resultados foram usadas as métricas de Precisão (quantas vezes foram
encontradas do total), Revocação (), F-score (tipo uma média) e Acurácia (que seria mais ou
menos como a confiabilidade da técnica utilizada). Foram considerados como comentários
relevantes de um determinado aspecto só aqueles que tiveram concordância entre os critérios.
Baseado no F-score a abordagem com a melhor avaliação do aspecto Saúde foi a Phi-Squared.
Já para o aspecto Educação foi com a técnica EMIM. Também houve uma mescla das duas
técnicas, mas não foi obtida nenhuma diferença no resultado final.
Como foram usados os comentários para se chegar aos resultados, foram feitos experimentos
também com as próprias notícias para efeito de comparação dos resultados e verificação das
técnicas em textos com melhor qualidade de escrita. Chegando a números parecidos daqueles
dos comentários.
Conclusão
Com base nesse estudo de caso foi possível constatar a utilidade e a eficiência da identificação
de aspectos, nesse caso em fonte de dados menos estruturada, tais como comentários. Porém,
ainda é preciso melhorar alguns pontos na identificação de aspectos, como: palavras
compostas
...