Identificação de Aspectos de Candidatos Eleitorais em Comentários de Notícias com Base na Mineração de Opinião

Por: kamys17 • 27/12/2017 • 1.196 Palavras (5 Páginas) • 483 Visualizações

Página 1 de 5

...

1000 com o de Saúde. Sendo esses corpus gerados a partir da classificação da Folha de São

Paulo. Seguindo os seguintes passos: primeiro foi chamado de documento de domínio, após a

extração dessas notícias são geradas as palavras candidatas que são tratadas juntamente com o

documento de domínio e as palavras sementes pelas ferramentas citadas nos experimentos,

com isso são gerados os termos representativos, referentes aos aspectos, que

logo contribuirá para a identificação e a classificação dos aspectos em cada comentário.

---------------------------------------------------------------

Experimentos

Nessa parte são utilizadas as técnicas escolhidas para testar a teoria e chegar aos resultados,

que foram três: EMIM, Phi-Squared e LSI.

As técnicas escolhidas foram as que utilizaram co-ocorrência, que tem por objetivo descobrir

se as palavras candidatas poderiam se tornar significativas para determinado aspecto, por

exemplo, a palavra câncer, caso ela alcançasse resultado satisfatório nas técnicas propostas ela

seria considerado um termo representativo do aspecto Saúde. Sendo que para um melhor

funcionamento dessas técnicas todas as palavras foram limpas, tipo sem acento, hífen, ç.

Palavras Sementes

Para definir “a base” dos termos representativos dos aspectos foi considerado as palavras

sementes, desse modo se o comentário tiver palavra semente ele é contado como um

comentário que menciona aspecto.

EMIM (Expected Mutual Information Measure)

Essa técnica compara a probabilidade de se ver duas palavras x e y, onde x é uma palavra

candidata e y uma palavra semente, juntas com a probabilidade de vê-las separadas.

Caso o resultado seja maior que zero x passa a ser considerado um termo representativo.

Experimentos anteriores foram ruins usando só esse critério. Para melhorar os resultados foi

usado o resultado do EMIM com o número de vezes que x e y co-ocorrem em todo o

documento. O melhor experimento nessa abordagem foi o que uniu o conjunto de candidatas

com sementes onde x e y co-ocorrem no mínimo 10 vezes em todos os documentos do

domínio.

Phi-Squared

Ela é uma medida estatística que favorece altas ocorrências de um evento escolhido.

Com essa técnica também foram feitos vários experimentos variando o valor mínimo. Como

no EMIM também foi levado em conta com o número de vezes que x e y co-ocorrem em todo

o documento. Por fim o experimento com melhor resultado foi o que teve o valor mínimo de

0,02 e onde x e y co-ocorrem no mínimo 20 vezes em todos os documentos do domínio.

---------------------------------------------------------------

LSI (Indexação Semântica Latente)

Essa abordagem não funciona como a maioria dos métodos de busca, procurando apenas pelas

palavras chaves, ela também acha outras informações, como sinônimos e palavras

relacionadas.

Nesse experimento foi verificada a frequência que as palavras candidatas e sementes co-

ocorriam no corpo da notícia, e para alcançar melhores resultados houve variações de

similaridade no LSI das palavras sementes.

Resultados

Para avaliação dos resultados foram usadas as métricas de Precisão (quantas vezes foram

encontradas do total), Revocação (), F-score (tipo uma média) e Acurácia (que seria mais ou

menos como a confiabilidade da técnica utilizada). Foram considerados como comentários

relevantes de um determinado aspecto só aqueles que tiveram concordância entre os critérios.

Baseado no F-score a abordagem com a melhor avaliação do aspecto Saúde foi a Phi-Squared.

Já para o aspecto Educação foi com a técnica EMIM. Também houve uma mescla das duas

técnicas, mas não foi obtida nenhuma diferença no resultado final.

Como foram usados os comentários para se chegar aos resultados, foram feitos experimentos

também com as próprias notícias para efeito de comparação dos resultados e verificação das

técnicas em textos com melhor qualidade de escrita. Chegando a números parecidos daqueles

dos comentários.

Conclusão

Com base nesse estudo de caso foi possível constatar a utilidade e a eficiência da identificação

de aspectos, nesse caso em fonte de dados menos estruturada, tais como comentários. Porém,

ainda é preciso melhorar alguns pontos na identificação de aspectos, como: palavras

compostas

...

Baixar como txt (8.9 Kb) pdf (50.4 Kb) docx (16.7 Kb)

Continuar por mais 4 páginas »

Ler documento completo Salvar

Disponível apenas no Essays.club