Biblioteconomia, museologia e arquivologia
Por: Juliana2017 • 10/11/2018 • 3.221 Palavras (13 Páginas) • 356 Visualizações
...
A base de dados de documentos e a base de dados das representações de documentos, hoje, já não são sempre distintas. Tornam-se cada vez mais comuns representações de documentos contendo não apenas termos de indexação, mas, também, resumos e, mais recentemente, tem se firmado a tendência das bases de dados conterem documentos em texto completo.
Do ponto de vista do usuário, os passos envolvidos no funcionamento de um SRI são semelhantes. As perguntas dos usuários passam por uma análise conceitual e são traduzidas para o vocabulário do sistema. Depois disso, é elaborada a estratégia de busca e formulada a expressão de busca, na qual os termos da busca são relacionados entre si através de operadores booleanos ou não booleanos. A estratégia de busca consiste em um plano para encontrar a informação desejada em que várias expressões de busca podem ser utilizadas. Através da expressão de busca, o sistema compara, então, as representações dos documentos com as das perguntas dos usuários. Na fase final, os documentos recuperados através da consulta ao sistema são apresentados ao usuário para que este julgue, então, sua relevância para as suas necessidades de informação. Pode ser que o usuário decida modificar a sua estratégia de busca com base nos documentos recuperados (feedback), reiniciando-se o processo.
1.3 A Pesquisa em Recuperação da Informação
As origens da pesquisa para avaliar e melhorar a performance de sistemas de recuperação da informação são encontradas em 1953, com a execução de testes, separadamente, na Grã-Bretanha e nos Estados Unidos, sobre o desempenho de um sistema de indexação então recém-lançado o controverso, o Uniterm, criado por Mortimer Taube. Esse sistema representava documentos por termos únicos retirados do título ou resumo, ao contrário de abordagens mais tradicionais para indexação por assunto. Os testes de avaliação foram executados pelo Armed Services Technical Information Agency (ASTIA), nos Estados Unidos (chamados de testes Uniterm e relatados por Gull, 1956), e pelo College of Aeronautics in Cranfield, no Reino Unido (chamados de “os testes Cranfield-Uniterm” e descritos por Thorne, 1955).
No teste ASTIA, dois grupos, um da equipe de indexação da ASTIA e o outro da empresa Documentation Incorporated, de Mortimer Taube, indexaram separadamente e pesquisaram a coleção, que consistia de 15 mil documentos, com 93 pedidos de busca que haviam sido submetidos à ASTIA por usuários reais. A equipe ASTIA indexou os documentos empregando os cabeçalhos de assunto ASTIA. A equipe da Documentation Incorporated usou os Uniterms. A medida de efetividade empregada pelos dois grupos foi a relevância dos documentos recuperados para a pergunta. Parece ter sido essa a primeira vez em que o conceito de relevância foi utilizado como um critério para avaliação de SRIs.
No mesmo ano dos testes ASTIA-Uniterm nos Estados Unidos, um outro teste que comparava a performance dos Uniterms com a de formas mais convencionais de indexação ocorreu no College of Aeronautics, em Cranfield, Reino Unido. Nesse teste comparou-se o desempenho dos Uniterms com o de um sistema de indexação tradicional, baseado na Classificação Decimal Universal. Usou-se uma coleção de 200 documentos dos quais 40, chamados documentos-fonte, foram selecionados para derivar 40 perguntas de busca. O critério de efetividade foi o sucesso de se recuperar o documento-fonte, ou seja, aquele que havia gerado a pergunta de busca. Esse procedimento representava uma maneira de se evitar o difícil julgamento de relevância. Os resultados desse teste, embora sujeitos a questionamento pela metodologia adotada, demonstram a superioridade dos Uniterms, que recuperaram 85% dos documentos-fonte, versus a Classificação Decimal Universal, que recuperou apenas 50% dos documentos.
[São tidos como limitações desse teste (1) o fato de não ter sido considerada na avaliação da performance do sistema a recuperação de outros documentos além do documento-fonte, fossem estes relevantes ou não; e (2) o favorecimento de sistemas de recuperação baseados no uso de termos e não de conceitos, já que as perguntas de busca foram derivadas dos termos utilizados nos documentos. (Ellis, 1996)]
Mais dois testes, chamados Cranfield I e II, são marcos nas origens da pesquisa em recuperação da informação. O Cranfield I, iniciado em 1957, foi similar na sua concepção e execução ao Cranfield-Uniterm, mas numa escala mais ambiciosa – nele foi utilizada uma coleção de 18 mil documentos em engenharia aeronáutica. Essa coleção foi indexada usando-se 4 sistemas de indexação a serem comparados em sua eficiência de recuperação. Um conjunto de 1.200 perguntas de busca foi criado com base em documentos-fonte. A coleção foi então pesquisada a partir dessas perguntas. Caso o documento-fonte fosse localizado, a busca era considerada bem-sucedida. As buscas malsucedidas, que não conseguiam recuperar os documentos-fonte, foram analisadas para se identificar se a causa do insucesso eram problemas relativos à formulação da pergunta de busca, à indexação, à busca ou ao sistema.
Os resultados, sujeitos às mesmas críticas que os do teste anterior, mostraram que todos os sistemas testados operavam com níveis semelhantes de desempenho, em termos de sua capacidade de recuperar os documentos-fonte: o Uniterm atingiu 82% de sucesso, os cabeçalhos de assunto, 81,5%; a Classificação Decimal Universal, 75,6% e o esquema de classificação facetada, 73,8%.
[No Cranfield I, foi especialmente criticado o uso de documentos-fonte tanto para derivar as perguntas como para avaliar a efetividade da recuperação da informação, já que numa situação real o documento-fonte geralmente não existe. Criticou-se também o fato de que a relação entre o documento-fonte e a pergunta de busca era muito próxima. (Ellis, 1996)]
A segunda série de testes do Instituto Cranfield, realizada em 1963, foi chamada de Cranfield II. Nesse teste, 33 diferentes linguagens de indexação foram construídas com diferentes terminologias e estruturas. As diferentes linguagens de indexação variavam na extensão do uso de termos simples ou compostos, hierarquias e controle de sinônimos e homógrafos. Uma diferença significativa nos procedimentos do teste, comparado ao do Cranfield I, foi que a medida de efetividade da busca de informação foi explicitamente baseada em relevância. O desempenho de cada linguagem de indexação foi julgado pela recuperação de itens identificados previamente como relevantes para a pergunta de busca. Foi também julgado o desempenho de cada linguagem em relação às medidas de renovação e precisão, as
...