Como funciona os motores de busca na web
Por: Juliana2017 • 29/11/2017 • 2.117 Palavras (9 Páginas) • 502 Visualizações
...
exemplo, procurar o "o" em uma página seria irrelevante. Isso se chama "stop-words". Esses "stop-words" são automaticamente eliminados e, consequentemente, não são indexados. Note- se que existem muitos outros métodos de indexação.
A classificação
Bom, nós indexamos as páginas. Agora temos um pequeno problema: tem muita página! Por exemplo, a palavra "computador" retorna mais de 5 milhões de páginas para o Google. Tal motor de busca seria perfeitamente inútil: O infeliz do usuário ainda teria que percorrer esses 5 milhões de páginas para encontrar o mais relevante. Portanto, é indispensvel classificar essas páginas por relevância, ou seja, colocar em primeiro lugar as páginas com mais probabilidade de dar a resposta correta para a palavra solicitada. Isso não é tarefa fácil! Existem vários métodos diferentes. Veja dois:
A classificação semântica
O motor de busca vai tentar adivinhar o campo semântico de uma página classificá-la: Se uma página contém a palavra "temperatura", mas também "maçã", "fogão", "massa", é bem provável que a página fale de pastelaria. Se uma página contém a palavra "temperatura", mas também "lua", "telescópio", "apogeu", é bem provável que a página fale de astronomia. Isto permite classificar as páginas e retornar ao usuário as mais prováveis de serem relevantes. Por exemplo, se um usuário procurar por "Temperatura do planeta": "Temperatura", por si só, é ambíguo mas "planeta" pertence ao campo semântico da astronomia. O motor de busca retornará, com prioridade, as páginas que estiverem classificadas na categoria "astronomia".
Porém, se ele procurar apenas "temperatura", o motor de busca não terá como adivinhar o que o usuário realmente quer: ele retornará inúmeras páginas com a palavra temperatura. É por isso que, às vezes, você tem a impressão que os motores de busca te retornam muitos resultados sem nenhum interesse. Para obter resultados mais precisos, adicione palavras à sua consulta. ("temperatura do bolo", "temperatura do fogão", "temperatura da cozinha", etc ...). Quanto mais palavras você adicionar à sua pesquisa, mais a pesquisa será precisa e menos páginas serão retornadas. Durante a pesquisa, pode ser útil, usar sinônimos ou palavras que pertençam ao mesmo campo semântico, para obter outros resultados.
A classificação por links
A priori, quanto mais links para uma página, mais esta página deve se referir a um domínio. Lógico, não? É o que faz (entre outros) o Google para classificar as páginas: Quanto mais links para uma página, mais esta página "subirá" nos resultados do Google. (Exemplo: Muitas pessoas fizeram links para o meu site. Assim sendo, sebsauvage.net aparece na 4 ª posição no Google quando procuramos a palavra "Comprendre"). Em teoria, é genial e os resultados são muito relevantes! Mas na prática ... veremos mais adiante. Existem muitos outros métodos para calcular a relevância das páginas mas, estes são segredos bem guardados dos diversos
---------------------------------------------------------------
motores de busca. Os motores de busca se disputam muito mais pela clasificação de relevância das páginas do que pelo número páginas indexadas. O Google conseguiu se sair bem tanto em relação ao número de páginas indexadas quanto à relevância de páginas retornadas (mesmo se isso não parece granformidável à primeira vista).
A pesquisa
O motor de busca vai te apresentar um formulário (mais ou menos evoluído) que te ajudará a encontrar o que quer. Eles teem, como opção, critérios de pesquisa adicionais para ajudá-lo a encontrar, com mais precisão, o que você quer. Então, estes critérios de pesquisa são enviados para o motor de busca que vai analisá-lo, a seu pedido, remover os "stop-words", selecionar as páginas que atendam a seus critérios (graças aos índices), classificá-las e, em seguida, apresentar os resultados. A forma tradicional de apresentar os resultados é a do Google, mas existem outros. O kartoo.com tenta apresentar as páginas relacionadas (mais ou menos próximas) com palavras-chave. O Exalead mostra uma cópia da tela do site. etc. Alguns motores de busca também tentam detectar os erros de digitação, oferecendo páginas com palavras muito semelhantes, ou sugerindo uma ortografia alternativa para a sua palavra. Alguns, como o
Kartoo, propõem outras palavras ou termos que estão presentes nas páginas de resultados.
As características
Alguns motores de busca oferecem recursos adicionais. Às vezes, os motores de busca também indexam outras coisas de índice além da web. Por exemplo, o Google pode indexar arquivos PDF, Word (.doc) ou PowerPoint (.ppt/.pps). Isso permite ampliar as buscas além das páginas html. Outro exemplo: O Google Scholar, por exemplo, indexa os documentos universitários (relatórios, teses,...). Eles também podem se alimentar em outras fontes (agência de jornalismo, agências científicas, grandes bibliotecas e várias empresas). Alguns motores também oferecem buscas especializadas (automaticamente limitadas a um domínio). Por exemplo, o Google tem um motor que especializado em tudo o que é Linux (http://www.google.com/linux), Microsoft, Apple... Isso permite obter resultados de pesquisas que não sejam parasitados por páginas inúteis. Outro exemplo é o motor de busca koders.com que pode pesquisar exclusivamente em código de softwares OpenSource. Alguns motores são especializadas em determinados tipos de arquivos. Por exemplo, o findsounds.com é especializado em busca de sons. Alguns motores também tem a possibilidade de usar palavras-chave. Por exemplo, o Google tem palavras-chave para restringir a busca a um site, encontrar todas as páginas que teem um link para um determinado site, etc.
As desvantagens
Idealmente, temos tudo para obter bons resultados e páginas que nos interessem. Na prática ... este não é bem o caso.
Poluição
Alguns parasitas estragam completamente os resultados e trapaceiam, para aparecer no topo da lista nos resultados de busca. Por quê? Simplesmente para ganhar dinheiro (através dos banners de
...