Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Поисковые системы_реферат (Автосохраненный).doc
Скачиваний:
10
Добавлен:
23.09.2019
Размер:
527.87 Кб
Скачать

1.2 Средства поиска. Основные характеристики поиска

Рисунок № 1- Схема взаимодействия пользователя с ИПС

Можно выделить следующие поисковые инструменты для WWW: поисковые системы, метапоисковые системы (поисковые службы) и программы ускоренного поиска (поисковые агенты).

Центральное место по праву принадлежит информационно-поисковым системам (ИПС).

ИПС – это система, обеспечивающая поиск и отбор необходимых данных в специализированной базе с описаниями источников информации на основе информационно-поискового языка и соответствующих правил поиска.

Каждая поисковая система имеет и постоянно пополняет свою (локальную) базу данных. База данных поисковой системы содержит основные параметры (индексы) каждого известного данной системе (проиндексированного) документа. Каждая поисковая система использует свои методы индексации. Кроме того, различные поисковые системы имеют разные объемы базы данных.

Главной задачей ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запросов. Очень важно найти в индексе все документы, относящиеся к запросу (полнота поиска). И не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

При индексации документов поисковые машины высчитывают так называемый "вес" слова на странице – соотношение количества повторов на странице заданного Вами слова к общему количеству слов на странице документа. Если Вы задаете запрос, состоящий из нескольких слов, то более релевантными будут документы, в которых совокупный вес слов будет максимальный. Однако при подсчете веса не учитывается, рядом или раздельно стоят данные слова, и поэтому нет гарантий, что в первых документах содержится максимальное количество повторений словосочетания. Вполне возможно, что такого словосочетания там вообще не будет.

В результате, механизм обработки запроса пользователя поисковой машиной выглядит следующим образом:

  • в соответствии с заданным в запросе ключевым словом или словосочетанием, машина проводит поиск в своей локальной базе данных, сверяя ключевое слово с наборами ключевых слов, соответствующих каждому документу из её базы данных;

  • затем, используя соответствующие алгоритмы, поисковая машина сортирует результаты поиска и выдает их пользователю;

  • в результате сортировки результатов, в начало списка помещаются наиболее соответствующие (с точки зрения поисковой машины) ключевым словам документы.

ИПС подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-машины.

Рисунок №2

Рассмотрим обобщенную схему взаимодействия пользователя с информационно-поисковой системой для всемирной паутины WWW . Пользователь с помощью стандартной программы-клиента для всемирной паутины (браузера) подключается к ИПС по ее адресу и формулирует запрос для поиска.

Основным компонентом ИПС является поисковая машина, которая проводит в индексе поиск ссылок на информационные ресурсы и выдает результаты поиска пользователю.

Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера. Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Internet. Глобальные поисковые системы в отличие от локальных стремятся по возможности наиболее полно описать ресурсы всего информационного пространства сети Internet.

Кроме того, ИПС могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и результаты поиска должны быть отсортированы таким образом, чтобы наиболее релевантные ссылки находились вверху списка.