Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
lk_poisk_ex.doc
Скачиваний:
357
Добавлен:
04.06.2015
Размер:
1.39 Mб
Скачать

1.4 Общая схема процесса поиска

Существует два базовых подхода к поиску информации. Первыйзаключается в использовании специальных тематических каталогов и реализуется в классификационных ИПС. Для поиска документа в этом случае используются его название, выходные данные, тематика и другие реквизиты.

Второй подход, применяемый в словарных ИПС, использует для поиска словари, составленные из терминов, описывающих содержание индексированных документов, с которыми работают программные средства, называемые поисковыми машинами.

Наиболее продуктивной схемой поиска является комплексноеиспользование обоих основных подходов.

Независимо от типа поисковой системы, все операции информационного поиска можно разбить на четыре группы:

−информационный анализ,

−хранение информации,

−поисковые операции,

−выдача информации.

Общая схема процесса поиска в информационно-поисковой системе представлена на рис. 3.

Рис.3. Процесс поиска документа

Содержание документов и запросов в информационно-поисковых системах обычно описывается некоторыми наборами терминов, состоящими из отдельных слов или словосочетаний. Часто для характеристики терминов используются их веса, которые отражают предполагаемую важность каждого из терминов. Решение о выдаче того или иного документа принимается в результате сравнения наборов терминов, относящихся соответственно к документам и запросам. Вниманию пользователя предлагаются те документы, наборы терминов которых совпадают с наборами терминов запросов.

Наряду с отбором из документов определенных терминов существуют и другие способы их описания. Они подробно рассматриваются в следующих разделах. Здесь же важно отметить, что основа любого описания документа – это термины, входящие в его состав.

2. Представление информации в ипс

2.1. Индексирование документов

Первая задача, которую должна решить информационно-поисковая система – это создание описания документа или любого другого информационного ресурса. Такая процедура называется индексированием.

Основная цель процесса индексирования – поставить в соответствие каждому документу некоторое множество ключевых слов, отражающих содержание документа. Ключевые слова называются также идентификаторами, индексационными терминами, дескрипторами, понятиями. Ключевые слова управляют поиском, приводя в результате к тем документам, термины которых оказываются наиболее сходными с терминами запроса. Результатом индексирования является поисковый образ документа, который представляет документ в ИПС .

Любой метод индексирования основан на текстах исходных документов, или же на определенных фрагментах этих текстов (заглавия, рефераты и др.).

Обычный процесс индексирования состоит из следующих операций:

−отбор индексационных терминов, используемых для описания содержания документа;

−приписывание этим терминам некоторого веса, который отражает предполагаемую важность терминов.

−отнесение каждого термина к некоторому типу (например, к классу действий, свойств или объектов);

−определение отношений (синонимических, иерархических, ассоциативных и т. д.) между терминами.

В зависимости от принятой модели индексирования и поиска документов некоторые операции из вышеперечисленного списка могут быть исключены.

В большинстве ИПС для описания содержания документов и запросов используются полученные таким образом множества терминов с весами. Расчеты весовых коэффициентов обычно основаны на частоте появления данного термина в документе или частоте его появления во всех доступных документах.

Тем не менее, современные способы индексирования не ограничиваются анализом частотных параметров текста, предоставляя возможность весьма подробного описания документов. Коэффициенты значимости терминов определяются с учетом положения термина внутри документа (например, в заголовке) и взаимного расположения терминов в тексте.

Некоторые современные поисковые системы выполняют полнотекстовое индексирование, при котором в описание включается большой объем информации о документе: позиция каждого слова, раздел текста, в который входит данное слово, шрифт и т. д. В результате размер такого описания может превышать размер исходного документа .

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]