Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы представления графических данных-1.docx
Скачиваний:
24
Добавлен:
13.02.2015
Размер:
627.99 Кб
Скачать

Основные принципы информационного поиска

Основные принципы информационного поиска были сформулированы еще в первой половине этого века. Между 1939 и 1945 годами У. Е. Баттеном была раз­работана система для отыскания патентов. Каждый патент классифицировался в соответствии с понятиями, к которым он имел отношение. Для каждого понятия, использовавшегося в системе, была создана 800-позиционная перфокарта. При регистрации в системе нового патента находились карты, соответствующие тем понятиям, которые в нем рассматриваются, и в позиции пробивались номера па­тента. Чтобы найти патент, в котором рассматривается одновременно несколько понятий, необходимо было совместить карты, соответствующие этим понятиям. Номер нужного патента определялся из позиции просвета.

Основные принципы информационного поиска с тех пор не изменились. На при­мере уже этой ИПС видно, как происходит процесс поиска. Во-первых, должен быть создан массив указателей на информационные ресурсы. Указатель (index) содержит в себе некое свойство документа и ссылки на документы, этим свой­ством обладающие. Указатели могут быть различных видов. Широко распространен, например, авторский указатель. Такой указатель позволяет получить ссылки на работы интересующего нас автора. Также указатели могут быть составлены и по другим атрибутам документа. В системе раттрня мгцплкаовался предметный указатель, то есть документы классифицировались по понятиям (предме­там), которые в них затрагиваются.

Процесс создания указателей на документы называется индексированием, а термины, использующиеся для индексирования, называются терминами индексирования. В случае с авторским указателем роль терминов индексирования будут выполнять фамилии авторов хранящихся в фонде работ. Совокупность используемых терминов индексирования называется словарем. Массив указателей, полученный после индексации информационных ресурсов, называется индексом (Index database).

После создания индекса к нему обращаются посредством запросов. Так как процесс Поиска заключается в сопоставлении запроса пользователя с имеющимися данными. Полученный запрос также должен быть переведен на язык индексирования, в индексе выполняется « поиск соответствующих запросу документов, пользовате­лю выдается список ссылок на подходящие ресурсы».

Для повышения скорости индексирования и поиска словарь и индекс должны быть упорядочены по системе, наиболее отвечающей задачам поиска в данной предмет­ной области.

Предметное индексирование и механизм поиска

Когда говорят об информационно-поисковой системе, подразумевают, что она использует предметный указатель. Предметный указатель позволяет отыскивать документы, касающиеся некоего предмета». Для составления предметного ука­зателя анализируется содержание документа и определяется «предмет» или «пред­меты » о которых в документе идет речь. Затем названия этих предметов переводятся на информационно - поисковый язык (ИПЯ). Таким образом, мы получаем поисковый образ документа (ПОД). Проиндексировав (создав поисковые образы) все информационные ресурсы, мы получаем то, что принято называть индексом (index database) — основной массив данных ИПС.

Так как процесс поиска заключается в сопоставлении запроса пользователя с имею­щимися данными, полученный запрос также должен рыть переведен на ИПЯ. После сопоставления переведенного на ИПЯ запроса и поисковых о6разов документов пользователь получает список ссылок на документы, которые соответствуют, по мнению системы, его запросу.

Как видно, поиск происходит не по тексту документов, а по их поисковым образам, составленным на ИПЯ. Поэтому ИПЯ — основная часть информационно-поиско­вой системы, от которой в первую очередь зависит качество системы.

В состав информационно-поискового языка входят:

  • Словарь индексационных терминов — множество терминов индексирования.

  • Кодовый словарь — множество кодовых терминов.

  • Словарь входов,— множество входных терминов.

  • Вспомогательные средства языка индексирования — средства, используемые совместно с индексационными терминами для расширения или сужения опре­деленных понятий.