Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы представления графических данных-1.docx
Скачиваний:
24
Добавлен:
13.02.2015
Размер:
627.99 Кб
Скачать

Правила использования языка индексирования.

Для повышения эффективности поиска словарь, используемый системой, должен быть контролируемым, то есть он должен быть организован таким образом, чтобы полнота и точность поиска была оптимальной. Очевидно, что организация слова­ря зависит от многих факторов — предметной области, в которой будет использо­ваться ИПС, характера интересов пользователей, степени их подготовки и т. д.

Для улучшения результатов поиска необходимо определить степень специфичнос­ти терминов, используемых при индексации. Принято использовать два принци­па — использование наиболее специфического термина, соответствующего объе­му и содержанию отражаемого понятия, и избыточное индексирование.

Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, свя­занные как с основным отношением обобщения или спецификации, так и ассоци­ативной связью. Дополнение поискового образа терминами с ассоциативной свя­зью может увеличить полноту поиска, но неизбежно понижает его точность.

Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.

Использование предметного индексирования не исключает использования при создании поискового образа атрибутов документа. Это могут быть такие атрибу­ты, как данные об авторе, дата публикации, язык публикации и т. д.

Стратегии поиска

Точность и полнота поиска зависят не только от характеристик самой ИПС, но и от того, как создается запрос. Идеальный запрос может быть составлен пользователем, в полном объеме знакомым с той предметной областью, которая его инте­ресует, а также с используемой ИПС. Остальные же пользователи вынуждены довольствоваться или низкой точностью поиска, или низкой полнотой. Для повышения качества поиска можно использо­вать различные методы. Наиболее употребляемый из них — использование логи­ческих операторов AND. OR, NQTT"

Использование логических операторов — довольно простой способ повысить ревалентность выдаваемых документов, но он имеет и свои недостатки.

Главный из них — плохая масштабируемость. Применение оператора AND может сильно сузить выдачу, а оператора QR - сильно расширить.

Степень точности и полноты поиска зависит от того, насколько общие термины использовались при формулировке запроса. Может быть неверным использование как наиболее общих терминов (возрастает уровень информационного шума), так и слишком специфичных терминов (снижается полнота поиска). Использование слишком специфичных терминов может быть чревато еще и тем, что в слова­ре ИПС этого термина может не оказаться. В общем виде процедура поиска является процедурой итеративной, то есть за этапом выдачи результатов поиска следует коррекция запроса, поиск по этому залросу и т. д. Схематично такая процедура показана на рис. 12.2.

Коррекция запроса происходит исходя из количества полученных документов и их релевантности, и может выполняться как пользователем, так и самой инфор­мационно-поисковой системой.

В зависимости от соотношения полноты и точности наеденных документов пользо­ватель может сузить или расширить область поиска, перейдя к более общим или, наоборот, более специфичным терминам, а также использовав родственные поня­тия. В случае поиска по нескольким терминам такая коррекция области поиска может происходить по одному из нескольких терминов, что позволяет изменять эту область достаточно плавно.

Может оказаться полезным знание пользователя о наличия определенно релевант­ных документов. Не найдя их в списке найденных документов, область поиска надо расширить.

Коррекция запроса системой информационного поиска происходит на основании анализа документов, помеченных пользователем как наиболее точно отвечающих его потребности. В таком случае при следующем поиске система ищет те докумен­ты, в которых, помимо заданных в первоначальном запросе, содержатся термины, встречающиеся в документах, отмеченных пользователем.

Улучшить результаты поиска можно различными способами, если функции для этого предоставляются интерфейсом информационно-поисковой системы.