Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

База данных / examen / theme_02_IS

.pdf
Скачиваний:
42
Добавлен:
18.03.2015
Размер:
422.56 Кб
Скачать

Тема 2. Технологии текстового поиска. Информационно-поисковые системы. Информационно-поисковые языки.

§1. Назначение и основные понятия систем текстового поиска.

Текст является одной из основных форм обмена информацией в обществе. Не случайно представленная в различных форматах текстовая информация составляет весьма значительную долю информационных ресурсов действующих в настоящее время информационных систем. Поэтому создание и развитие технологий обработки текста привлекали большое внимание на всех этапах развития информационных систем

Наиболее распространенными системами этой категории являются системы тексто-

вого поиска или как их еще называют информационно-поисковые системы. Их задача заключается в том, чтобы находить в заданных коллекциях документов на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.

Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ИПС -проведения информационного поиска.

В широком смысле под информационным поиском понимается последовательность операций, направленных на предоставление информации заинтересованным лицам.

Вобщем случае информационный поиск состоит из четырех этапов:

1.уточнение информационной потребности и формулировка запроса;

2.определение совокупности держателей информационных массивов;

3.извлечение информации из информационных массивов;

4.ознакомление пользователя с полученной информацией и оценка результатов по-

иска.

Можно выделить два вида информационного поиска:

1.Атрибутивный поиск – поиск существующего документа по одному или нескольким известным атрибутам, которые сопоставляются каждому из документов. Эта система поиска используется в фактографических системах хранения документов. К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и так далее.

2.Полнотекстовый поиск - поиск всей совокупности документов по определенному тематическому направлению. В этом случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы поиска используются в документальных хранилищах. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Полнотекстовый поиск широко применяется на

поисковых серверах Интернет.

Основная единица информации в системах текстового поиска называется документом. Документ - это порция информации, обладающая законченным содержанием и како- го-либо рода уникальным идентификатором. В ранних системах документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик» В более развитых системах содержание документа доступно системе для обработки и анализа.

Системы текстового поиска оперируют электронными документами, то есть документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-либо графического файла. Необходимо иметь документ в оцифрованном виде, то есть в таком формате, когда каждая литера представляющего его текста программно доступна. Представление текстового до-

1

кумента в оцифрованном виде создается, например, с помощью

ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора,

сканирования его с бумажного носителя и использования программы распознава-

ния оптических символов (Optical Character Recognition, OCR),

генерации текста программным путем распознавателями голоса и другими способами.

Врезультате проведения информационного поиска системы текстового поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Под действием получаемой информации информационная потребность людей постоянно изменяется и трансформируется. Вследствие этого ее невозможно однозначно выразить и описать. Однако информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке (ЕЯ), и представляет собой информационный запрос, с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Таким образом, при проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но по отношению к информационному запросу.

Для выражения данных отношений в теории систем текстового поиска введены два фундаментальных понятия: пертинентность и релевантность.

Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными.

Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, называются релевантными.

Невозможность использования естественного языка в качестве основного средства представления информации в информационно-поисковых системах приводит к необходимости применения искусственных языковых средств.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов

(ПОД).

Поисковое предписание - текст, включающий поисковый образ запроса и указания

ологических операциях, подлежащих выполнению в процессе информационного поиска. Поисковые предписания формируются при поступлении запросов.

Поисковый образ документа - поисковый образ, выражающий основное смысловое содержание документа. Поисковый образ документа содержит:

признаки, необходимые для поиска документа по запросу;

идентифицирующие и другие сведения о документе: выходные данные, тип, язык и т.д.

2

Для записи ПП и ПОД применяются специальные языки, называемые информацион- но-поисковыми.

Информационно-поисковый язык (ИПЯ) это знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова и выражения.

ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными.

В процессе проведения информационного поиска в ИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ИПС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной ре-

левантности - соответствии содержания ПОД и ПП. Фактическая релевантность, по-

нимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.

Введя основные определения теории систем текстового поиска теперь мы можем дать и основное определение системы текстового поиска(информационно-поисковой системы).

Система текстового поиска (информационно-поисковая система), совокупность информационно-поискового языка, правил перевода с естественного языка на информа- ционно-поисковый и обратного перевода, а также критерия смыслового соответствия, предназначенная для осуществления информационного поиска. В число составных частей конкретной ИПС, кроме указанных выше компонентов, входят также средства ее технической реализации, массив текстов (документов), в котором осуществляется информационный поиск, и люди, непосредственно участвующие в этом поиске.

3

§2. Общая функциональная структура информационно-поисковых систем

В состав типичной ИПС входят, как правило, четыре основные подсистемы:

1.Подсистема ввода и регистрации.

2.Подсистема обработки.

3.Подсистема хранения.

4.Подсистема поиска.

Рис. Общая функциональная структура ИПС.

Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);

обеспечение подключения к каналам доставки электронных документов;

распознавание, а при необходимости и преобразование формат электронных документов;

присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако такой тип представления базы документов характеризуется двумя недостатками:

неэффективным использованием дискового пространства;

низкой скоростью доступа при большом количестве файлов.

Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа.

ПОД сохраняются в индексе. Логически индекс представляет собой таблицу, строки которой соответствуют документам, а столбцы - информационным признакам, на осно-

4

ве которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0 - в зависимости от наличия или отсутствия данного признака в данном документе.

Очевидно, что такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таблицы по строкам или столбцам. Такую форму хранения называют прямой или инверсной соответственно. Поскольку при свертке таблицы структура индекса усложняется, для его поддержания могут использоваться средства СУБД.

При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

§3. Проблема формального представления смыслового содержания текста п.3.1. Недостатки естественного языка

Как известно, естественный язык является универсальной знаковой системой, служащей для обмена информацией между людьми. Поскольку документы, поступающие на вход ИПС, записаны на ЕЯ, справедливо было бы задаться вопросом, а нельзя ли использовать ЕЯ в качестве основного средства представления информации во время всего цикла функционирования ИПС? Ответ будет положительным, если речь идет о тех ИПС, в которых соответствие между запросом и документом устанавливает человек. Однако в современных ИПС эта операция выполняется компьютером, что практически исключает применение ЕЯ в качестве основного средства представления информации. Это объясняется существенными недостатками ЕЯ с точки зрения машинной технологии обработки информации, основные из которых рассмотрены ниже.

Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов:

контекст;

парадигматические отношения между словами;

текстуальные отношения между словами;

ссылки на слова (словосочетания, фразы и т.д.), ранее упоминавшиеся в тексте сообщения.

Семантическая неоднозначность. Сообщения, записанные на естественном языке, могут быть семантически неоднозначными. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов естественного языка.

Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие, которые отличаются одно от другого или оттенками значений, или стилистической окраской, или одновременно обоими названными признаками. Синонимами естественного языка являются как отдельные слова, так и словосочетания.

Многозначность характеризует возможность неоднозначного понимания смысла отдельных слов естественного языка. Многозначность слов представлена двумя разновидностями - полисемией и омонимией. Полисемия - это совпадение названий различных предметов, имеющих между собой какие-либо общие свойства или признаки. К типичным общим свойствам, служащим базой полисемии, следует отнести сходство предметов, их смежность (пространственную, временную и т.д.), а также одинаковое функциональное назначение. Примерами полисемии являются: "команда" (воинское подразделение) - "команда" (экипаж судна) - "команда" (спортивная). Омонимия - это совпадение названий различных предметов, не имеющих между собой каких-либо общих свойств. Например: "лук" (оружие) - "лук" (растение); "ключ" (родник) - "ключ" (дверной). Омонимичные слова, совпадающие между собой как по написанию, так и по звучанию, следует отличать

5

от омографов - слов, обозначающих различные предметы, одинаковые по написанию, но разные по звучанию, например: "замок" (дверной) - "замок" (дворец). Однако, поскольку ИПС оперируют с сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений, омографы могут быть приравнены к омонимичным словам.

Эллипсность. Во многих сообщениях на ЕЯ встречаются эллипсы или пропуски подразумеваемых слов. Эллипсность сообщения зачастую играет отрицательную роль при непосредственной работе с ним человека. Очевидно, что она тем более отрицательно скажется в том случае, если сообщения на ЕЯ будут обрабатываться компьютером.

п.3.2. Информационно-поисковые языки

Невозможность использования ЕЯ в качестве основного средства представления информации в ИПС приводит к необходимости применения искусственных языковых средств.

Информационно-поисковым языком (ИПЯ) называется специализированный ис-

кусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных типа:

классификационные языки,

дескрипторные языки.

Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора. Например:

Политика.Внутренняя.Федеральная Политика.Внутренняя.Региональная

Политика.Внешняя… Таким образом, с помощью таких языков производится классификация сообщений,

т.е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.

Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик. В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками - объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей. На нижеследующем рисунке приведен пример рубрикатора некоторой предметной области.

6

Рис. Пример рубрикатора

Следует подчеркнуть одну особенность классификационных языков. Поскольку сложные понятия задаются заранее, до начала процедуры записи сообщений с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых.

Другой тип языков составляют дескрипторные ИПЯ, Универсальными структурами дескрипторного языка являются лексические едини-

цы, парадигматические и синтагматические отношения.

Лексическая единица ИПЯ это обозначение отдельного понятия, принятое в ин- формационно-поисковом языке и неделимое в этой функции. Лексические единицы могут представлять собой принятые в естественном языке слова, устойчивые словосочетания, аббревиатуры, символы, даты, общепринятые сокращения, лексически значимые компоненты сложных слов, а также эквивалентные им кодовые или символические обозначения искусственного языка.

Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.

Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.

В дескрипторных ИПЯ ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции - предложения или фразы - создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые ха-

рактеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль". В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП не играет роли. Т.е. приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", "Иванов владеть автомобиль" и т.п.

Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в

7

то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.

§4. Обработка входящей текстовой информации

Т.к. документы, поступающие на вход ИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора - рубрицированием.

Всовременных информационно-поисковых системах используются автоматические методы индексирования и рубрицирования.

Автоматическое индексирование документов может основываться на простых, од-

нословных или многословных составных терминах (фразах).

При автоматическом рубрицировании выделяют два основных подхода: рубрициро-

вание, основанное па знаниях, и рубрицирование, основанное на обучении по примерам.

С более подробной информацией о методах автоматического индексирования и рубрицирования вы можете ознакомиться в книге В.В.Корнеева «Базы данных. Интеллектуальная обработка информации».

На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ИПС получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотекстовом индексировании.

Воперации перевода можно выделить два этапа:

1.Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними.

2.Выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений

на ИПЯ в ПОД).

Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В этой связи в современных ИПС этап анализа текста чаще всего сводится к лингвистическому анализу,

проводимому с целью нормализации слов и словосочетаний. Под нормализацией слов

понимается их приведение к канонической форме (например, для существительных - именительному падежу, единственному числу и т.п.), под нормализацией словосочетаний - нормализация составляющих и запись их в определенной последовательности (например, сначала записывается основное слово, а затем - зависимые слова). Нормализованные слова и словосочетания часто называют терминами.

п.4.1. Лингвистический анализ текста

Лингвистический анализ текста может состоять из двух этапов:

1.морфологического анализа;

2.синтаксического анализа.

Цель морфологического анализа состоит в получении основ (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей.

8

§5. Поиск текстовой информации п.5.1. Модели поиска текстовой информации

Модель поиска текстовой информации характеризуется четырьмя параметрами:

представлением документов и запросов;

критерием смыслового соответствия;

методами ранжирования результатов запроса;

механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Рассмотрим наиболее распространенные модели поиска.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели RSV равно либо 1, если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

Такая модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока. К тому же, ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Нередко результаты выглядят противоестественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в ИПС часто применяется обратная связь с пользователем. Как правило, система просит пользователя указать релевантность или нерелевантность нескольких документов, включенных в начало списка вывода. Поскольку результаты не ранжируются, выбор документов для подобной экспертной оценки релевантности затруднен.

Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. Тем не менее ИПС на основе подобной модели оказывается практически столь же не способной классифицировать полученные результаты, что и системы, базирующиеся на булевой модели.

Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели. Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из n нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.

9

Достоинство подобной модели в ее простоте. Она позволяет легко реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модели.

Вероятностные модели. В пространственно-векторной модели подразумевается, что векторы терминов, ортогональны и существующие взаимосвязи между терминами не должны приниматься во внимание. Кроме того, в такой модели не специфицируется степень соответствия "запрос - документ" и она оценивается достаточно произвольно. Вероятностная модель учитывает все взаимозависимости и связи терминов, а также определяет такие основные параметры, как веса терминов запросов и форма соответствия "запрос - документ".

Данная модель базируется на двух главных параметрах: Pr(rel) и Pr(nonrel), т.е. на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Подразумевается, что релевантность является бинар-

ным свойством, и поэтому Pr(rel) = 1 - Pr(nonrel).

п.5.2. Методы введения обратной связи с пользователем

В ИПС нет четкого представления документов и пользовательских запросов. Пользователи обычно начинают с неточного и неполного запроса, а следовательно - с низкой эффективности поиска, постепенно уточняя его методом итераций. Система поддерживает обратную связь с пользователем, позволяя тем самым оценить релевантность документов, найденных по первоначальному запросу. Такой подход позволяет повысить эффективность поиска.

Чтобы упростить представление обратной связи, будем считать, что используется пространственно-векторная модель поиска, а пользователю предоставлена возможность просто отметить: релевантен документ или нет.

Множество документов, считающихся релевантными, формируют положительную обратную связь, а множество документов, рассматриваемых как нерелевантные, - отрицательную.

Существуют два основных подхода к использованию такой обратной связи: моди-

фикация запроса и модификация представления документов. Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но никак не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние и на эффективность поиска в последующих запросах.

Модификация представления запроса. Существуют три способа повышения эф-

фективности поиска путем модификации представления запроса. Первый - модификация весов терминов - предусматривает корректировку весов терминов в запросе, осуществляемую путем сложения вектора запроса и векторов, представляющих документы, которые получили положительную оценку (положительную обратную связь). Наряду с этим возможна дополнительная корректировка за счет вычитания векторов, входящих во множество с отрицательной обратной связью. Переформулированный таким образом запрос должен возвращать дополнительные релевантные документы, аналогичные тем, что попали во множество с положительной обратной связью. Данный процесс можно повторять итерационно до тех пор, пока качество выборки и число документов в ней не достигнут приемлемого уровня.

Второй метод, называемый методом расширения запроса, модифицирует исходный запрос путем добавления к нему новых терминов. Эти термины выбираются из документа с положительной обратной связью и сортируются на основе их весов.

Третий метод называется расщеплением запроса. Если множество документов кластеризуемо, то запрос разбивается на подзапросы таким образом, чтобы каждый подзапрос представлял один кластер. Затем можно настроить весовые коэффициенты терминов подзапроса или расширить его с помощью методов, уже описанных выше.

10

Соседние файлы в папке examen