Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс.doc
Скачиваний:
372
Добавлен:
02.05.2014
Размер:
4.3 Mб
Скачать

6.3.3. Методы количественной оценки релевантности документов

Количественные показатели релевантности — процент со­ответствия содержимого документа запросу, ранжирование (са­мый релевантный документ, менее релевантный, еще менее ре­левантный) и т. п., позволяют существенно увеличить конеч­ную эффективность использования документальной системы, предоставляя пользователю возможность после отбора доку­ментов сразу сосредоточиваться на наиболее важных из них.

Определение количественных показателей релевантности документов в полнотекстовых ИПС основывается на тех или иных подходах по вычислению мер близости двоичных векто­ров документов и запросов.

Документ Dkпредставляется в системе двоичным вектором:

где dk,i =1, если словоформа под номеромiприсутствует вk-м документе, и 0, если отсутствует.

Аналогичным образом представляются поисковые образы запроса Zпользователя:

где zk = 1, если словоформа под номеромkприсутствует в зап­росе, и zk = 0, если отсутствует.

Критерии релевантностиподразделяются помоделям представленияисопоставления документовизапросов, к ко­торымотносятся:

• булева модель;

• модель нечетких множеств;

• пространственно-векторная модель;

• вероятностно-статистическая модель.

В качестве показателя (меры) релевантности документов используется так называемое значение статуса выборки (retrieval status value— RSV). В булевой моделикритерием ре­левантности являетсяполное совпадение векторов ПОД и ПОЗ. Соответственно RSV вбулевой модели определяется как логи­ческая сумма операций попарного логического произведения соответствующих элементов векторов ПОД и ПОЗ:

где k = 1,...,N, N —количество документов в базе, Lколиче­ство словоформ в словаре, &—логическая операция «И».

Значением RSVв булевой модели может быть единица (ре­левантный документ) или ноль (нерелевантный документ). По сути, булева модель не дает количественной меры релевантно­сти и ничем не отличается от простого поиска по индексу сис­темы с логической операцией «И» словоформ-дескрипторов.

В системах на основе модели нечетких множествзначе­ния компонент векторов ПОД и ПОЗ могут принимать не толь­ко два альтернативных значения —1 и 0 (термин принадлежит документу или не принадлежит), но и такое значение, как «не­полная, частичная принадлежность». Соответственно в моде­ли нечетких множеств переопределены и логические операции, чтобы учитывать возможность неполной принадлежности по­добных логических элементов анализируемым множествам (по­исковым образам запросов). Вычисление значений статуса вы­боркиRSVпроизводится аналогичным булевой модели обра­зом с учетом переопределения операции & («И»).

Несмотря на некоторое расширение выразительных воз­можностей представления и сопоставления документов и зап­росов, модель нечетких множеств, как и булева модель, не дает по-настоящему количественной меры релевантности, хотя дос­тоинством обеих моделей является их простота и невысокие вычислительные затраты на реализацию.

В системах на основе пространственно-векторных мо­делейпоисковое пространство представлено многомерным про­странством, каждое измерение которого соответствует слово­форме (термину) из словаря системы. Например, если в слова­ре всего три словоформы, то поисковое пространство является трехмерным, и т. д. В исходном варианте пространство имеет евклидову метрику, т. е. представляется ортогональным бази­сом нормированных векторов, отражающих соответствующие словоформы словаря системы. Поисковый образ документа и запроса в поисковом пространстве представляется многомер­ным вектором единичной длины, координаты которого отра­жают наличие или отсутствие в документе соответствующих словоформ. В случае трехмерной размерности пространствен­но-векторная модель иллюстрируется на рис. 6.10.

Показатель релевантности(по аналогии с булевой моде­лью будем обозначать егоRSV)для пространственно-вектор­ной модели в простейшем случае определяется скалярным про­изведением векторов ПОД и ПОЗ:

Рис. 6.10. Иллюстрация пространственно-векторной модели представления и сопоставления документов и запросов

Таким образом, определяемый показатель релевантности RSV может изменяться в диапазоне от 0 до N(N — число слово­форм или терминов в словаре системы) и действительно коли­чественно отражает степень релевантности документов. Так, в приведенном на рис. 6.10 примере значение RSV1 =2, а значе­ние RSV2 =1. Для выдачи пользователю конкретного набора ре­левантных документов информационно-поисковые системы ограничиваются выдачей документов, показатель релевантно­сти которых запросу RSV превышает некоторый заранее уста­новленный порог.

Следует также заметить, что при таком подходе абсолют­ные значения показателя релевантности зависят не только соб­ственно от самой степени релевантности, но и от количества N словоформ в словаре системы. Поэтому на практике применя­ютнормализованный вариант RSV,определяя его с учетом ор­тогональности и ортонормированности поискового простран­ства как косинус угла между вектором ПОД и вектором ПОЗ:

В этом случае RSV принимает значения от 0 до 1 и не зави­сит от объема словаря системы.

Определенным недостатком такого подхода к расчету ко­личественной меры релевантности является нечувствитель­ность к степени соответствия отсутствующих словоформ (терминов) в ПОД и ПОЗ.Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе дол­жно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документаи, то для запросазначениеRSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию явля­ется первый документ, а второй документ, скорее всего, затра­гивает более широкую тематику, не обязательно интересующую пользователя.

Такой чувствительностьюобладает показатель реле­вантности, определяемый следующим образом:

где и— дополнение к элементам и, т. е. , если и наоборот.

Если вернуться к предыдущему примеру с документами ,и запросом, тоRSV для пер­вого документа будет равным 5 (83%), а для второго доку­мента 2 (33%), что выглядит, конечно же, «справедливее».

Более развитым, но и более сложным подходом к опреде­лению мер близости ПОД и ПОЗ является учет разной значи­мости словоформ (терминов) и их зависимости друг от дру­га.В пространственно-векторной модели это означаетотход от ортогональности и ортонормированности базисных век­торов поискового пространства.В этом случае скалярное про­изведение векторов ПОД и ПОЗ более гибко и осмысленно от­ражает близость соответствующих векторов и, тем самым, смыс­ловое содержание документов и запросов.

В простейшем варианте подобного расширения простран­ственно-векторной модели различные словоформы в глобаль­ном словаре системы дополняются специальными весовыми коэффициентами,отражающимиважность соответствую­щей словоформы (термина) для конкретной предметной обласmu.Соответственно поисковые векторы документов и запро­сов в этом случае превращаются из двоичных векторов в обыч­ные, т. е. с любыми значениями (а не только 0 или 1) своих компонент. Иногда такой подход называют «окрашиванием»* глобального словаря системы. Следует также заметить, что в случае перехода от глобального словаря (отражающего все слова и словоформы) к словарю терминов происходит вырождение полнотекстового характера ИПС и она переходит в категорию систем на основе тезаурусов.

* В смысле окрашивания по определенной предметной области.

На практике применяются также и другие подходы, расши­ряющие возможности двоичной (ортогональной и ортонормированной) пространственно-векторной модели. Такие подходы базируются на вероятностно-статистической модели.При этом можно выделить две разновидности вероятностно-статис­тического подхода:

• придание весовых коэффициентов словоформам (терми­нам) глобального словаря вне контекста конкретного докумен­та;

• придание весовых коэффициентов компонентам векторов ПОД по итогам индексирования конкретного документа (с уче­том контекста конкретного документа).

Первый подходоснованна анализе итогов индексирования совокупности документов, уже вошедших в базу(хранилище) ИПС. Совокупность словоформ (терминов), обязательно при­сутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование докумен­тов. В качествечисловых характеристик весов значимости терминовиспользуются те или иные статистические пара­метры,такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разно­видностью такого подхода являетсяучет количества вхождений в совокупность документовбазы тех или иныхсловоформ или терминов.

Более сложные варианты развития первого подходаосно­вываются на технологиях«обучения»инастраиванияИПС на конкретные предметные области. Традиционный способ обу­чения основывается на использовании обучающей выборки до­кументов.Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубри­кам каталогов библиотек и т. п. Далее осуществляется исследо­вание обучающей выборки на предмет статистических показа­телей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является«окрашенность»(раз­личные весовые коэффициенты словоформ) словаря системы.

Другой подходосновывается наапостериорном выделении в поисковом пространстве«сгущений»векторов ПОД и после­дующем анализе совокупности и количественных данных вхож­дения в такие группы документов тех или иных словоформ (тер­минов). Предполагается, что такие группы соответствуют осо­бенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических пара­метров. Еще одним вариантом являетсяучет дискриминируемости (различимости) термина.Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое«расщепление»этих векторов, то такой термин считаетсяболее информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.

При втором подходе к реализации вероятностно-статисти­ческой модели различия в весах значимости словоформ или терминовпроявляются по результатам индексирования кон­кретного документа. В простейшем варианте анализируется,сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины счи­таются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где со­ответствующие словоформы или термины встречаются наибо­лее часто.

Отдельной ветвью развития второго подхода является ис­пользование обратной, интерактивной связи с пользовате­лем. В этом случае информационно-поисковая система стре­мится настроиться не столько на определенную предметную область, сколько на специфические особенности тематики ин­формационных потребностей конкретного пользователя. В об­щем видедля каждого пользователя ИПСсоздаетсвое поиско­вое пространство с индивидуальным окрашиванием компо­нентов векторов ПОД. Такоеиндивидуальное окрашивание производится путемзапрашивания системой у пользователя его оценки релевантности выданных на каждый текущий запрос документов.Уточнив у пользователя, какие на его взгляд доку­менты наиболее релевантны, система анализирует особеннос­ти и статистические параметры вхождения тех или иных сло­воформ (терминов) в эти наиболее релевантные документы, пе­реопределяет и уточняет их весовые коэффициенты. Тем самым в последующих запросах более адекватно и глубже учитыва­ются информационные потребности конкретного пользовате­ля.

Существуют и другие разновидности вероятностно-стати­стических подходов к расширению пространственно-векторной модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей ин­формации по деталям механизмов поиска и релевантности до­кументов оценить и проанализировать их эффективность довольно затруднительно.

В целом же информационно-поисковые полнотекстовые системы являются одним из наиболее интенсивно развиваю­щихся направлений документальных информационных систем, существенно продвигая теорию и практику информационного поиска документов и развивая методы анализа и автоматизиро­ванной обработки текстовой неструктурированной информации.