Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные информационно-поисковые системы.doc
Скачиваний:
114
Добавлен:
10.05.2014
Размер:
5.47 Mб
Скачать

28. Типы обратной связи в технологии информационного поиска.

Обратная связь по релевантности на уровне отдельных терминов должна обеспечить пользователю возможность целенаправленно изменять поисковой запрос путём повышения роли одних и повышения роли других терминов, не вникая в тонкости составления запроса, определяемые особенностями документального массива и ИПС.

В рамках модели (в соответствии с которой определяется обратная связь) существуют различные стратегии изменения весовых коэффициентов терминов, предлагаемых системой для расширения запроса, на основании информации о релевантности/нерелевантности выданных документов.

Диалоговая модель поиска «по обратной связи» с ИПС IRBIS отличается от модели эвристического поиска тем, что после выполнения системой очередного шага пользователю предоставляется возможность управлять дальнейшим процессом формирования результата, т.е. последовательность шагов в диалоговой модели дискретна и реализуется в зависимости от предпочтений пользователя.

Шаг 1. Построение и ранжирование словника релевантных документов.

W=(wi,i=(l,k)), где k – количество терминов релевантных документов, а wi – значение весового коэффициента для i-го термина, удовлетворяющее неравенству wi≥wi+1. пользователь в данном случае получает оценку всех терминов релевантных документов, которые находятся в частотном словаре, т.е. в ПОТ (поисковой образ темы) попадают все термины без исключения. По завершении первого шага пользователь самостоятельно отмечает термины, способные улучшить поисковой запрос. Отмеченные термины он далее может самостоятельно добавить в поисковой запрос для реализации моделей поиска по совпадению терминов или по логическому выражению или инициировать второй шал поиска по обратной связи.

Шаг 2. Формирование матрицы поисковых результатов. Термины, отобранные пользователем на предыдущем шаге, рассматриваются как исходные для проведения поиска по совпадению терминов. Модель этого механизма поиска реализуется в данном случае построением подматрицы запроса Lq, в которой отдельные строки могут быть нулевыми.

b– термин.

Для каждого ненулевого столбца матрицы построим вектор Qi– результат поиска аналогов с максимальным порогом близости. Полученные векторы рассмотрим как строки матрицы поисковых результатов:

QTheme=(qij,i=l,n,j=l,n0), где n – количество ненулевых столбцов матрицы.

Каждая строка сформированной таким образом матрицы снабжается контекстом – перечислением конкретных терминов, присутствующих в документах конкретного результата. Удалив из матрицы строки с одинаковым контекстом, получим кластеризованное пространство документов, где каждый кластер задаётся не только количеством терминов запроса, но и составом самих терминов. Матрица поисковых результатов QTheme даёт возможность обеспечить доступ к каждому отдельному результату для его просмотра и последовательного формирования нового множества релевантных документов.

29. Линейная модель механизма поиска по совпадению терминов.

При поиске по совпадению терминов задается требование полного или частичного совпадения. Частичное совпадение осуществляется с помощью маскирования.

Формирование поискового образа запроса (ПОЗ): выбираем из матрицы L0 строки, которые соответствуют терминам, указанным в запросе. Если термин не найден, ему ставится в соответствие строка, состоящая из нулей. Для k терминов получаем подматрицу запроса (Lq):

Построим результирующий вектор запроса:

Окончательный поисковый результат м.б. сформирован по двум правилам: документ считается формально релевантным запросу, если содержит все k терминов, или если содержит хотя бы часть (один, два, три и т.д.) из k терминов. При реализацииполучаем:

Для реализации 2-го правила зададим границу m, определяющую min-е количество терминов, необходимое для отнесения документа к релевантным документам.