Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

быть реализован по «одноактной» схеме – операцией проверки, есть ли в базе данных документы, имеющие заданное значение атрибута.

Для того чтобы пользователь имел возможность реально управлять процессом поиска (на основе объективных данных, позволяющих оценить эффективность выполняемых действий), необходимо произвести декомпозицию целостной с точки зрения конечной задачи пользователя запросно-ответной схемы процесса поиска. Такая функциональная декомпозиция должна в итоге обеспечить возможности для последовательного снятия неопределенностей всех типов, что в организационном плане выражается в выделении подпроцессов-процедур и соответствующих операционных объектов. С точки зрения целевого назначения ИС, то есть для процесса поиска в целом, мы имеем всего два типа основных операционных объектов - запрос и документ, которые представляют средствами языка некоторый семантически целостный фрагмент предметной области. Другие операционные объекты - технологические в рамках декомпозированного процесса – это самостоятельные семантически значимые объекты метаинформационного назначения, или объекты, производные от основных44. Назначение и природа технологических объектов – дать возможность локализовать и снять или зафиксировать неопределенность отдельного типа.

И запрос, и документ являются моделями, представляющими средствами языка отдельные части и аспекты некоторого целостного фрагмента предметной области.

Используя определение понятия «система» применительно к схеме «основная - информационная деятельность» (глава 2), получаем, что в контексте уровневой модели преобразования информационных объектов фрагменту ПрО можно поставить в соответствие два взаимосвязанных подмножества систем {Si} и {Si1}.

Подмножество систем Si представляет предметную область на «вещном» уровне, где mi, Ri – объекты и связи предметной области, выделяемые в рассмотрение в соответствии с целями ОД, задаваемыми Zi, и характеристическими признаками Ai .

Подмножество систем Si1 , представляющее ПрО на информационном уровне, образуется отдельными сообщениями, где, соответственно, mi, Ri – имена объектов и связей (уже включая отношения терминологической системы), а Zi отражает еще и точку зрения автора сообщения.

Документ является конкретной (хотя и не единственной) формой выражения определенной проблемной ситуации (разрешение которой было предметом ОД, что и привело к появлению этого документа). ПОД представляет эту конкретику композицией в общем случае не уникальных характеристических признаков, выбираемых из множества призна-

44 Отметим, что имеющие лингвистическую природу, как основные, так и технологические объекты могут быть представлены как в прямой, так и в инвертированной форме.

ков, свойственных и другим объектам, информация о которых хранится в базе данных.

Цель создания ПОДа – представить изначально уникальный смысл документа компактной композицией признаков (например, в случае дескрипторных ИПЯ - ключевых слов), по возможности, не увеличивая комбинативность порождаемых ими возможных смыслов.

Цель построения ПОЗа – сохраняя уникальность проблемной ситуации, увеличить комбинативность смыслов, порождаемых композицией поисковых признаков запроса, для того, чтобы максимально охватить аспекты представления объекта поиска.

Для человека идеальной коммуникативной формой представления реальной ИПП является вербальная, где характеристические признаки неизвестного (искомого) будут связаны с конкретным контекстом проблемной ситуации, то есть запрос фактически будет представлен как документ, содержащий высказывания, которые в гипотетической форме описывают предположительно существующие объекты45.

Для задач ИС реальные объекты и связи отражаются в форме высказываний (описательно), которые воплощаются в виде логически связанных предложений документа. Принципиальным отличительным свойством высказываний при этом является изначальная контекстная определенность (хотя этот контекст, возможно, представлен только в сознании высказывающего). Отдельное высказывание, воспринимаемое как грамматическая форма (предложение), может порождать в сознании воспринимающего несколько смыслов, и исходный смысл высказывания будет воспринят только при условии передачи исходного контекста.

Именно потому, что воспринимающий использует ситуационную или собственную контекстную составляющую, человек извлекает из текста больше информации, чем явно выражено словами. В этом случае смысл слов на основе этого контекста может быть развернут до полных высказываний. Такое развертывание при восприятии текста человеком происходит неосознанно: человек, восстанавливая или генерируя смысл, не производит явного выделения лингвистических, логических и предметных компонентов в полученном сообщении – в сознании человека они неотделимы друг от друга и не представлены в «чистом» виде.

Необходимость выделения объектов появляется при частичной или полной автоматизации. Декомпозиция цельного процесса поиска- восприятия-использования информации необходима для распределения функций между подсистемами. Именно для перехода от предметного

45 При этом содержание запроса частично или полностью может быть представлено реально существующими в БД документами (либо как решениями проблемной ситуации, либо как информационными сообщениями, имеющими какую-либо семантическую общность с ИПП). Это является основанием для утверждения, что форма и способ представления запроса принципиально имеет двойственную природу: при стремлении к совершенной вербальной (однородной и целостной) форме выражения запроса, в силу неизвестности, присущей реальной ИПП, часть или весь запрос может быть представлен в форме отдельных документов или их кластеров, что соответствует дискретной, фрагментарной «мозаичной» форме.

уровня (реальной потребности) к лингвистическому (запросу и его поисковому образу – выражению формализованной ИПП средствами языка) и, далее – к технологическому, необходимо явно выделить еще и логический уровень, где в качестве операндов используются понятия и структуры, что и обеспечивает переход к формированию формализованной ИПП (объекты, связи и контекст их представления) на уровне имен

илингвистических связей.

Вслучае процесса построения запроса с использованием слов естественного языка, которым свойственны синонимия и полисемия, для неискажающего смысл межуровневого перехода применяются метаинформационные, внешние по отношению к сообщению конструкции, позволяющие фиксировать (выбирать или указывать) контекст словоупотребления.

Полнота и точность передачи контекста при такой организации процесса зависят от вида запроса: для типовых по отношению к предметной области, и потому хорошо представленных метаинформационными средствами они могут быть высокими, а для запросов проблемных

низкими. При этом в процессе явно не передается ни контекст, ни характер неопределенности. Поэтому первым шагом должна быть локализация реальной ИПП – структурно-логическая декомпозиция ПрО, при которой для возможных аспектов рассмотрения объекта поиска выделяются характеристические понятия и связи. Это преимущественно не автоматизируемый процесс выделения структурных единиц мышления (понятий и высказываний), содержанием которых является предметная информация, а метаинформационная составляющая является априорной

иобеспечивает семантику имен понятий, отражающую устоявшуюся прагматику предметной области, рассматриваемой в отдельных аспектах.

Следующий шаг – переход на лингвистический уровень – это нахождение множества имен понятий и, соответственно, терминов, образующих класс условной эквивалентности для каждого из исходных объектов в заданном аспекте. Другими словами, это формирование возможных вариантов грамматических (терминологических) конструкций, выражающих существо ИПП в каждом из возможных аспектов рассмотрения. Метаинформационный компонент обеспечивает семантику слово-

употреблений, характерную для языка и отражающую практику индексирования. Этот шаг достаточно эффективно автоматизируется46, однако вероятностный характер процесса построения классов условной эквива-

46 Основой этого являются исследования и разработки в области теоретической и прикладной лингвистики – создание машинных словарей, средств и алгоритмов синтаксического анализа, систем машинного перевода. Эти достижения нашли широкое применение в сфере информационного поиска при создании АИПС с естественно-языковыми интерфейсами и, в частности, поисковых машин Internet. Отметим, однако, что средства такого рода не могут отражать семантику проблемной ситуации ИП пользователя уже хотя бы потому, что она отдельно не предусматривалась при их создании. Как следствие, в общем случае пользователь не может получить в одноактном процессе поиска полный ответ, используя только «интеллект» системы.

лентности предполагает обязательность последующей проверки состоятельности гипотезы – оценки пользователем адекватности терминов по степени их важности в контексте найденных по ним документов.

Несколько иная ситуация при использовании выдачи – содержания документов, найденных по запросу. Значение термина (как лингвистической переменной), его контекст как структурной единицы в рамках более крупных конструкций, таких как предложение или документ, определяется пользователем достаточно точно (хотя и субъективно) и обычно без явного использования метаинформации. Менее полно может быть определен смысл композиционных структурных единиц – предложения и сообщения в целом: в лучшем случае мы можем точно определить, дает содержание документа исчерпывающий ответ на практический вопрос или нет, однако мы не будем знать, исчерпывается ли этим весь смысл сообщения. При этом характер и контекст словоупотреблений может быть использован в качестве оценки эффективности запроса с точки зрения как семантики словоупотребления, так и семантики предметной области.

Соответственно, использование в запросе терминов, выбираемых из текста релевантных документов, является по существу реализацией схемы реформулирования запроса по обратной связи. По характеру контекста здесь мы имеем два типа обратной связи: внутреннюю – на лингвистическом уровне, и внешнюю – на уровне семантики предметной области.

Внутренняя обратная связь хорошо автоматизируется, поскольку отражает лингвистические особенности использования языка, адекватно представляемые статистическими характеристиками, построенными на основе частотных показателей БД. В том числе, как показано на рис. 6.4, дистрибутивно-статистический анализ лексики релевантных документов позволяет автоматически строить тематико-статистический спектр (ТСС) по теме запроса [Попов1973], используемый системой для ранжирования документов, а структурно-статистический анализ – строить ми- ни-тезаурус47 темы, который может быть использован не только для автоматического лексического расширения выражения запроса, но и в качестве отдельного технологического объекта. Такой мини-тезаурус является структурно-лингвистической моделью предметной области поиска, отражающей не только общепризнанные, но также и актуальные, характерные для проблемной ситуации особенности представления ИПП (в том числе, и может быть, в первую очередь – новизну подхода пользователя к решаемой им проблеме).

Существование мини-тезауруса в виде операционного объекта обеспечивает также и возможности построения автоматизированных технологий, реализующих внешнюю обратную связь. Мини-тезаурусы,

47 Здесь под мини-тезаурусом понимается построенный в автоматизированном режиме словарь нормализованной лексики тематической области, не только упорядоченный по лексикографическому принципу, но и допускающий существование иерархических уровней.

получаемые (и используемые) в итеративном процессе поиска по теме запроса, образуют ряд объектов, что позволяет, используя дистрибутив- но-статистические методы, количественно оценивать эффективность процесса.

В зависимости от способа выбора терминов и характера их использования для развития запроса можно выделить два типа процесса: модификация выражения запроса в том случае, когда запрос представлен в вербальной форме, и реформулировка запроса – если запрос представлен в кластерной форме. Этот фактор определяет конечность множества типов механизмов поиска.

Поскольку, как отмечалось ранее, принципиально есть две формы представления (выражения) ИП – вербальная и кластерная, каждая из которых отдельно не может быть исключительно полной и точной, механизмы поиска должны быть представлены двумя типами: у первых в качестве запроса используются терминологические ИПЯ-выражения, у вторых – документы.

Практически, в зависимости от предполагаемого разнообразия типов поисковых задач и типов интерфейсных технологических объектов, реализация АИПС может включать достаточно разнообразные механизмы поиска. Например, в АИПС IRBIS представлены следующие механизмы поиска. В случае формирования запроса на ИПЯ – это механизм поиска по совпадению терминов, когда поисковый запрос представляет собой множество терминов, присутствие хотя бы части которых обязательно в документе, или механизм поиска по логическому выражению, когда термины связываются логическими операциями, и для принятия решения о релевантности документа необходимо формировать результат вычисления логического выражения. Если же запрос представлен документами, то, в зависимости от типа интерфейсного объекта, мы имеем: в случае отдельного документа – поиск аналогов, если поиск выполняется автоматически, а если поисковые термины указываются в документе пользователем – поиск по совпадению терминов. Соответственно, если интерфейсный объект есть множество релевантных документов, то в случае, когда система формирует словник автоматически, мы имеем эвристический поиск, а если поисковые термины в словнике указываются пользователем – «поиск по контексту».

Обобщенная схема процесса поиска, поэтапно позволяющая локализовать неопределенности перечисленных ранее типов, приведена на рис. 6.4.

Информационная

потребность

Локализация ИП Структурно-логическая декомпозиция ИП Формулирование запроса

Граф понятий ПрО

Запрос

Конструктор запроса

Формирование и отладка ИПЯвыражения запроса Формирование ПОЗа (предложения запроса)

ПОЗ

Механизм поиска

Нормализация лексики Автомаскирование Расширение запроса

Отбор документов

Рез-т поиска (ссылки)

Формирование выдачи

Ранжирование

Рубрицирование

Форматирование

Рез-т поиска (док-ты)

Обработка док-та

Маркирование

Рубрицирование Использование лексики

Обработка выдачи

Лексический анализ Оценка выдачи

Тезаурус ПрО

Рубрикатор ПрО

Описание ИР

ИПТ

Рубрикатор БД

Словари БД

Нормализ. лексика

Тезаурус темы

Структурностатистический анализ лексики

ТСС темы

Дистрибутивностатистический анализ

Словники

Рис. 6.4. Обобщенная схема информационного поиска

Как было отмечено ранее, задача информационного поиска относится к классу человеко-машинных. Уже на основании того факта, что образ информационной потребности имеет в качестве носителя сознание человека, и что именно человек производит сопоставление образа со смысловым содержанием отбираемых документов, а также оценивает адекватность используемых средств и объектов, можно сделать вывод, что система должна предоставлять интерактивный режим для организации гибкого процесса, эффективного в первую очередь с точки зрения человека.

Причем на уровне интерфейса такие технологические объекты и инструменты должны быть выделены среди средств поиска и работы с документами, что облегчит пользователю переключение с задачи своей основной деятельности (сбора информации для решения задачи) на информационную - оценку своих поисковых действий и состояний48.

Представленный на рис. 6.4 итеративный человеко-машинный процесс информационного поиска в общем случае является интерактивным (где роль системы – пассивная информационно-технологическая поддержка) и включает следующие этапы:

1)определение темы запроса, ее локализация в предметной области и формализация на уровне понятий основной и смежных областей, а также идентификация ресурса. Здесь система предоставляет систематизированное описание предметной области, а также метаинформирование

отематике, наполнении, структуре и методах доступа к выбранному ресурсу;

2)формирование, а также структурное и лексическое адаптирование выражения запроса, где система предоставляет вспомогательные информационные объекты (словари, тезаурусы, шаблоны и т.д.);

3)отбор документов с помощью одного из механизмов поиска по критерию, адекватному степени неопределенности информационной потребности, где система предоставляет выбор механизма поиска или, например, автоматически с помощью лексикографических словарей и про- блемно-ориентированных тезаурусов нормирует и расширяет лексику запроса;

4)формирование и управление выдачей найденных документов, где система обеспечивает масштабирование (форматирование) пространства представления выданных документов, а также сортировку и, возможно, рубрицирование или ранжирование по некоторому формаль-

48 При этом активность системы по отношению к пользователю может реализоваться различными путями:

-непосредственным вмешательством в процесс через изменение параметров процедур, например изменением порога выдачи или стратегии поиска;

-построением прямых или косвенных оценок выдачи (показателей эффективности поиска);

-генерацией технологических объектов, являющихся дополнительными или альтернативными по отношению к тем, которые получены пользователем (например, построение словников при реформулировании запроса по обратной связи).

ному критерию соответствия, например, с использованием тематикостатистических распределений, характерных для проблемной области;

5)оценку результата поиска на уровне отдельного документа, где система обеспечивает возможность фиксировать значение степени соответствия запросу пользователя и непосредственное использование лексики документов для непосредственной модификации выражения запроса;

6)итоговую оценку результатов поиска на уровне всего запроса или отдельных предложений с точки зрения принятия решения о завершении поискового процесса (например, исчерпывающее удовлетворение информационной потребности, или несоответствие цели поиска), где система позволяет количественно оценивать динамику качества выдач и обеспечивает возможность выборочного обращения к результатам отдельных этапов процесса поиска или формирования проблемноориентированных словарей;

7)развитие запроса по технологии реформулирования по обратной связи по релевантности или использование каких-либо других ресурсов, например, ассоциированных баз данных вторичной или справочной информации, где роль системы – адекватное информирование о такого рода возможностях.

В следствие того, что объект поиска обычно не задан в виде образца, с которым можно соотнести найденный результат, а, с другой стороны, пользовательские ресурсы всегда ограничены, задача организации процесса поиска имеет оптимизационный характер – при временных ограничениях максимизировать показатели выдачи и получить максимальную (субъективную) уверенность в качестве поиска за счет предоставления пользователю в процессе диалога альтернативных направлений, а также количественные и качественные оценки их соответствия запросу.

Отметим еще раз, что здесь мы имеем два типа обратной связи49. Для построения словников на основе лексики документов, определяемых пользователем как истинно релевантные, используется «внешняя» обратная связь. Для построения реформулированного запроса используется уже «внутренняя» обратная связь, позволяющая выделить значимые термины (ранжированием или кластеризацией по статистическим пока-

49 Обращаясь к приведенной на рис. 2.7 схеме, отметим, что передача знаний посредством информационной системы, согласно [Мазур1974], соответствует случаю параинформирования. Такой подход позволяет определить условия, при которых информационно-поисковая система на основе вторичной информации будет обеспечивать выполнение требования IZ12 = IX12 (адекватность информирования).

В автоматизированных информационно-поисковых системах это может быть реализовано двойной реформулировкой запроса по технологии обратной связи по релевантности: построением на основе лексики истинно релевантных документов словников, термины которых в свою очередь размечаются с точки зрения их способности смысловыражения темы и, далее, используются в качестве выражения запроса для следующей итерации поиска.

зателям). Соответственно, для построения словников могут использоваться разные методы, что позволяет, в свою очередь, иметь разные стратегии реформулирования, реализуемые разными технологическими (интерфейсными) средствами.

Возможность совместного использования нескольких стратегий поиска позволяет реализовать процесс итерационного повышения эффективности поиска путем генерации новых ПОЗов, учитывающих как ситуационную (проблемную) ориентацию запроса, так и тематические свойства массива документов.

Контрольные вопросы

1.Определите основные информационные объекты и преобразования в схеме воспроизводства информации

2.Охарактеризуйте технологические составляющие информационного поиска.

3.Приведите типологию поисковых задач и примеры поисковых задач каждого типа.

4.Охарактеризуйте типы информационной неопределенности при

поиске.

5.Определите условия установления соответствия информационной потребности и содержания документа БД.

6.Проведите сравнительный анализ понятий поисковая стратегия

ипоисковая навигация.

7.Охарактеризуйте основные этапы процесса информационного

поиска

8.Перечислите основные и технологические объекты, используемые при поиске

9.Определите назначение «обратной связи» в процессе информационного поиска.

10.Перечислите информационные объекты, используемые для реализации технологии «обратной связи» в процессе информационного поиска.

7. Модели интерфейсов человеко-машинного информационного поиска

Особенности представления информации в документальных базах данных определяются их назначением – обеспечением эффективного (быстрого и исчерпывающего, прежде всего, по полноте) поиска нужных данных или, если таковые не обнаружены - сведений о документах, предположительно их содержащих.

Для достижения общности представления, минимально зависящей от точек зрения, особенностей изложения и восприятия информации, создаются каталоги и базы данных вторичной информации. При создании вторичного документа содержание первичного редуцируется до уровня перечисления основных понятий, в той или иной степени однозначно характеризующих его содержание, но в контексте именно той предметной области, для которой создается база данных. В свою очередь, для обозначения таких характеристических понятий используется ограниченная (нормализованная) лексика, снижающая влияние свойств синонимии и полисемии. Представление информационного содержимого конкретных документов в виде поисковых образов обеспечивает, с одной стороны, очень эффективную вычислительную процедуру (когда отбор производится по условию простого сопоставления термина запроса с термином документа), а с другой стороны – дает пользователю возможность получать достаточно полные и точные ответы на запросы, выражаемые упрощенным, “телеграфным” стилем. Такой подход построен на основе свойства концентрации информации и отражает существо уровневой модели, изложенных ранее (см. главу 1).

В ряде случаев, когда предметом проблемного поиска является что-то неизвестное (по крайней мере, пользователю), удовлетворительным результатом поиска скорее всего будет не отдельный документ, содержащий ответы на все вопросы, а некоторое множество документов, образующее для пользователя информационное пространство (понятий, фактов, идей и т.д.), достаточное для построения неизвестного до того решения, т.е. генерации новой информации. Таким образом, в случае проблемного поиска запрос - это не столько вопрос, предопределяющий ответ, сколько определение предметной области для поиска неизвестного через уже известное - документы и лексику.

С точки зрения внутримашинного представления информации семантическая тривиальность структур данных, реализующих документальные системы в фон-Неймановской архитектуре вычислительных машин, предопределяет, что развитие запроса и смысловая оценка результата поиска – исключительно прерогатива пользователя, а система - ассистент. И даже принимая во внимание определенные успехи в области разработок искусственного интеллекта, по крайней мере два следующих фактора не позволяют надеяться на скорое равноправие сторон: