Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

означает, что в результаты поиска включаются только те документы, в которых в поле KW встречаются оба термина «ЧАСТНАЯ СОБСТВЕННОСТЬ» и «ЧАСТНАЯ ТОРГОВЛЯ».

ЧАСТНАЯ

ЧАСТНАЯ ТОРГОВЛЯ

NOT (НЕ) – например:

KW:(‘ЧАСТНАЯ СОБСТВЕННОСТЬ’ NOT ‘ЧАСТНАЯ

ТОРГОВЛЯ’)

означает, что в результаты поиска включаются документы, в которых в поле KW встречается термин «ЧАСТНАЯ СОБСТВЕННОСТЬ» и не встречается «ЧАСТНАЯ ТОРГОВЛЯ».

ЧАСТНАЯ

ЧАСТНАЯ ТОРГОВЛЯ

4.5.2. Условие поиска

Условие поиска устанавливает критерии соответствия поисковых дескрипторов запроса некоторой области поиска, представляющей собой совокупность структурных единиц документа – полей.

<Условие поиска> ::=<Область поиска><Оператор критерия><Выражение условия> |

<Результат поиска> Область поиска внутри документа задается именем отдельного

поля или логическим выражением, объединяющим имена нескольких полей.

Выражение условия – набор терминов (поисковых дескрипторов), объединенных с помощью булевых или контекстных операторов в логическое выражение.

Оператор критерия задает условие включения или сравнения дескрипторов запроса и терминов, содержащихся в указанных полях документов.

В простейшем случае предложение запроса состоит из имени поля, оператора вхождения и одного дескриптора, например:

KW : РОССИЯ

Область поиска. Область поиска задается именами структурных единиц документа – полей.

<Область поиска> ::= <Имя поля>| (<Область поиска> <Логическая операция> <Область поиска>)

121

Из нотации видно, что допускается использование логических операций при формировании области поиска. Например:

(AB OR TI): (РОССИЯ NOT СССР)

означает, что в результат поиска включаются все документы, в которых хотя бы в одном из заданных полей (или в обоих) встречается дескриптор РОССИЯ, но не встречается дескриптор СССР.

Отличительная особенность представляемого ИПЯ – возможность формирования логического выражения как в правой, так и в левой части условия поиска.

Если в условии поиска область поиска явно не задана, то поиск проводится в области, заданной «по умолчанию». Область поиска «по умолчанию» задается обычно либо средствами описания документа (схемой), либо параметрами интерфейсных форм построения запроса.

Оператор критерия. Для связи области поиска с терминами запроса используются следующие операторы критерия (вхождения, сравнения):

<Оператор критерия> ::= : | = | EQ | <> | NE | > | GT | >= | GE | < | LT | <= | LE

-:(условие вхождения) – позволяет найти документы, которые содержат в указанной области поиска результат вычисления выражения условия;

-=(условие "равно", или EQ) - позволяет найти документы, для которых указанная область поиска равна результату вычисления выражения условия;

-<>(условие "не равно", или NE) - позволяет найти документы, которые не содержат в указанной области поиска результат вычисления выражения условия;

->(условие "больше", или GT) - позволяет найти документы, которые содержат в указанной области поиска значения больше, чем результат вычисления выражения условия;

->=(условие "больше или равно", или GE) - позволяет найти документы, которые содержат в указанной области поиска значения больше или равные результату вычисления выражения условия;

-<(условие "меньше", или LT) - позволяет найти документы, которые содержат в указанной области поиска значения меньше, чем результат вычисления выражения условия;

-<=(условие "меньше или равно", или LE) - позволяет найти документы, которые содержат в указанной области поиска значения меньше или равные результату вычисления выражения условия.

Выражение условия. Синтаксис выражения условия в ИПЯ следующий:

<Выражение условия> ::= <Дескриптор> | <Выражение условия> <Операция> <Выражение условия> |

(<Выражение условия> <Операция> <Выражение условия>)

122

<Операция> ::= <Логическая операция> <Контекстная операция> <Контекстная операция> ::=

=CTX|CTX[N]|+|NEAR|NEAR[N]|SENT|CON[N]

При использовании в запросе нескольких дескрипторов они должны быть связаны контекстными или логическими операторами и помещены в круглые скобки.

Контекстные операторы – это оператор расстояния (NEAR[N]), оператор расстояния со строгим следованием (CTX[N]), оператор предложения (SENT) и оператор пересечения полей (CON[N]). Параметр N (в операторах NEAR и CTX) может принимать значения от 0 до 255 (по умолчанию N равно 0). Отсутствие параметра означает следование терминов в поле непосредственно друг за другом (идентично значению 0).

Оператор CTX позволяет найти документы, в заданной области поиска которых в одном предложении присутствуют поисковые дескрипторы, расположенные в указанном порядке на расстоянии не более N слов друг от друга. Выражение условия имеет вид:

<дескриптор1> CTX[N] <дескриптор2>

Оператор NEAR позволяет найти документы, в заданной области поиска которых в одном предложении присутствуют поисковые дескрипторы на расстоянии N слов друг от друга (в произвольном порядке). Выражение условия имеет вид:

<дескриптор1> NEAR[N] <дескриптор2>

Оператор SENT позволяет найти документы, в заданной области поиска которых поисковые дескрипторы находятся в одном предложении. Выражение условия имеет вид:

<дескриптор1> SENT <дескриптор2>

В ИПЯ ИПС IRBIS включен оператор пересечения полей CON[N], служащий для отбора документов, в заданных полях которых имеется не менее N одинаковых поисковых терминов (N может принимать значения от 1 до 255). Контекстный оператор пересечения полей позволяет использовать в выражении условия имена полей (выступающие в данном случае в роли дескрипторов), содержимое которых сравнивается на предмет отыскания общих терминов.

Выражение условия запроса имеет вид:

<имя поля1> CON[N] <имя поля2>

4.5.3. Синтаксис и семантика использования дескрипторов

Для поиска информации средствами ИПЯ поисковые дескрипторы могут быть заданы (включены в запрос) одним из следующих способов:

-выбор из частотного словаря;

-ввод с клавиатуры;

-отметка ключевых слов в тексте документа;

-выбор терминов из специализированных словарных, рубрикационных или тезаурусных структур.

123

При задании поисковых дескрипторов допускается использование операторов (символов) маскирования, средств нормализации и ссылок на ранее полученные результаты поиска.

Маскирование. ИПЯ разрешает употребление символов маскирования двух видов:

-маскирование (или замена) произвольного числа рядом стоящих символов дескриптора (символы «*» или «$»);

-маскирование одного (непустого) символа дескриптора (символ

«%»)

Символы маскирования могут использоваться вместо любого символа дескриптора, и их количество внутри дескриптора неограниченно.

Параметризированные символы маскирования произвольного количества символов (например, «*(N)»), означают, что в дескрипторе на месте символа маскирования может стоять произвольная последовательность длиной не более чем N символов (где N - от 0 до 255).

Нормализация. Для расширения возможностей дескрипторного языка на этапе сопоставления ПОД и ПОЗ может быть использован аппарат нормализации дескрипторов. Например, в основу реализации аппарата автоматической нормализации в ИПЯ системы IRBIS положен повышающий полноту поиска модифицированный алгоритм нормализации ОСНОВА-2 [Захаров1997], построенный на следующих правилах:

1.Три первые буквы дескриптора остаются без изменения.

2.Все следующие гласные буквы заменяются символом маскирования произвольного числа рядом стоящих букв.

3.Конечные буквы в, г, м, х в дескрипторе заменяются символом маскирования произвольного числа рядом стоящих букв.

4.В конце дескриптора проставляется символ маскирования произвольного числа рядом стоящих букв (если после всех преобразований конечный символ дескриптора не является символом маскирования).

Лингвистическое обоснование такой замены заключается в том, что смыслоразличительная роль согласных во много раз больше, чем гласных. Начальная часть слова включается в новый дескриптор без изменения, т.к. информативность первых трех букв в слове велика. Согласные в, г, м, х могут попадать в дескриптор из окончаний существительных и прилагательных, поэтому исключение этих согласных из дескриптора и замена их символом маскирования ведет к отсечению окончаний.

Нормализованный таким образом дескриптор позволяет обеспечить более полный дескрипторный поиск с использованием только лишь частотного словаря БД.

124

Рассмотрим, например, запрос, который на естественном языке представляет собой предложение: «Частотный анализ терминов словаря». Такой запрос в системе (с применением правил нормализации) автоматически преобразуется в следующий ПОЗ:

част$тн$ AND анал$з$ AND терм$н$ AND слов$р$ Нормализованный таким образом ПОЗ обеспечивает поиск по ло-

гическому выражению с разрешением символов маскирования: част$тн$ = частотность, частотности, частотный, частотные, час-

тотных, частотного, частотной; анал$з$ = анализ, анализа, анализе, анализу, анализируется, анали-

зируются; терм$н$ = термин, термина, термину, термином, термины, терми-

нов, терминах, терминология, терминологии, терминологию, терминологические, терминологическим, терминологических, терминологической, терминологический, терминосистем, терминологичности;

слов$р$ = словарь, словаря, словаре, словарем, словарей, словарные, словарными, словарных, словарного, словоформа, словоформе, словоформы, словоформ, словарные, словарно-грамматический, словоупотреблений.

4.5.4. Использование ранее полученных результатов поиска

В качестве операнда условия поиска в предложении запроса может использоваться ранее полученный результат поиска:

<Результат поиска> ::= # <Идентификатор результата поиска> Для включения в предложение поискового запроса результатов

ранее проведенного поиска используются ссылки на номер предложения в текущем запросе.

Например, запрос может иметь вид:

#2 and ((KW or AB) : Россия)

где #2 - ссылка на результат второго предложения запроса.

Символ "#" является индикатором ссылки. За ним указывается номер одного из предыдущих предложений текущего запроса или имя сохраненного запроса, результат поиска по последнему предложению которого используется для уточнения в этом предложении.

125

Контрольные вопросы

1. Охарактеризуйте оценки эффективности информационного по-

иска.

2.Охарактеризуйте взаимосвязь показателей эффективности и компонентов ИС.

3.Определите понятие универсального информационного потока.

4.Дайте определение первичных координат описания выхода

ИПС.

5.Охарактеризуйте матрицу «термин-документ» и ее свойства.

6.Дайте формальное определение понятия «механизм поиска».

7.Охарактеризуйте сходства и отличия механизма поиска по совпадению терминов и механизма поиска документов-аналогов.

8.Перечислите механизмы поиска документов по сходству.

9.Определите понятие расширенного логического выражения, операции и операнда.

10.Охарактеризуйте возможную семантику использования дескрипторов в дескрипторных ИПЯ документальных ИПС.

126

5.Лингвистическое обеспечение ИС

5.1.Рольилогикаязыковыхсредствпоискадокументальной

информации

Информационно-поисковыми языками (ИПЯ) называются искусственные языки, специально сконструированные для выражения (формулировки) основного смыслового содержания документов и запросов с целью последующего их сопоставления. ИПЯ обеспечивают компактную, строго алгоритмизированную и удобную для ЭВМ запись наиболее существенных сторон содержания документов и запросов [Авети-

сян1981].

Целесообразно привести замечание, касающееся особенностей использования наиболее распространенных дескрипторных и иерархически организованных языков. Язык, построенный на основе классификации (УДК, рубрикаторы и др.), позволяет потребителю легко найти свое место в информационной среде, как бы причислив себя к классу других потребителей. Дескрипторный же язык дает потребителю средство индивидуализироваться, отбирать документы по существенным для него признакам. Таким образом, дескрипторный язык может выступать как дополнение к классификационному33.

ИПЯ дескрипторного типа отличаются друг от друга различным уровнем использования средств выражения парадигматического и синтагматического аспектов языка. Именно учет семантических связей при информационном поиске позволяет находить не только те документы, которые непосредственно образуют определенную тему, но и те, которые с ней связаны только частично. При этом разграничение видов семантической связи помогает группировать документы, включаемые в выдачу, по характеру их близости теме запроса. Например, документы, имеющие семантическую общность с запросом, непременно (в случае безусловной общности) или возможно (в случае гипотетической общности) содержат сведения по теме запроса. Документы, имеющие семантическую близость с запросом, непременно (в случае безусловной близости) или возможно (в случае гипотетической близости) содержат сведения по темам, соприкасающимся с темой запроса.

Фактически язык выступает как модель, отражающая состояние и связи объектов и явлений реального мира. С этой точки зрения парадигматика языка отражает наличие тех или иных отношений, имеющих место на уровне означаемых и/или означающих [Скороходько1974]. Например, отношение синонимии (тождество означаемых при различных означающих) является парадигматическим отношением означаемых, то-

33 Следует, однако, отметить, что с точки зрения типологии любой классификационный язык может быть отнесен к дескрипторному, если под дескриптором понимать признак (имя признака в пространстве предметно-тематических признаков), т.е. система имен признаков функционирует как система дескрипторов.

127

гда как отношение омонимии (тождество означающих при различных означаемых) является парадигматическим отношением означающих. Парадигматику обычно связывают с лексико-семантическим потенциалом языка.

Парадигматические отношения означающих сравнительно легко поддаются систематизации, тогда как систематизация парадигматических отношений означаемых является гораздо более сложно задачей, связанной с моделированием элементов интеллектуальной деятельности человека: формированием в сознании человека тех или иных субъективных отражений объективно существующих связей между различными предметами и явлениями окружающего мира. Кроме самих предметов и явлений, «инициаторами» таких связей (ассоциаций) являются также языковые представления этих предметов и явлений. Ассоциации, сформировавшиеся в сознании различных индивидуумов, в процессе познания уточняются, модифицируются; случайные связи фильтруются, исчезают, а связи, более адекватные объективно существующим, закрепляются, с тем, чтобы потом уступить место новым связям, еще более адекватным. Если учесть влияние фактора субъективности на динамику процесса возникновения и развития таких ассоциаций, то станет ясно, насколько сложна задача их корректной систематизации в рамках тех или иных предметных областей. Тем не менее, исходя из практической необходимости, во многих случаях целесообразно выделять некоторые виды ассоциаций, которые сравнительно устойчивы и поддаются систематизации. К числу таковых принадлежат отношения подчиненности и соподчиненности, т.е. родовидовые отношения. Именно надситуативный характер таких ассоциаций в значительной степени и определяет целесообразность их фиксации в соответствующих словарях.

Синтагматика обусловлена наличием в каждом конкретном языке определенных правил построения означающих. Синтагматика естественных языков отражает структуру их грамматического строя. Если парадигматику связывают с потенциальными возможностями языка, то синтагматика отражает динамику конкретно сложившихся контекстных ситуаций. В поисковых задачах можно считать, что парадигматические отношения есть взаимосвязь между замещаемыми словами в тексте, а синтагматические – между сочетаемыми словами. А с точки зрения информативности отношений можно оказать, что парадигматика содержит в основном метаинформацию (отражающую структуру языка), в то время как синтагматические отношения (посредством синтаксиса) детально выражают основной смысл текста, выделяющий этот документ среди других, в том числе тех, которые построены в значительной степени с использованием той же лексики.

Особенностью применения ИПЯ является то, что преобразование текста (высказывания) в поисковый образ (ПО) путем выделения существенных аспектов обеспечивает переход от смысла в тексте к комплексу понятий. При этом применение синтаксиса в поисковом образе не

128

обеспечивает обратного преобразования комплекса понятий в текст, а только видоизменяет сами понятия.

Более того, на практике наблюдается стремление уменьшить количество терминов, включаемых в поисковый образ. Для того, чтобы это компенсировать хотя бы частично, устойчивые для данной предметной области отношения включают в информационно-поисковый тезаурус (ИПТ), который помимо априорной фактической информации об описываемых объектах и отношениях между ними содержит психолингвистические особенности специального языка, а также систему взаимосвязанных понятий соответствующей области знаний.

ИПТ в современном состоянии содержит сравнительно ограниченный запас априорной информации о предметной области. Однако составление даже отраслевых словарей и тезаурусов вручную занимает несколько лет, причем за это время многое меняется и в проблематике и в лексике отрасли. Еще большим «отставанием» характеризуются политематические тезаурусы. Для ликвидации такого отставания автоматизируется ряд этапов составления и ведения словарей и тезаурусов, где весьма эффективными оказались статистические методы выявления ассоциативных связей. В основе таких методов лежит схема выявления ассоциативных связей по результатам статистического анализа совместной встречаемости тех или иных терминов в рамках одних и тех же документов.

Недостатком такого подхода является отсутствие учета конкретной поисковой ситуации «запрос - поисковый массив». Для поисковых образов, лишенных исходного линейного порядка, аффиксов и окончаний, можно построить множество различных контекстов, среди которых

вобщем случае могут быть контексты, содержащие как совпадающие, так и не совпадающие по содержанию с исходным контекстом. Причем,

сувеличением глубины индексирования (т. е. числа дескрипторов, входящих в поисковые образы документов) быстро растет количество ложных сочетаний, которые можно составить из дескрипторов одного и того же поискового образа. Однако в задачах информационного поиска глубина индексирования поискового образа документа уже не будет иметь исключительного значения, так как, сколько бы ни было дескрипторов в ПОДе, вопрос признания данного документа релевантным решается на основании только тех дескрипторов, которые совпали с дескрипторами поискового предписания. Каждая новая лексическая единица, входящая

впоисковое предписание, исключает многие ложные сочетания, которые семантически уже не могут сосуществовать с этой лексической единицей, что объясняется наличием в языке лексико-семантических корреляционных связей.

129

5.2. Состав и структура лингвистического обеспечения

Рассмотрим лингвистическое обеспечение ИС как совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемного взаимодействия и взаимодействия с пользователем.

Такое определение предполагает, соответственно, выделение двух аспектов рассмотрения: выражение смыслового содержания информационной составляющей ИС и выражение информационной потребности пользователя.

Основным средством описания информационной базы и информационной потребности служат информационно-поисковые языки, относящиеся к классу искусственных языков. Помимо таких строго формализованных с точки зрения семантики и синтаксиса средств, в качестве дополнительных широко применяются терминологические структуры различного назначения, имеющие как линейную, так и нелинейную (иерархическую, сетевую) организацию.

Состав лингвистического обеспечения (ЛО) информационных систем может быть представлен следующей схемой (рис. 5.1):

 

 

Лингвистическое

 

 

 

 

 

 

 

обеспечение ИС

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Языки

 

Языки манипули-

 

 

описания

 

 

 

рования данными

 

 

данных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ИПЯ,

Терминологиче-

 

 

языки запросов

 

 

 

 

ские

 

 

 

 

 

 

 

 

структуры

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Линейные

 

 

Иерархиче-

 

Сетевые

 

 

 

 

 

ские

 

 

 

 

 

 

 

 

 

 

 

Рис. 5.1. Состав ЛО информационных систем

Предложенная схема не претендует на роль классификации, а представляет собой скорее иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС: ИПЯ как средства выражения смыслового содержания документов и информационной потребности пользователя, SQL как попытки обобщения средств управления данными, терминологических структур как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой – с другой.

Далее в этой главе приведем характеристики выделенных компонентов ЛО ИС.

130