Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Голицына Информационные системы 2004.pdf
Скачиваний:
323
Добавлен:
16.08.2013
Размер:
5.01 Mб
Скачать

5.Лингвистическое обеспечение ИС

5.1.Рольилогикаязыковыхсредствпоискадокументальной

информации

Информационно-поисковыми языками (ИПЯ) называются искусственные языки, специально сконструированные для выражения (формулировки) основного смыслового содержания документов и запросов с целью последующего их сопоставления. ИПЯ обеспечивают компактную, строго алгоритмизированную и удобную для ЭВМ запись наиболее существенных сторон содержания документов и запросов [Аветисян1981].

Целесообразно привести замечание, касающееся особенностей использования наиболее распространенных дескрипторных и иерархически организованных языков. Язык, построенный на основе классификации (УДК, рубрикаторы и др.), позволяет потребителю легко найти свое место в информационной среде, как бы причислив себя к классу других потребителей. Дескрипторный же язык дает потребителю средство индивидуализироваться, отбирать документы по существенным для него признакам. Таким образом, дескрипторный язык может выступать как дополнение к классификационному33.

ИПЯ дескрипторного типа отличаются друг от друга различным уровнем использования средств выражения парадигматического и синтагматического аспектов языка. Именно учет семантических связей при информационном поиске позволяет находить не только те документы, которые непосредственно образуют определенную тему, но и те, которые с ней связаны только частично. При этом разграничение видов семантической связи помогает группировать документы, включаемые в выдачу, по характеру их близости теме запроса. Например, документы, имеющие семантическую общность с запросом, непременно (в случае безусловной общности) или возможно (в случае гипотетической общности) содержат сведения по теме запроса. Документы, имеющие семантическую близость с запросом, непременно (в случае безусловной близости) или возможно (в случае гипотетической близости) содержат сведения по темам, соприкасающимся с темой запроса.

Фактически язык выступает как модель, отражающая состояние и связи объектов и явлений реального мира. С этой точки зрения парадигматика языка отражает наличие тех или иных отношений, имеющих место на уровне означаемых и/или означающих [Скороходько1974]. Например, отношение синонимии (тождество

33 Следует, однако, отметить, что с точки зрения типологии любой классификационный язык может быть отнесен к дескрипторному, если под дескриптором понимать признак (имя признака в пространстве предметно-тематических признаков), т.е. система имен признаков функционирует как система дескрипторов.

130

означаемых при различных означающих) является парадигматическим отношением означаемых, тогда как отношение омонимии (тождество означающих при различных означаемых) является парадигматическим отношением означающих. Парадигматику обычно связывают с лексикосемантическим потенциалом языка.

Парадигматические отношения означающих сравнительно легко поддаются систематизации, тогда как систематизация парадигматических отношений означаемых является гораздо более сложно задачей, связанной с моделированием элементов интеллектуальной деятельности человека: формированием в сознании человека тех или иных субъективных отражений объективно существующих связей между различными предметами и явлениями окружающего мира. Кроме самих предметов и явлений, «инициаторами» таких связей (ассоциаций) являются также языковые представления этих предметов и явлений. Ассоциации, сформировавшиеся в сознании различных индивидуумов, в процессе познания уточняются, модифицируются; случайные связи фильтруются, исчезают, а связи, более адекватные объективно существующим, закрепляются, с тем, чтобы потом уступить место новым связям, еще более адекватным. Если учесть влияние фактора субъективности на динамику процесса возникновения и развития таких ассоциаций, то станет ясно, насколько сложна задача их корректной систематизации в рамках тех или иных предметных областей. Тем не менее, исходя из практической необходимости, во многих случаях целесообразно выделять некоторые виды ассоциаций, которые сравнительно устойчивы и поддаются систематизации. К числу таковых принадлежат отношения подчиненности и соподчиненности, т.е. родовидовые отношения. Именно надситуативный характер таких ассоциаций в значительной степени и определяет целесообразность их фиксации в соответствующих словарях.

Синтагматика обусловлена наличием в каждом конкретном языке определенных правил построения означающих. Синтагматика естественных языков отражает структуру их грамматического строя. Если парадигматику связывают с потенциальными возможностями языка, то синтагматика отражает динамику конкретно сложившихся контекстных ситуаций. В поисковых задачах можно считать, что парадигматические отношения есть взаимосвязь между замещаемыми словами в тексте, а синтагматические – между сочетаемыми словами. А с точки зрения информативности отношений можно оказать, что парадигматика содержит в основном метаинформацию (отражающую структуру языка), в то время как синтагматические отношения (посредством синтаксиса) детально выражают основной смысл текста, выделяющий этот документ среди других, в том числе тех, которые построены в значительной степени с использованием той же лексики.

131

Особенностью применения ИПЯ является то, что преобразование текста (высказывания) в поисковый образ (ПО) путем выделения существенных аспектов обеспечивает переход от смысла в тексте к комплексу понятий. При этом применение синтаксиса в поисковом образе не обеспечивает обратного преобразования комплекса понятий в текст, а только видоизменяет сами понятия.

Более того, на практике наблюдается стремление уменьшить количество терминов, включаемых в поисковый образ. Для того, чтобы это компенсировать хотя бы частично, устойчивые для данной предметной области отношения включают в информационно-поисковый тезаурус (ИПТ), который помимо априорной фактической информации об описываемых объектах и отношениях между ними содержит психолингвистические особенности специального языка, а также систему взаимосвязанных понятий соответствующей области знаний.

ИПТ в современном состоянии содержит сравнительно ограниченный запас априорной информации о предметной области. Однако составление даже отраслевых словарей и тезаурусов вручную занимает несколько лет, причем за это время многое меняется и в проблематике и в лексике отрасли. Еще большим «отставанием» характеризуются политематические тезаурусы. Для ликвидации такого отставания автоматизируется ряд этапов составления и ведения словарей

итезаурусов, где весьма эффективными оказались статистические методы выявления ассоциативных связей. В основе таких методов лежит схема выявления ассоциативных связей по результатам статистического анализа совместной встречаемости тех или иных терминов в рамках одних и тех же документов.

Недостатком такого подхода является отсутствие учета конкретной поисковой ситуации «запрос - поисковый массив». Для поисковых образов, лишенных исходного линейного порядка, аффиксов

иокончаний, можно построить множество различных контекстов, среди которых в общем случае могут быть контексты, содержащие как совпадающие, так и не совпадающие по содержанию с исходным контекстом. Причем, с увеличением глубины индексирования (т. е. числа дескрипторов, входящих в поисковые образы документов) быстро растет количество ложных сочетаний, которые можно составить из дескрипторов одного и того же поискового образа. Однако в задачах информационного поиска глубина индексирования поискового образа документа уже не будет иметь исключительного значения, так как, сколько бы ни было дескрипторов в ПОДе, вопрос признания данного документа релевантным решается на основании только тех дескрипторов, которые совпали с дескрипторами поискового предписания. Каждая новая лексическая единица, входящая в поисковое предписание, исключает многие ложные сочетания, которые семантически уже не могут сосуществовать с этой лексической единицей, что

132

объясняется наличием в языке лексико-семантических корреляционных связей.

133