Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

5.2.1. Основныепонятиялингвистическогообеспечения

Для изучения принципов и методов построения и использования компонентов ЛО предварительно определим базовые понятия.

Язык — это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности [Михайлов1968].

Искусственный язык (в отличие от естественного, представляю-

щего собой средство общения и выражения мысли и неоднозначного по своей природе) – это специализированный язык, основное назначение которого состоит в устранении многозначности слов естественного языка и всего того, что характеризует эмоции и отношение к различным предметам. В искусственном языке должны выражаться лишь объективные характеристики предметов, их связей и соотношений [Гор-

ский1962].

Многозначность слов естественного языка, обеспечивающая «богатейшие возможности для вполне однозначного выражения тончайших оттенков мысли (в процессе речи эту многозначность устраняет контекст)» [Михайлов1968] и служащая в некотором роде показателем развитости языка, становится препятствием в случае использования в системе хранения и обработки информации. В связи с этим в ИС применяются искусственные языки, специально сконструированные для формулировки основного смыслового содержания информационной базы и информационной потребности с целью последующего их сопоставления. К таким языкам в первую очередь относятся информационно-поисковые языки, обеспечивающие компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС.

Внутренняя структура языка характеризуется следующими составляющими — лексикой, грамматикой и словообразованием.

Лексика (или словарный состав) — это вся совокупность слов, входящих в состав языка.

Грамматика – это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфо-

логии и синтаксиса.

Морфология — это совокупность действующих в языке способов и средств построения слов. Наименьшая неделимая без потери данного качества единица системы выражения, непосредственно соотносимая с соответствующим ей элементом содержания, называется морфемой. Морфемы делятся на грамматические (аффиксы) и лексические (лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема — это корневая или словообразовательная морфема, выражающая основное значение слова.

Синтаксис — это совокупность действующих в языке способов и средств построения предложений.

131

Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.

Приведем данное в [Успенский1959] определение абстрактного языка, как формальной семантической системы: «Абстрактный язык, или формальная семантическая система, состоит из списка элементарных символов (знаков), правил образования (устанавливающих, какие комбинации знаков допускаются), правил преобразования (устанавливающих, какие допускаются преобразования выражений с целью получения логического вывода) и правил интерпретации (устанавливающих, какой смысл надлежит приписывать выражениям, составленным по правилам образования)».

Если из числа составных частей абстрактного языка исключить правила, которые устанавливают допустимые в нем преобразования с целью получения логического вывода, то ИПЯ можно определить как специализированную семантическую систему, состоящую из алфавита, правил образования (грамматики) и правил интерпретации (семантики).

Алфавит - это любая конечная совокупность знаков (букв, цифр и т.п.), используемых в ИПЯ. При построении ИПЯ выбор алфавита определяется не только соображениями практического удобства, но и внутренней структурой самого ИПЯ, а также предполагаемыми средствами технической реализации ИПС.

Выделяют морфологические и синтаксические правила образова-

ния (построения) терминов – слов языка. Морфологические правила определяют процедуру построения терминов ИПЯ из его морфем, а синтаксические — процедуру построения предложений (фраз) из этих терминов.

Синтаксические правила — обязательный элемент любого ИПЯ. В некоторых ИПЯ для соединения терминов в предложения (фразы) применяются специальные лексические средства.

Последний элемент ИПЯ, если его рассматривать как специализированный абстрактный язык, — это правила интерпретации, т. е. правила перевода терминов и предложений (фраз) ИПЯ на соответствующий естественный язык. Эти правила задаются, например, в виде двуязычных словарей, в которых каждому термину (лексической единице) ИПЯ ставится в соответствие определенное слово или выражение естественного языка, и наоборот. В такой словарь включаются также все символы, применяемые в данном ИПЯ для соединения терминов в предложения (фразы). Кроме того, правила интерпретации для ИПЯ, как и правила построения, формулируются на естественном языке в специальных инструкциях, методиках и т. д.

Словоупотребление в языке определяется двумя факторами: возможностью выбора слова, наиболее точно отображающего тот или иной предмет или явление объективной действительности, и возможностью сочетания этого слова с другими словами.

132

Предметы и явления объективной действительности связаны друг с другом определенными отношениями, которые существуют независимо от их языковой интерпретации. Эти отношения обусловлены пред- метно-логическими, а не собственно языковыми (семантическими) факторами и относятся к категории внеязыковых связей. Благодаря таким связям слова на основе того или иного семантического признака объединяются в лексико-семантические группы, которые называются пара-

дигмами.

Рассмотрим, например, парадигму «грибы». К ней относятся слова: подберезовик, подосиновик, мухомор, сыроежка и т.п.. Внутри такой лексико-семантической группы можно выделить парадигмы «съедобные грибы», «условно съедобные грибы», «ядовитые грибы», «пластинчатые грибы», «трубчатые грибы» и т.п.. Причем, если парадигмы «съедобные грибы» и «ядовитые грибы» не пересекаются, то в парадигмах «съедобные грибы» (рыжик, млечник, подберезовик, подосиновик, сыроежка, боровик) и «пластинчатые грибы» (рыжик, млечник, сыроежка, мухомор, поганка) встречаются общие слова.

Съедобные

Пластинчатые

грибы

грибы

Грибы

Рис. 5.2. Лексико-семантические парадигмы

Из приведенного примера следует, что парадигматические отношения в лексике не только многоступенчаты, но и многомерны (неоднолинейны). Одно и то же слово может быть одновременно членом нескольких лексико-семантических парадигм, в которых слова противопоставлены друг другу по какому-то определенному семантическому признаку (рис. 5.2).

Таким образом, парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами остаются за его пределами.

Парадигматические отношения (аналитические отношения, ба-

зисные отношения, ассоциативные отношения) – логические отношения, существующие между лексическими единицами ИПЯ, независимо от их контекста.

133

Другой тип отношений между словами — синтагматические отношения, в которые слова вступают в пределах конкретного сообщения, фразы.

Синтагматические отношения (текстуальные отношения, синтетические отношения, синтаксические отношения) – отношения между лексическими единицами ИПЯ, выражающие действительные логические связи между соответствующими понятиями в тексте сообщения.

Типология ИПЯ. Рассмотрим типологию ИПЯ по способности к выражению смыслового содержания документов, как структурных единиц информационной базы ИС. Опираясь на лексику, грамматику и синтаксис, выделим два основных типа ИПЯ:

-языки классификационного типа;

-языки дескрипторного типа.

Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах. Основная цель классификации – приписать каждый документ классу, или, иначе – приписать каждому документу имя класса, формируя тем самым множества сообщений для обработки и поиска.

Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов.

На рис. 5.3 приведена типология методов описания содержания документов.

Описание содержания документа

Классификация

Индексирование

 

1 документ→N классов

 

 

1 документ→1 класс

 

1 класс→→N документов

 

 

1 класс→→N документов

 

 

 

 

Рубрицирование

Описание по-

Описание слова-

(предметизация)

нятиями

ми

Тезаурусное Свободное (фиксированное)

Рис 5.3. Типология методов описания содержания документов

134

5.3. Классификации

Классификации использовались для систематизации книг и других документов по их содержанию уже в глубокой древности. Например, есть сведения о том, что в Ниневийской библиотеке ассирийского царя Ашурбашшала (одна из древнейших библиотек - VII в. до н. э.) — клинописные глиняные плитки систематизировались в соответствии с их содержанием («история», «закон», «переписка» и т. д.) ».

В основе любой классификации лежит принцип деления объектов. Классификацией называется распределение объектов по классам на основании общего признака, причем распределение производится с таким расчетом, чтобы каждый класс относительно других классов занимал в получившейся системе точно определенное место. Признак, по которому производится деление, называется основанием деления.

Классификация должна подчиняться следующим формальнологическим правилам:

1)очередной шаг классификации проводится только по одному основанию;

2)получаемые в результате деления подклассы не должны пересекаться;

3)деление на подклассы должно быть соразмерным.

Пусть К — некоторый класс, который на основе некоторого признака разделен на подклассы k1 k2, k3, . . ., kn. Тогда сформулированные выше правила в обобщенном виде можно записать следующим образом:

k1 k2 k3 ... kn = K k1 ∩ k2 ∩ k3 ∩ … ∩ kn = 0

ki ∩ kj = 0 i j,i =1,n, j =1,n

Основные виды отношений между подразделениями классифика-

ции — это иерархия (подчинение) и соподчинение.

Иерархия — это отношение, при котором один класс является

подклассом другого, более широкого: ki Отношением соподчинения связаны рые являются подклассами одного,

K ,i =1,n .

классы (k1, k2, k3,…, kn), котоболее широкого класса

( k1 k2 ... kn = K ).

Различают два вида иерархии: сильную и слабую. При сильной иерархии каждый подкласс имеет один, и только один, непосредственно предшествующий ему класс, при слабой — более одного класса.

Классификации, классы которых связаны только отношениями сильной иерархии и соподчинения, будем далее называть иерархически-

ми классификациями.

Классификация, в том виде, в каком она используется в формальной логике, близка к процессу описания предмета, его спецификации. Под спецификацией в данном случае понимается точное, однозначное и

135

непротиворечивое обозначение предмета без указания его относительного положения в классификационной схеме.

Рассматривая классификацию, как систематическое распределение предметов множества по классам, возникающее в результате последовательного многоступенчатого деления, можно выделить следующие два вида классификаций:

-Естественная классификация — классификация, в основание которой кладутся существенные для выделяемых классов признаки.

-Вспомогательная классификация — классификация, в основание которой кладутся несущественные для выделяемых классов признаки.

В задачах информационного обслуживания наиболее широко и устойчиво используются следующие классификации:

-библиотечно-библиографические, специально предназначенные для систематизации книг и других документов;

-классификации изобретений, служащие для распределения объектов промышленной собственности, заявленных или признанных изобретениями;

-классификации наук, призванные систематизировать научную информацию.

5.3.1. Библиотечно-библиографические классификации

Основной целью естественных классификаций является установление и обозначение существенных связей между предметами. Задача библиотечно-библиографической классификации совершенно иная: она должна обеспечить такую систематизацию множества документов, при которой документы (или их описания) по одному и тому же предмету будут физически собираться в одном, и только в одном, месте. Таким образом, для библиотечно-библиографической классификации исключительно большое значение имеет ясное обозначение относительного расположения классов в схеме, так как только благодаря этому можно:

1)помещать предмет (книгу, статью, реферат и т. п.) в соответствующее место схемы или раскрывать содержание этого предмета через его положение в классификационной схеме;

2)быстро находить предмет (книгу, статью, реферат и т. п.), если известно, какое место закреплено за ним в схеме;

3)проводить группировку таких предметов, которые с точки зрения потребителя предпочтительно иметь в одном месте.

В отличие от формально-логической классификации, для которой прежде всего важно образование классов предметов и установление ро- до-видовых отношений (иерархии) между этими классами, в библиотеч- но-библиографической классификации требуется установление порядка подклассов в общем ряду и определение их пространственного располо-

136

жения относительно друг друга. Логическое отношение включения лишь определяет, что подклассы необходимо расположить таким образом, чтобы было показано их подчинение классу. Но формальная логика не дает универсального метода установления, в каком порядке следует располагать элементы деления. Например, если мы разделим класс «информационные системы» на подклассы «техническое обеспечение», «программное обеспечение», «лингвистическое обеспечение» и т. д., то порядок этих подклассов в ряду определяется содержательно, а не по формально-логическим правилам. Таким образом, библиотечнобиблиографическая классификация отличается от формально-

логической классификации своим принципом упорядоченного размещения классов в пространстве.

В настоящее время сложились две группы библиотечнобиблиографических классификаций:

-перечислительные классификации;

-аналитико-синтетические классификации.

К перечислительным библиотечно-библиографическим классифи-

кациям относят иерархические и алфавитно-предметные классифика-

ции; к аналитико-синтетическим - фасетные классификации.

Различают три функции библиотечно-библиографической классификации:

библиотечная - организация фондов;

библиографическая - организация знаний и информации о фон-

дах;

когнитивная - организация тематических описаний для поиска

вфондах.

Библиотечная функция предназначена для ответа на один вопрос - где находится нужная книга.

Библиографическая функция обеспечивает систематический подход ко всему объему фондов. Необходимо, однако, отметить, что систематичность здесь определяется в том числе уровнем образования пользователей, их информационными потребностями, культурной, философской или политической подготовкой.

Когнитивная функция направлена на установление связей, ассоциаций, приближений и соответствий между элементами тематической области.

В [Nitecki1989] отмечается, что одна классификация не может полностью обеспечить все три перечисленные функции. В идеальной ситуации должно быть две классификации: одна для поиска самих документов, другая для выполнения библиографической и когнитивой функций.

137

Основной функцией библиотечно-библиографической классификации является когнитивная. Это не просто система обозначений, а ментальная структура, выражаемая через обозначения.

Библиографическая функция классификации заключается в предоставлении систематического интеллектуального доступа к информации, содержащейся в библиографических материалах, который обычно осуществляется с помощью систематического каталога.

Существуют два подхода к библиотечно-библиографической классификации. Приверженцы реалистического подхода считают, что структура классификации должна отражать структуру взятой за основу теоретической классификации. Прагматический подход предполагает, что классификации изобретаются, а не открываются, и что годится любая организация тематики предметной области, соответствующая постав-

ленной задаче. [Svenonius1989]

5.3.1.1. Иерархические библиотечно-библиографические классификации

В настоящее время наиболее распространенными библиотечнобиблиографическими классификациями являются ББК, Десятичная классификация Дьюи, Библиографическая классификация Блисса и классификация Библиотеки конгресса США.

К иерархической библиотечно-библиографической классификации предъявляются следующие основные требования:

-для любого объекта в классификации должен быть предусмотрен один, и только один, исчерпывающий класс;

-классификация должна обеспечивать информационный поиск по любому сочетанию признаков.

Для удовлетворения этих требований в иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных объектов, т. е. перечислить их в классификационных таблицах. Поэтому такие классификации называются перечислительными.

Однако общее количество объектов классификации с развитием науки и техники непрерывно возрастает, поэтому ни одна классификация не дает возможности заранее перечислить все предметы. Кроме того, общие принципы построения иерархических классификаций таковы, что они не позволяют иметь в классификации один, и только один исчерпывающий класс для каждого объекта. Рассмотрим справедливость этих утверждений с формально-логической и с содержательной точек зрения.

С целью формально-логического анализа иерархических классификаций построим графическую модель иерархической классифика-

ции (рис.5.4).

138

K

 

Kx1

 

Kx2

Kx3

 

 

 

 

 

 

 

 

 

Kx1y1 Kx1y2

Kx1y3 Kx2y1 Kx2y2 Kx2y3 Kx3y1

Kx3y2 Kx3y3

 

 

 

 

 

 

 

 

 

Kx1y1z1 Kx1y1z2 Kx1y1z3

Рис. 5.4. Граф иерархической классификации

Пусть имеется класс объектов К и множество признаков (оснований деления) {x, y, z}. Каждый из этих признаков делит класс на три подкласса. Обозначим подклассы индексами, составленными из идентификатора признака и номера подкласса. Рассмотрим систему идентификации классов для примера из [Михайлов1968].

В качестве исходного класса К взят класс «гражданские самолеты», а в качестве оснований деления — соответственно следующие признаки: «целевое назначение» (x) «число моторов» (y) и «расположение крыла» (z). Применение основания деления x к исходному классу дает нам подклассы «пассажирские самолеты» (Kx1), «транспортные самолеты» (Kx2) и «специальные самолеты» (Kx3). Применение признака y соответственно к классам Kx1, Kx2 и Kx3 дает нам подклассы «одномоторные пассажирские самолеты» (Kx1y1), «двухмоторные пассажирские самолеты» (Kx1y2), «четырехмоторные пассажирские самолеты» (Kx1y3) и т. д. Наконец, применение признака z соответственно к классам Kx1y1, Kx1y2,

Kx1y3, Kx2y1, Kx2y2, Kx2y3, Kx3y1, Kx3y2 и Kx3y3 порождает подклассы «одномо-

торные пассажирские самолеты с низким расположением крыла» (Kx1y1z1), «одномоторные пассажирские самолеты со средним расположе-

нием крыла» (Kx1y1z2), «одномоторные пассажирские самолеты с высоким расположением крыла» (Kx1y1z3) и т. д.

При построении этой классификации деление, как того требуют формально-логические правила, должно проводиться только по одному основанию. Если бы на первом шаге деления были применены одновременно два признака — например, «целевое назначение» и «число моторов», то на одном уровне иерархии получились бы пересекающиеся классы «пассажирские самолеты» и «одномоторные самолеты» и т. д. Тогда документы об одномоторных пассажирских самолетах пришлось бы помещать не в один, а в два класса.

Описанная классификация, безусловно, не является идеальной. При ее построении, например, не был применен признак «тип движителя» (воздушный винт, реактивный поток). Классификация не является также и исчерпывающей: в число подклассов, образованных путем при-

139

менения признака «число моторов», не входят подклассы «трехмоторные самолеты» и «шестимоторные самолеты». Из-за несоблюдения формально-логических правил построения классификации в ней не найдется класса, к которому можно было бы отнести документ о трехмоторных транспортных самолетах или о реактивных пассажирских самолетах. Следовательно, при построении иерархической классификации соблюдение установленных формально-логических правил имеет исключительно большое значение.

Но даже безусловное соблюдение установленных формальнологических правил при построении иерархической классификации не устраняет ее главного недостатка - невозможность проведения группировки документов и информационного поиска по любому сочетанию характеристик.

Одно из основных требований, предъявляемых к библиотечнобиблиографической классификации, состоит в том, чтобы она обеспечивала сбор документов по определенному предмету в одном, и только в одном, классе. Но это требование не выполняется даже в такой иерархической классификации, которая безупречна в формально-логическом отношении. Для построения иерархической классификации используется определенный ряд признаков (оснований деления). Число этих признаков обычно бывает невелико, и они применяются только в одной последовательности. Такая процедура позволяет построить классы предметов, обладающих лишь определенными сочетаниями признаков, выбранных в качестве оснований деления.

Если классификацию, которая приведена на рис. 5.4, использовать для информационного поиска по любому сочетанию признаков из множества оснований деления данной классификации, то придется собирать документы из нескольких классов в том случае, когда сочетание признаков отлично от исходного. Например, документы о гражданских самолетах с высоким расположением крыла в такой классификации распределены по 9 классам, документы о двухмоторных гражданских самолетах

— по 3 классам и т. д.

Таким образом, для обеспечения возможности быстрого поиска документов по любому сочетанию признаков, взятых из некоторого данного множества (т.е. для предотвращения рассеяния таких документов по разным классам), необходимо построить отдельные классы для всех возможных сочетаний этих признаков. Эффективность этого метода зависит от числа классов самого нижнего уровня иерархии (обозначим это число через N), которое можно построить путем применения в разной последовательности исходного множества признаков. Очевидно, что чем больше N, тем выше трудоемкость процедуры классифицирования документов.

Проведем оценку трудоемкости этой процедуры путем вычисления числа иерархий, которое можно построить на данном множестве признаков.

140