Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

вании (для ИПТ, различающих дескрипторы и аскрипторы), устанавливаются иерархические и ассоциативные отношения между дескрипторами.

5.Построение лексико-семантического указателя. Лексикосемантический указатель является упорядоченной последовательностью словарных статей ИПТ и формируется путем расположения их в алфавитном порядке заглавных ЛЕ.

6.Создание алгоритма автоматизированного построения ИПТ, например, проведение частотного анализа, коррекции статей, алфавитной сортировки словника, проверки взаимности и непротиворечивости ссылок, составление указателей, распечатка в требуемых форматах [29].

Основные проблемы, с которыми приходится сталкиваться при построении тезауруса, можно разделить на три класса [35]:

-относящиеся к форме терминов;

-относящиеся к организации связей между терминами;

-относящиеся к занесению их в тезаурус, то есть описанию связей между дескрипторами и аскрипторами.

Проблема организации связей между терминами, по существу, имеет две компоненты: те, что относятся к иерархической структуре, и те, которые относятся к неиерархическим связям между терминами (ассоциативные отношения).

Проблемы, относящиеся к форме терминов, включают в себя принятие решения о том, использовать единственное или множественное число, какие классы терминов (прилагательные, существительные, глаголы) могут служить в качестве дескрипторов и уровень, до которого контролируемый словарь может содержать сложные (составные) словосочетания.

Проблемы, попадающие под название «ввод терминов», включают в себя синонимию, отношение «частное-целое», отношение «один-ко-многим», омонимию, а также необходимость сокращенного написания (аббревиатуры).

Эффективность поиска, безусловно, повышается при использовании на этапе формирования запроса отраслевых словарей и тезаурусов. Следует, однако, отметить, что составление таких

151

средств вручную занимает несколько лет, причем за это время многое меняется и в проблематике, и в лексике отрасли.

Онтология как средство формализованного представления информации

Одним из перспективных направлений в области формализации знаний, которое дает возможность использования накопленных знаний для компьютерной обработки, являются онтологии.

Онтология – это набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания [2]. Таким образом, онтология определяет общий словарь для специалистов, которым нужно совместно использовать информацию в предметной области.

Понятие онтология активно применяется в информатике и искусственном интеллекте. Этот термин пришел из философии, где обозначал часть метафизики – учение обо всем сущем, о его наиболее общих философских категориях, таких как бытие, субстанция, причина, действие, явление. При этом онтология как наука претендовала на полное объяснение причин всех явлений [4; 33].

Онтологии представляют понятия в виде, пригодном для машинной обработки. Нередко онтологии используются в качестве посредника между пользователем и информационной системой: с их помощью можно формализовать договоренности о терминологии.

По степени зависимости от конкретной задачи или предметной области обычно различают следующие онтологии.

Онтологии верхнего уровня – описывают наиболее общие,

независимые от конкретной проблемы или области концепты (пространство, время, материя, объект, событие, действие и т. д.), которые могут быть унифицированы для больших сообществ пользователей.

Онтологии, ориентированные на предметную область

стандартные онтологии, которые могут использоваться экспертами для совместной информационной деятельности в своей области.

152

Онтологии, ориентированные на задачу – онтологии, ис-

пользуемые при выполнении конкретной задачи. Они отражают специфику решения задачи, но могут также содержать некоторые общие термины.

Прикладные онтологии –описывают понятия, которые могут относиться как к онтологии задач, так и к онтологии ПрО. Примером может служить онтология автомобилей, строительных материалов, вычислительной техники. Прикладная онтология обобщает понятия, использующиеся в некоторых задачах ПрО, абстрагируясь от самих задач (так, онтология автомобилей независима от любых особенностей конкретных марок машин).

Язык описания онтологий. Ключевым моментом в проектировании онтологии является выбор языка спецификации онтоло-

гий (Ontology specification language). Цель таких языков – сущест-

венно повысить выразительные возможности концептуального моделирования слабо структурированных данных.

К традиционным языкам спецификации онтологий относятся: Ontolingua; CycL; языки, основанные на дескриптивных логиках (LOOM [34]); языки, основанные на фреймах (OKBC, OCML, Flogic [4]).

Более поздние языки ориентированы на Web-стандарты (XOL, SHOE, UPML). Специально для обмена онтологиями через

Web были созданы RDF(S), DAML, OIL, OWL.

Отношения в онтологиях. При создании онтологии предметной области выделяются отношения, которые необходимо использовать для задания связей между объектами. Далее приводится краткий обзор отношений в существующих онтологиях. Набор этих отношений призван обеспечить эффективную работу в информа- ционно-поисковых приложениях.

Отношения иерархии делятся на три подвида.

1. Родовидовое или внутрикатегориальное отношение род ↔

вид.

Основные конструкции предложений для поиска родового понятия В и видового понятия А:

А относится к В;

153

родом А является В; А принадлежит классу/семейству В.

В имеет следующие виды: А1, А2, …, АN ; к видам В относятся А1, А2, …, АN .

2.Отношение признак ↔ значение признака или отношение типизация-конкретизация. Здесь признак или тип – это категория, а значение – это имя конкретной категориальной формы.

Основные конструкции предложений для поиска с использованием отношения, если А – понятие-категория, B – имя категории:

А имеет имя В; А именуется В; А называется В.

3.Отношение инвариант вариант. В этом отношении инвариант – это неизменная структурная единица языка, а вариант – разновидность структурной единицы языка.

Основные конструкции предложений для поиска с использованием отношения для понятия инварианта А и варианта В:

к вариантам А относятся В1, В2, …, BN ; инвариантом В является А.

Отношения агрегации делятся на четыре подвида.

1.Отношение целое часть (компонент). Целое в отношении – то, что перестает существовать, если отнять любую часть, а часть – то, без чего целого не существует.

Для поиска используются следующие конструкции (целое А – часть В):

В входит в состав А; В составляет часть А; В является частью;

В является элементом А;

А состоит из В1, В2, …, BN;

А включает в себя В как часть; А включает в свой состав В как часть;

А имеет своими частями/элементами В1, В2, …, BN.

2.Отношение объект пространство реализации объекта.

Пространство реализации – это то пространство, где объект А проявляет свои свойства и функции.

154

Выражения для поиска:

Апроисходит в В;

Анаходится в В;

Авходит в В.

3.Отношение объект ↔ свойство/признак. Свойство – это то, что присуще объекту, что отличает его от других. Свойства делятся на существенные и несущественные.

Основные выражения для поиска следующие:

А обладает свойством В, А имеет В существенным признаком;

А характеризуется наличием В; для А характерно В.

4.Отношение уровень ↔ единица уровня. Выделяют такие

составляющие, как уровень, единица уровня, тип структуры. Для поиска используются следующие выражения:

Апринадлежит уровню В;

А– единица уровня В;

Арассматривается на уровне В.

Семиотические отношения предназначены для выражения соответствия между понятиями знаковых систем. Посредством таких отношений можно создавать иерархии понятий знаковых систем, при этом каждый уровень иерархии будет соответствовать одному метаязыку. Виды семиотических отношений:

1.Отношение термин способ выражения. Отражает фун-

даментальные свойства языка как системы знаков, имеющей план выражения и план содержания. Как знаковая система, предназначенная для коммуникации, язык обладает совокупностью средств выражения самых разнообразных значений. Отсюда следует, что в языке должна быть терминология, относящаяся к формальной стороне языка, и терминология, называющая значения и функции. В данном отношении осуществляется связь двух языковых объектов. Диагностирующие выражения:

А обычно выражает В; А используется для выражения В; А является В.

2.Отношение термин способ представления. Фиксирует

связь языкового объекта и его представления в модельном языке лингвистики (метаязыке), где ненаблюдаемый теоретический язы-

155

ковый объект может получить наглядный аналог во фрагменте или элементе некоторой модельной записи. Диагностирующие выражения:

Аобычно представляется посредством В;

Аиспользуется для представления В;

Аиспользуется с помощью В.

3. Отношение термин одного метаязыка термин другого метаязыка. Позволяет установить соответствие между двумя знаковыми системами как в одной предметной области, имеющей разные уровни представления знаний, так и между смежными предметными областями.

Диагностирующие выражения:

Апредставлено в виде/как В;

Апредставлено с помощью В; способом представления А является В.

Функциональные отношения – отношения, принадлежащие сфере процессуальности, представляют собой многоместный предикат «Операция», в котором выделяют следующие аргументы (места):

А: субъект операции; В: инструмент или способ/метод/алгоритм выполнения опе-

рации; С: начальный объект или исходные данные;

D: конечный объект или результат/выходные данные; E: событие, активизирующее операцию.

Субъектом операции может выступать человек или устройство. Основное выражение для выявления субъекта операции:

А совершает В.

Начальным объектом (исходными данными) называется объект, над которым совершается операция. Выражения для выявления начального объекта:

Аосуществляется над В;

Априменяется к В;

Аменяет В.

Конечный объект или результат/выходные данные – это объект, являющийся конечным результатом выполнения операции. Выражения для выявления конечного объекта:

в результате А получается В;

156

в результате А образуется В;

Априводит к В;

Апревращает В1 в В2.

В [30] предлагается следующая типология отношений (свя-

зей):

-таксономические связи, выражающие отношение «является видом» или отношение «общее/специфичное»;

-композиционные связи, выражающие отношение «является частью» или «агрегация объектов друг из друга»;

-топологические связи, отражающие, как различные составляющие (компоненты) системы связаны друг с другом через определенные связи, или показывающие «пути» физических взаимодействий между составляющими.

Каждый из таких типов связей представлен в конкретных онтологиях множеством вариантов.

Кнаиболее типичным таксономическим отношениям относятся отношения, ставящие две сущности в зависимость «частноеобщее», и обозначаемые «является потомком», «является подклассом», «является представителем».

Ккомпозиционным связям в искусственном интеллекте и концептуальном моделировании относят различные типы отношений «часть-целое»: «компонент-объект», «вещество-ингредиент», «член из набора», «порция массы или большого количества», «место в области», «фаза, шаг-процесс».

Топологическими связями являются следующие связи:

-связь объекта и свойства: сущность «Имеет атрибутом»

свойство;

-связи сущностей с процессами и связи сущностей с сущностями посредством процессов: «Сущность поддерживает процесс», «Сущность является инструментом процесса», «Сущностъ участвует в процессе», «Сущность выполняет процесс», «Сущность управляет процессом» и т.п.;

-причинно-следственные связи: «Процесс влияет на прохождение другого процесса» (например, препятствует, оберегает от), «Процесс влияет на сущность», «Процесс вызывает другой процесс» и др.;

157

-временные связи (или связи сущностей, протекающих во времени): «Процесс связан по времени с другим Процессом», «Временной интервал является частью другого», «Временной интервал связан с другим интервалом», «Процесс является частью другого Процесса»;

-пространственные связи: «Сущность частично располагается в другой сущности», «Сущность наполняет другую сущность», «Сущность является носителем (содержит внутри себя) процесса»;

-родственные биологические связи: «Организм имеет родителем Организм», «Организм имеет потомком Организм», «Организм имеет братом/сестрой Организм».

-«умственные» связи: «Человек владеет чем-то», «Человек является гражданином чего-то», «Сущность является родиной Организма».

-целевые связи: «Сущность имеет целью абстракцию», «Сущность является результатом, является продуктом Процесса» и т.д.

На рис. 4.3 приведен фрагмент онтологии по естественным наукам и технологиям для приложений в сфере информационного поиска [8].

158

Рис. 4.3. Фрагмент онтологии по естественным наукам и технологиям

159

ГЛАВА 5. МЕТОДЫ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ И ЛЕКСИЧЕСКОГО АНАЛИЗА ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИИ

Воснове решения таких задач анализа и синтеза, как индексирование, классификация и кластеризация, лежит понятие семантического соответствия между текстами, которое в свою очередь сводится к определению «силы» семантической связи между соответствующими терминами. Поэтому методы автоматической обработки документальной информации рассматривают текст как ограниченный набор терминов (отдельных слов и словосочетаний), образующих в контексте документа семантическую систему, представляющую его смысл. В каждой предметной области формируется своя, в той или иной степени устойчивая и динамичная, терминологическая система. В информационном аспекте (в задачах обработки информационных потоков) такую систему могут составлять следующие объекты:

- терминологические таблицы, организованные в виде семантических сетей, каждому узлу которых сопоставлен некоторый набор документов;

- тезаурусы и онтологии – сетевые словарные структуры, отражающие парадигматические и синтагматические связи терминов в конкретной предметной области;

- классификации, тематические рубрикаторы и др.

Вцелом можно сказать, что именно терминологические системы позволяют не только идентифицировать информационные объекты хранения и поиска, но и, оценивая динамику изменения терминологической системы, наблюдать и прогнозировать развитие (по крайней мере, изменение) предметной области. Количественной мерой при этом будет изменение частот употребления лексики, характерной для этой предметной области.

5.1. Методы выделения информативных терминов

Первой задачей при построении терминологической системы является задача выделения из текстов предметной области отдельных слов или словосочетаний, которые для данной предметной области обозначают ключевые понятия. Для выявления терминов –

160

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]