Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
22
Добавлен:
23.05.2017
Размер:
2.53 Mб
Скачать

Коэффициент синонимии: Sn = 16843330 0,506

СловарныйсоставТезаурусапоинформатике

 

14%

16%

39%

 

25%

6%

Изолированныедескрипторы

Родоначальныедескрипторы

ВидовыедескрипторыI уровня

ВидовыедескрипторыII уровня

Рис. 5.9. Словарный состав Тезауруса по информатике

Обзор правил и методов построения тезауруса. Построение те-

зауруса включает в себя следующие этапы:

1.Определение тематического охвата информационнопоискового тезауруса путем анализа информационной потребности абонентов (потребителей).

2.Сбор массива лексических единиц в том случае, если отсутствуют тезаурусы по заданной тематике. Первоначальный сбор лексики осуществляется выделением лексических единиц из представленной коллекции документов и/или запросов. В полученный массив лексических единиц дополнительно должны быть включены соответствующие тематике лексические единицы, выделенные в соответствии с методикой построения данного тезауруса из указанных в ней источников: рубрикатора ГРНТИ; энциклопедических и терминологических словарей, справочников; терминологических стандартов; классификаторов техникоэкономической информации; таблиц УДК, МКИ и других систем классификации.

3.Формирование словника тезауруса. В словник могут быть включены следующие типы лексических единиц:

- одиночные слова (существительные, прилагательные, глаголы, наречия, причастия);

- именные словосочетания; - лексически значимые компоненты сложных слов;

- аббревиатуры; при наличии аббревиатур в словник должны включаться также соответствующие им полные формы (если только она не отсутствует).

- сокращения слов и словосочетаний.

191

Одиночные существительные следует заменять формой именительного падежа. Формы прилагательных и причастий следует приводить к именительному падежу. Прилагательные и причастия в единственном числе приводятся к форме мужского рода. Глаголы рекомендуется заменять отглагольными существительными. Глаголы, включенные

всловник, приводят к форме инфинитива.

4.Построение словарных статей. При построении словарных статей информационно-поискового тезауруса лексическим единицам приписываются ссылки, устраняется неоднозначности ЛЕ, устанавливаются отношения эквивалентности, выбирается дескриптор, представляющий класс эквивалентности при индексировании (для ИПТ, различающих дескрипторы и аскрипторы), устанавливаются иерархические и ассоциативные отношения между дескрипторами.

5.Построение лексико-семантического указателя. Лексикосемантический указатель является упорядоченной последовательностью словарных статей ИПТ и формируется путем расположения их в алфавитном порядке заглавных ЛЕ.

6.Создание алгоритма автоматизированного построения ИПТ, например, проведение частотного анализа, коррекции статей, алфавитной сортировки словника, проверки взаимности и непротиворечивости ссылок, составление указателей, распечатка в требуемых форматах. [Тезаурус1988]

Основные проблемы, с которыми приходится сталкиваться при построении тезауруса, можно разделить на три класса: [David1993]

- относящиеся к форме терминов; - относящиеся к организации связей между терминами;

- относящиеся к занесению их в тезаурус, то есть описанию связей между дескрипторами и аскрипторами.

Проблема организации связей между терминами, по существу, имеет две компоненты: те, что относятся к иерархической структуре, и те, которые относятся к неиерархическим связям между терминами (ассоциативные отношения).

Проблемы, относящиеся к форме терминов, включают в себя принятие решения о том, использовать единственное или множественное число, какие классы терминов (прилагательные, существительные, глаголы) могут служить в качестве дескрипторов и уровень, до которого контролируемый словарь может содержать сложные (составные) словосочетания.

Проблемы, попадающие под название «ввод терминов», включают в себя синонимию, отношение «частное-целое», отношение «один-ко- многим», омонимию, а также необходимость сокращенного написания (аббревиатуры).

192

Эффективность поиска, безусловно, повышается при использовании на этапе формирования запроса отраслевых словарей и тезаурусов. Следует, однако, отметить, что составление таких средств вручную занимает несколько лет, причем за это время многое меняется и в проблематике, и в лексике отрасли.

Для анализа использования лексики тезаурусов было проведено исследование динамики использования дескрипторов и ключевых слов информационно-поискового тезауруса по информатике [Информацион- но-поисковый1987] при индексировании базы данных ВИНИТИ РАН «Информатика». Результаты исследования представлены в Таблице 5.6 и

на Рис. 5.10.

Таблица 5.6.

Анализ использования дескрипторов тезауруса

 

 

Кол-во кл. сл.

Кол-во деск-

Доля

Год

Кол-во док-тов

рипторов те-

дескрип-

 

 

в поле KW

зауруса в

торов в

 

 

 

словнике

поле KW

1981

5

18

11

0,611

1982

23

93

59

0,634

1983

42

147

111

0,755

1984

167

454

258

0,568

1985

713

1461

628

0,430

1986

4718

5242

1408

0,269

1987

6165

6398

1461

0,228

1988

6575

6518

1428

0,219

1989

7017

7000

1406

0,201

1990

6715

6805

1350

0,198

1991

5699

6515

1226

0,188

1992

4473

5977

1113

0,186

1993

3932

5218

1018

0,195

1994

4487

7436

1008

0,136

1995

4424

9220

975

0,106

1996

4418

9107

954

0,105

1997

3323

8445

871

0,103

1998

3838

9848

915

0,093

1999

3927

10300

862

0,084

2000

672

2727

401

0,151

193

 

 

 

 

 

Доля дескрипторов в словнике по годам

 

 

 

 

 

 

0,800

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,750

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,700

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,650

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,600

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,550

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,500

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,450

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,400

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,350

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,300

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,250

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,200

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,150

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,100

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,050

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

Рис. 5.10. Распределение доли дескрипторов тезауруса по годам.

Исследования показали, что доля дескрипторов тезауруса, использованных при индексировании документов, существенно уменьшается с течением времени.

Контрольные вопросы

1.Охарактеризуйте состав лингвистического обеспечения документальных ИПС.

2.Определите понятие «искусственный язык».

3.Определите понятие «информационно-поисковый язык».

4.Дайте определение и приведите примеры парадигматических и синтагматических отношений между лексическими единицами ИПЯ.

5.Охарактеризуйте назначение и приведите типологию информаци- онно-поисковых языков.

6.Дайте определение классификации.

7.Охарактеризуйте сходства и отличия перечислительных и анали- тико-синтетических классификаций.

8.Охарактеризуйте свойства и приведите примеры перечислительных классификаций.

9.Охарактеризуйте свойства и приведите примеры аналитикосинтетических классификаций.

10.Дайте определение дескрипторного ИПЯ.

11.Охарактеризуйте метод координатного индексирования.

12.Перечислите и охарактеризуйте недостатки чистой координации.

13.Приведите типологию терминологических структур.

14.Приведите примеры использования линейных терминологических структур при индексировании и поиске.

15.Приведите примеры иерархических терминологических структур.

16.Дайте определение понятия «тезаурус».

17.Охарактеризуйте назначение и структуру информационнопоискового тезауруса.

18.Приведите примеры тезаурусов.

194

6.Поисковые задачи и технологии информационного поиска

Взадачах информационного поиска качественно различают две составляющие: концептуальную и технологическую.

К концептуальным составляющим относятся, прежде всего, методы и средства представления собственно информации (знаний) и метаинформации, которые используются в качестве основы как для проектирования механизма поиска, так и для организации процессов взаимодействия пользователя с АИПС.

К технологическим составляющим относятся средства пользовательского интерфейса, алгоритмы индексирования и поиска, языки запросов, средства интеграции информации из различных источников и т.д.

Как отмечалось ранее (см. главу 2), принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного само-

обслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную37.

Особенности технических решений при проектировании и эксплуатации автоматизированных информационных систем, ориентированных на информационную поддержку основной деятельности и интегрирующих такие специализированные функции, как поиск, обработка и организация информации, определяются двумя следующими, имеющими разную природу, факторами.

1. Используемые информационные ресурсы (ИР), наряду с оригинальным авторским представлением материала, в большинстве своем характеризуются высокой систематизированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов и систем вторичной информации – рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ресурсам).

2. Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как

37 Это особенно важно учитывать в задачах информационного обеспечения научных исследований, когда объект поиска не может быть четко определен заранее и когда цель поиска, сформулированная на начальной стадии работы, может измениться уже в процессе самого поиска, например, при ознакомлении с найденным документом. Причем факт изменения цели возможно даже не будет явно осознан исследователем, что в итоге может привести к неполному результату поиска.

195

инструмента. В целом фессионализма» ный/неподготовленный нал/непрофессионал).

эти факторы обычно сводятся к понятию «про- - информационного (подготовленпользователь) и предметного (профессио-

6.1. Динамика информации в системах основной и информационной деятельности

Взаимодействие пользователя с комплексом разнородных информационных ресурсов должно рассматриваться как процесс, зависящий от двух групп основных факторов. С одной стороны – это свойства информации и закономерности информационных преобразований в сфере основной деятельности (ОД), учитывающие специфику восприятия и переработки человеком как основной (целевой) информации, так и технологической, обеспечивающей условия его взаимодействия с информационной средой. С другой стороны, организация информационного пространства должна рассматриваться как задача такого управления ИР, при котором персональная АИС пользователя позволяла бы работать с ними как с единым ресурсом, что требует решения вопроса об идентификации ресурсов, а на уровне потребителя информации связано с проблемами разработки интерфейсов и средств доступа, обеспечивающих персонификацию представления информационных объектов.

Рассмотрим обобщенную схему воспроизводства информации, в основу которой положено предложенное в [Попов1996] представление совокупной информационной системы (генератор – потребитель информации), определяющее исследуемые объекты и процессы автоматизации в контексте взаимозависимости основной и собственно информационной деятельности (рис. 6.1).

С точки зрения задач управления потоками здесь можно различить две совокупности процессов: формирование потока информации (документов) в соответствии с заданными характеристиками (тематичность,

полнота охвата и т.д.) и распределение входных и выходных потоков и их составляющих в соответствии с информационными потребностями38. И, если основная деятельность имеет дело с поиском и содержательной обработкой научной информации (т.е. сообщениями, описывающими некоторые свойства исследуемого объекта), то научно-информационная – это по возможности инвариантные относительно смысла преобразования текста в форму, приемлемую для автоматизированной идентификации, хранения и поиска.

38 Отметим, что информационные потребности и запросы также можно рассматривать как поток информации - гипотетической или в какой-то части неактуализированной.

196

Факторы, определяющие целевое использование ИР

Инф. Потребн. Условия восприятия

Наличные знания

(теория, методология, методы)

Система представления знаний в предметной области

Отрасль-ориентированная ПрО

Проблемно-ориентированная ПрО

Интерпретация результа-

 

Поиск

та поиска

 

 

Представление ИР

 

Д-т

 

под

 

 

Исходная

···

информация

 

Решение задачи ОД

 

Генерация

 

 

ИР

 

 

 

Результат

Документопоток

ОД

 

 

 

 

 

 

 

Отрасль-

 

Оформление

 

Комплектование (отбор/

ориентированное пред-

 

сообщения

 

представление)

ставление смысла

 

 

 

 

 

результата

Сообщ

 

Д-т

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 6.1. Обобщенная схема воспроизводства информации

Факторы, определяющие доступность ИР

Метаинформация (семантика/ структура)

Автоматизированные информ. системы и технологии

Отраслевой спектр комплектования ресурса

По характеру информации в совокупной системе (рис. 6.1) можно выделить три следующих уровня преобразования информационных объектов.

Первый уровень – это основная деятельность, где объектами являются предметы реального мира, а результатами – новое знание. Носителем информации этого уровня является человеческое сознание, для которого характерны системность организации и ассоциативность выборки, а коммуникационным объектом является сообщение – знание, адресно отраженное на систему понятий предполагаемого приемника - потребителя информации.

Второй уровень – создание общественно-полезной информации – одна из форм овеществления знаний через обобществление результатов в документальной форме. Средством представления знаний (коммуникаций) здесь является язык, а носителем – документ как функционально ориентированное сообщение, структурирующее информацию и идентифицирующее ее, например, путем выделения логических или физических частей - семантически однородных полей.

Третий уровень – собственно информационная деятельность – управление потоками информации для обеспечения основной деятельности. Работа с компактными по объему вторичными документами, позволяет совершенствовать процесс поиска нужных сообщений. Здесь информация (поисковый образ документа) – это хорошо структурированный материал, компактно и предметно отражающий содержание документа, а также обеспечивающий идентифицируемость документа в целом и на уровне отдельных элементов данных.

Для выявления характера взаимосвязи информационных объектов используем приведенное в гл. 1 определение понятия «информация» как отражения результата упорядочения и ограничения разнообразия описаний объектов ОД и их взаимосвязей (в реальном мире) в соответствии с требованиями, обуславливаемыми возможностями средств представления (языка описания). Отсюда следует, что использование абстракций различного порядка в итоге дает возможность (упрощая описание объекта одного семантического уровня за счет введения объектов другого уровня) представлять объекты с помощью конечного числа терминов. Соотношение и характер взаимосвязей информационных объектов, форм и средств их представления, рассматриваемых в контексте задач информационного обеспечения основной деятельности, приведены на рис.6.2.

Здесь преобразование форм представления информации является последовательным отражением содержания, а по существу - фильтрацией информации путем снижения разнообразия форм и аспектов представления смыслового содержания через вынесение части смысла в метаинформационную составляющую или простое отбрасывание.

Например, сообщение предполагает фиксацию (ограничение) предметной области; документ – фиксацию вариантов способа пред-

198

ставления через выделение семантически однородных полей и, соответственно, определение характера и способа их наполнения; поисковый образ фиксирует способы указания значения отдельного элемента (типа данных).

Соответственно, адекватность средств отражения информации (а в случае информационно-поисковых систем это средства лингвистического обеспечения) должна рассматриваться как с точки зрения возможности неискажающего преобразования самой информации в цепи генера- ции-потребления информационного ресурса, так и с точки зрения адекватности восприятия пользователем функциональных возможностей этих средств.

199

Информация

Отбор документов при

Потребность

 

поиске в БД

 

ПОД

 

ПОЗ

Документ

ИПЯ

Знание ИПЯ

Выражение

 

 

 

ИП

 

Структура ИПЯ

Словари

 

Сообщение

Язык научн. ком-

Знание языка

Постановка по-

 

муникаций

 

иск. задачи

 

Структура языка

ИПТ

 

Новые знания

Язык ПрО

Знание ПрО

Формализованная

 

 

 

ИП

Объекты

Системы

Основные понятия

Реальная

исследований

знаний

и закономерности

потребность

Рис. 6.2. Уровневая модель взаимосвязи информационных объектов