СДАЛ / ИСЭ Информационные системы в экономике / Уч_пособия / ИС_МФЮА
.pdfКоэффициент синонимии: Sn = 16843330 ≈ 0,506
СловарныйсоставТезаурусапоинформатике
|
14% |
16% |
39% |
|
25% |
6% |
Изолированныедескрипторы
Родоначальныедескрипторы
ВидовыедескрипторыI уровня
ВидовыедескрипторыII уровня
Рис. 5.9. Словарный состав Тезауруса по информатике
Обзор правил и методов построения тезауруса. Построение те-
зауруса включает в себя следующие этапы:
1.Определение тематического охвата информационнопоискового тезауруса путем анализа информационной потребности абонентов (потребителей).
2.Сбор массива лексических единиц в том случае, если отсутствуют тезаурусы по заданной тематике. Первоначальный сбор лексики осуществляется выделением лексических единиц из представленной коллекции документов и/или запросов. В полученный массив лексических единиц дополнительно должны быть включены соответствующие тематике лексические единицы, выделенные в соответствии с методикой построения данного тезауруса из указанных в ней источников: рубрикатора ГРНТИ; энциклопедических и терминологических словарей, справочников; терминологических стандартов; классификаторов техникоэкономической информации; таблиц УДК, МКИ и других систем классификации.
3.Формирование словника тезауруса. В словник могут быть включены следующие типы лексических единиц:
- одиночные слова (существительные, прилагательные, глаголы, наречия, причастия);
- именные словосочетания; - лексически значимые компоненты сложных слов;
- аббревиатуры; при наличии аббревиатур в словник должны включаться также соответствующие им полные формы (если только она не отсутствует).
- сокращения слов и словосочетаний.
191
Одиночные существительные следует заменять формой именительного падежа. Формы прилагательных и причастий следует приводить к именительному падежу. Прилагательные и причастия в единственном числе приводятся к форме мужского рода. Глаголы рекомендуется заменять отглагольными существительными. Глаголы, включенные
всловник, приводят к форме инфинитива.
4.Построение словарных статей. При построении словарных статей информационно-поискового тезауруса лексическим единицам приписываются ссылки, устраняется неоднозначности ЛЕ, устанавливаются отношения эквивалентности, выбирается дескриптор, представляющий класс эквивалентности при индексировании (для ИПТ, различающих дескрипторы и аскрипторы), устанавливаются иерархические и ассоциативные отношения между дескрипторами.
5.Построение лексико-семантического указателя. Лексикосемантический указатель является упорядоченной последовательностью словарных статей ИПТ и формируется путем расположения их в алфавитном порядке заглавных ЛЕ.
6.Создание алгоритма автоматизированного построения ИПТ, например, проведение частотного анализа, коррекции статей, алфавитной сортировки словника, проверки взаимности и непротиворечивости ссылок, составление указателей, распечатка в требуемых форматах. [Тезаурус1988]
Основные проблемы, с которыми приходится сталкиваться при построении тезауруса, можно разделить на три класса: [David1993]
- относящиеся к форме терминов; - относящиеся к организации связей между терминами;
- относящиеся к занесению их в тезаурус, то есть описанию связей между дескрипторами и аскрипторами.
Проблема организации связей между терминами, по существу, имеет две компоненты: те, что относятся к иерархической структуре, и те, которые относятся к неиерархическим связям между терминами (ассоциативные отношения).
Проблемы, относящиеся к форме терминов, включают в себя принятие решения о том, использовать единственное или множественное число, какие классы терминов (прилагательные, существительные, глаголы) могут служить в качестве дескрипторов и уровень, до которого контролируемый словарь может содержать сложные (составные) словосочетания.
Проблемы, попадающие под название «ввод терминов», включают в себя синонимию, отношение «частное-целое», отношение «один-ко- многим», омонимию, а также необходимость сокращенного написания (аббревиатуры).
192
Эффективность поиска, безусловно, повышается при использовании на этапе формирования запроса отраслевых словарей и тезаурусов. Следует, однако, отметить, что составление таких средств вручную занимает несколько лет, причем за это время многое меняется и в проблематике, и в лексике отрасли.
Для анализа использования лексики тезаурусов было проведено исследование динамики использования дескрипторов и ключевых слов информационно-поискового тезауруса по информатике [Информацион- но-поисковый1987] при индексировании базы данных ВИНИТИ РАН «Информатика». Результаты исследования представлены в Таблице 5.6 и
на Рис. 5.10.
Таблица 5.6.
Анализ использования дескрипторов тезауруса
|
|
Кол-во кл. сл. |
Кол-во деск- |
Доля |
Год |
Кол-во док-тов |
рипторов те- |
дескрип- |
|
|
|
в поле KW |
зауруса в |
торов в |
|
|
|
словнике |
поле KW |
1981 |
5 |
18 |
11 |
0,611 |
1982 |
23 |
93 |
59 |
0,634 |
1983 |
42 |
147 |
111 |
0,755 |
1984 |
167 |
454 |
258 |
0,568 |
1985 |
713 |
1461 |
628 |
0,430 |
1986 |
4718 |
5242 |
1408 |
0,269 |
1987 |
6165 |
6398 |
1461 |
0,228 |
1988 |
6575 |
6518 |
1428 |
0,219 |
1989 |
7017 |
7000 |
1406 |
0,201 |
1990 |
6715 |
6805 |
1350 |
0,198 |
1991 |
5699 |
6515 |
1226 |
0,188 |
1992 |
4473 |
5977 |
1113 |
0,186 |
1993 |
3932 |
5218 |
1018 |
0,195 |
1994 |
4487 |
7436 |
1008 |
0,136 |
1995 |
4424 |
9220 |
975 |
0,106 |
1996 |
4418 |
9107 |
954 |
0,105 |
1997 |
3323 |
8445 |
871 |
0,103 |
1998 |
3838 |
9848 |
915 |
0,093 |
1999 |
3927 |
10300 |
862 |
0,084 |
2000 |
672 |
2727 |
401 |
0,151 |
193
|
|
|
|
|
Доля дескрипторов в словнике по годам |
|
|
|
|
|
|
||||||||
0,800 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,750 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,700 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,650 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,600 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,550 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,500 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,450 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,400 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,350 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,300 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,250 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,200 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,150 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,100 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,050 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,000 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1981 |
1982 |
1983 |
1984 |
1985 |
1986 |
1987 |
1988 |
1989 |
1990 |
1991 |
1992 |
1993 |
1994 |
1995 |
1996 |
1997 |
1998 |
1999 |
2000 |
Рис. 5.10. Распределение доли дескрипторов тезауруса по годам.
Исследования показали, что доля дескрипторов тезауруса, использованных при индексировании документов, существенно уменьшается с течением времени.
Контрольные вопросы
1.Охарактеризуйте состав лингвистического обеспечения документальных ИПС.
2.Определите понятие «искусственный язык».
3.Определите понятие «информационно-поисковый язык».
4.Дайте определение и приведите примеры парадигматических и синтагматических отношений между лексическими единицами ИПЯ.
5.Охарактеризуйте назначение и приведите типологию информаци- онно-поисковых языков.
6.Дайте определение классификации.
7.Охарактеризуйте сходства и отличия перечислительных и анали- тико-синтетических классификаций.
8.Охарактеризуйте свойства и приведите примеры перечислительных классификаций.
9.Охарактеризуйте свойства и приведите примеры аналитикосинтетических классификаций.
10.Дайте определение дескрипторного ИПЯ.
11.Охарактеризуйте метод координатного индексирования.
12.Перечислите и охарактеризуйте недостатки чистой координации.
13.Приведите типологию терминологических структур.
14.Приведите примеры использования линейных терминологических структур при индексировании и поиске.
15.Приведите примеры иерархических терминологических структур.
16.Дайте определение понятия «тезаурус».
17.Охарактеризуйте назначение и структуру информационнопоискового тезауруса.
18.Приведите примеры тезаурусов.
194
6.Поисковые задачи и технологии информационного поиска
Взадачах информационного поиска качественно различают две составляющие: концептуальную и технологическую.
К концептуальным составляющим относятся, прежде всего, методы и средства представления собственно информации (знаний) и метаинформации, которые используются в качестве основы как для проектирования механизма поиска, так и для организации процессов взаимодействия пользователя с АИПС.
К технологическим составляющим относятся средства пользовательского интерфейса, алгоритмы индексирования и поиска, языки запросов, средства интеграции информации из различных источников и т.д.
Как отмечалось ранее (см. главу 2), принципиально важным фактором, определяющим направление развития современных информационных систем, является то, что взаимодействие пользователей с информационными ресурсами происходит в режиме «информационного само-
обслуживания», когда пользователь, по существу, уже не разделяет свою деятельность на информационную и основную37.
Особенности технических решений при проектировании и эксплуатации автоматизированных информационных систем, ориентированных на информационную поддержку основной деятельности и интегрирующих такие специализированные функции, как поиск, обработка и организация информации, определяются двумя следующими, имеющими разную природу, факторами.
1. Используемые информационные ресурсы (ИР), наряду с оригинальным авторским представлением материала, в большинстве своем характеризуются высокой систематизированностью (тематической профильностью источников и ядерностью тематических потоков), а также практически обязательным наличием справочной информации (поисковых образов документов и систем вторичной информации – рубрикаторов и тезаурусов, обеспечивающих единообразие представления и организации доступа к ресурсам).
2. Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как
37 Это особенно важно учитывать в задачах информационного обеспечения научных исследований, когда объект поиска не может быть четко определен заранее и когда цель поиска, сформулированная на начальной стадии работы, может измениться уже в процессе самого поиска, например, при ознакомлении с найденным документом. Причем факт изменения цели возможно даже не будет явно осознан исследователем, что в итоге может привести к неполному результату поиска.
195
инструмента. В целом фессионализма» ный/неподготовленный нал/непрофессионал).
эти факторы обычно сводятся к понятию «про- - информационного (подготовленпользователь) и предметного (профессио-
6.1. Динамика информации в системах основной и информационной деятельности
Взаимодействие пользователя с комплексом разнородных информационных ресурсов должно рассматриваться как процесс, зависящий от двух групп основных факторов. С одной стороны – это свойства информации и закономерности информационных преобразований в сфере основной деятельности (ОД), учитывающие специфику восприятия и переработки человеком как основной (целевой) информации, так и технологической, обеспечивающей условия его взаимодействия с информационной средой. С другой стороны, организация информационного пространства должна рассматриваться как задача такого управления ИР, при котором персональная АИС пользователя позволяла бы работать с ними как с единым ресурсом, что требует решения вопроса об идентификации ресурсов, а на уровне потребителя информации связано с проблемами разработки интерфейсов и средств доступа, обеспечивающих персонификацию представления информационных объектов.
Рассмотрим обобщенную схему воспроизводства информации, в основу которой положено предложенное в [Попов1996] представление совокупной информационной системы (генератор – потребитель информации), определяющее исследуемые объекты и процессы автоматизации в контексте взаимозависимости основной и собственно информационной деятельности (рис. 6.1).
С точки зрения задач управления потоками здесь можно различить две совокупности процессов: формирование потока информации (документов) в соответствии с заданными характеристиками (тематичность,
полнота охвата и т.д.) и распределение входных и выходных потоков и их составляющих в соответствии с информационными потребностями38. И, если основная деятельность имеет дело с поиском и содержательной обработкой научной информации (т.е. сообщениями, описывающими некоторые свойства исследуемого объекта), то научно-информационная – это по возможности инвариантные относительно смысла преобразования текста в форму, приемлемую для автоматизированной идентификации, хранения и поиска.
38 Отметим, что информационные потребности и запросы также можно рассматривать как поток информации - гипотетической или в какой-то части неактуализированной.
196
Факторы, определяющие целевое использование ИР
Инф. Потребн. Условия восприятия
Наличные знания
(теория, методология, методы)
Система представления знаний в предметной области
Отрасль-ориентированная ПрО
Проблемно-ориентированная ПрО
Интерпретация результа- |
|
Поиск |
та поиска |
|
|
|
Представление ИР |
|
|
Д-т |
|
|
под |
|
|
|
Исходная |
··· |
|
информация |
||
|
Решение задачи ОД |
|
Генерация |
|
|
ИР |
|
|
|
Результат |
Документопоток |
|
ОД |
||
|
|
|
|
|
|
|
Отрасль- |
|
Оформление |
|
Комплектование (отбор/ |
|
ориентированное пред- |
|
сообщения |
|
представление) |
|
ставление смысла |
|
|
|
|
|
результата |
Сообщ |
|
Д-т |
|
|
|
|
|
|
||
|
|
|
|
|
|
Рис. 6.1. Обобщенная схема воспроизводства информации
Факторы, определяющие доступность ИР
Метаинформация (семантика/ структура)
Автоматизированные информ. системы и технологии
Отраслевой спектр комплектования ресурса
По характеру информации в совокупной системе (рис. 6.1) можно выделить три следующих уровня преобразования информационных объектов.
Первый уровень – это основная деятельность, где объектами являются предметы реального мира, а результатами – новое знание. Носителем информации этого уровня является человеческое сознание, для которого характерны системность организации и ассоциативность выборки, а коммуникационным объектом является сообщение – знание, адресно отраженное на систему понятий предполагаемого приемника - потребителя информации.
Второй уровень – создание общественно-полезной информации – одна из форм овеществления знаний через обобществление результатов в документальной форме. Средством представления знаний (коммуникаций) здесь является язык, а носителем – документ как функционально ориентированное сообщение, структурирующее информацию и идентифицирующее ее, например, путем выделения логических или физических частей - семантически однородных полей.
Третий уровень – собственно информационная деятельность – управление потоками информации для обеспечения основной деятельности. Работа с компактными по объему вторичными документами, позволяет совершенствовать процесс поиска нужных сообщений. Здесь информация (поисковый образ документа) – это хорошо структурированный материал, компактно и предметно отражающий содержание документа, а также обеспечивающий идентифицируемость документа в целом и на уровне отдельных элементов данных.
Для выявления характера взаимосвязи информационных объектов используем приведенное в гл. 1 определение понятия «информация» как отражения результата упорядочения и ограничения разнообразия описаний объектов ОД и их взаимосвязей (в реальном мире) в соответствии с требованиями, обуславливаемыми возможностями средств представления (языка описания). Отсюда следует, что использование абстракций различного порядка в итоге дает возможность (упрощая описание объекта одного семантического уровня за счет введения объектов другого уровня) представлять объекты с помощью конечного числа терминов. Соотношение и характер взаимосвязей информационных объектов, форм и средств их представления, рассматриваемых в контексте задач информационного обеспечения основной деятельности, приведены на рис.6.2.
Здесь преобразование форм представления информации является последовательным отражением содержания, а по существу - фильтрацией информации путем снижения разнообразия форм и аспектов представления смыслового содержания через вынесение части смысла в метаинформационную составляющую или простое отбрасывание.
Например, сообщение предполагает фиксацию (ограничение) предметной области; документ – фиксацию вариантов способа пред-
198
ставления через выделение семантически однородных полей и, соответственно, определение характера и способа их наполнения; поисковый образ фиксирует способы указания значения отдельного элемента (типа данных).
Соответственно, адекватность средств отражения информации (а в случае информационно-поисковых систем это средства лингвистического обеспечения) должна рассматриваться как с точки зрения возможности неискажающего преобразования самой информации в цепи генера- ции-потребления информационного ресурса, так и с точки зрения адекватности восприятия пользователем функциональных возможностей этих средств.
199
Информация |
Отбор документов при |
Потребность |
|
поиске в БД |
|
ПОД |
|
ПОЗ |
Документ |
ИПЯ |
Знание ИПЯ |
Выражение |
|
|
|
ИП |
|
Структура ИПЯ |
Словари |
|
Сообщение |
Язык научн. ком- |
Знание языка |
Постановка по- |
|
муникаций |
|
иск. задачи |
|
Структура языка |
ИПТ |
|
Новые знания |
Язык ПрО |
Знание ПрО |
Формализованная |
|
|
|
ИП |
Объекты |
Системы |
Основные понятия |
Реальная |
исследований |
знаний |
и закономерности |
потребность |
Рис. 6.2. Уровневая модель взаимосвязи информационных объектов