- •Блюменау Д. И.
- •ВВЕДЕНИЕ
- •Глава 1. СВЕРТЫВАНИЕ ИНФОРМАЦИИ КАК ОДНО ИЗ УСЛОВИЙ ЧЕЛОВЕЧЕСКОГО ОБЩЕНИЯ
- •1.1.0 СУЩНОСТИ «СВЕРТЫВАНИЯ»
- •1.2. ИНФОРМАЦИОННОЕ СВЕРТЫВАНИЕ
- •1.3. СВЕРТЫВАНИЕ В СФЕРЕ ИНФОРМАЦИОННОГО ОБСЛУЖИВАНИЯ
- •2.1. ИНДЕКСИРОВАНИЕ
- •2.1.1. Индексирование — его назначение
- •2.1.2. Индексирование на основе «традиционных» ИПЯ
- •2.1.2.1. УДК как представитель ИПЯ иерархического типа
- •2.1.2.2. ИПЯ алфавитно-предметных рубрик
- •2.1.2.3. ИПЯ библиографических описаний
- •2.1.3. Режимы индексирования
- •2.1.4. Координатное индексирование на основе дескрипторных языков
- •2.1.4.1. Избыточное индексирование
- •2.1.4.2. Критерии выдачи и стратегия поиска по запросу
- •2.1.6. Автоматизация процесса индексирования
- •2.1.6.1. Индексирование в АИПС «Пусто — Непусто»
- •2.1.6.2. Индексирование в ИПС «Артефакт»
- •2.1.6.3. Индексирование в поисковой машине «Яндекс»
- •2.2. БИБЛИОГРАФИЧЕСКОЕ ОПИСАНИЕ
- •2.3. АННОТИРОВАНИЕ И РЕФЕРИРОВАНИЕ
- •2.3.1. Функции аннотаций и рефератов
- •2.3.2. Способы раскрытия содержания текстов
- •Пример аннотативной фразы:
- •Пример реферативной фразы:
- •Пример типичной аннотации:
- •2.3.4. Виды аннотаций и рефератов
- •2.4. КОНСПЕКТИРОВАНИЕ КАК РАЗНОВИДНОСТЬ РЕФЕРИРОВАНИЯ
- •2.5.1. Генезис и сущность концептографического обслуживания
- •2.5.2. Виды концептографического обслуживания
- •2.5.3. Обзорно-аналитическая деятельность
- •2.5.3.1. Виды обзоров
- •2.5.3.2. Функции обзоров в системе научных коммуникаций
- •2.5.4. Основы методики написания обзоров
- •Глава 3. НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ТЕКСТА С ТОЧКИ ЗРЕНИЯ ЕГО СВЕРТЫВАНИЯ
- •3.1. ТЕКСТ И ЕГО ОБЩАЯ ХАРАКТЕРИСТИКА
- •3.2. СТРУКТУРЫ ТЕКСТА
- •3.2.1. Синтаксическая структура текста
- •3.2.1.1. О связности текста
- •3.2.1.2. Средства внутритекстовой связности
- •Разновидности коннекторов
- •3.2.2. Коммуникативная структура текста
- •Пример
- •Пример
- •Пример
- •3.2.3. Аспектная структура текста
- •3.2.4. Семантическая структура текста
- •3.2.5. Информативная структура текста
- •4.1. ВИДЫ И СРЕДСТВА ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •4.2. ФРАГМЕНТИРОВАНИЕ КАК ОДНО ИЗ НАПРАВЛЕНИЙ ИНФОРМАТИВНОГО СВЕРТЫВАНИЯ
- •4.2.1 • Подходы к реализации идеи фрагментирования
- •4.2.1.1. Семантический подход к проблеме фрагментирования
- •4.2.1.2. Синтаксический подход к проблеме фрагментирования
- •5.1. КВАЗИХРЕСТОМАТИЯ КАК ПОСОБИЕ ДЛЯ САМООБРАЗОВАНИЯ
- •5.1.1. О познавательной профессиональной потребности
- •5.1.2. Лексический аппарат формирования квазихрестоматии
- •5.2. ЭТАПЫ СОЗДАНИЯ КВАЗИХРЕСТОМАТИИ
- •5.2.1 • Формирование запроса и составление учебной программы (оглавления)
- •5.2.2. Составление поискового предписания и процедура поиска
- •5.2.3. Формирование и оформление хрестоматии
- •5.2.4. Пример подготовки квазихрестоматии
- •(AлБ)v[(BvИvKvЛ)л(ГvДvE)]v(BлЖ)v(BлЗ)
- •Глава 6. РАЗВИТИЕ ИНДИКАТОРНОГО МЕТОДА КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ ТЕКСТОВ
- •6.1. СРЕДСТВА И МЕТОДЫ ФОРМАЛИЗОВАННОГО СВЕРТЫВАНИЯ
- •6.2. ТЕХНОЛОГИЧЕСКАЯ ДОКУМЕНТАЦИЯ, ОБЕСПЕЧИВАЮЩАЯ ИЗБИРАТЕЛЬНОЕ СВЕРТЫВАНИЕ ТЕКСТОВ
- •6.3. ЭТАПЫ ФОРМИРОВАНИЯ ВТОРИЧНЫХ ДОКУМЕНТОВ
- •6.3.1. Формирование аннотаций и рефератов
- •6.3.2. Формирование минимальных релевантных фрагментов
- •6.3.3. Формирование квазиконспекта
- •РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
- •Вопросы для самопроверки
- •ПОСЛЕСЛОВИЕ
- •ОГЛАВЛЕНИЕ
Блюменау Д. И.
Информационный
анализ/синтез
для формирования вторичного потока документов
Учебно-практическое пособие
и з д а т е л ь с т в о
Санкт-Петербург
2002
ББК73
Блюменау Д. И.
Б37 Информационный анализ / синтез для формирования вторичного потока документов. — СПб.: Изд-во «Профессия», 2002. — 240 с.
—(Серия «Специалист»).
Рассматриваются основные положения теории свертывания ин формации, а также методические принципы, лежащие в основеопераций интеллектуальной и автоматизированной компрессии текстов в целях формирования вторичных документов.
Пособие предназначено для всех специалистов, занимающихся аналитико-синтетической переаботкой информации, а также для студентов, аспирантов и преподавателей университетов культуры и филологических факультетов вузов.
ISBN 5-93913-033-Х
|
ББК73 |
ISBN 5-93913-033-Х |
© Издательство «Профессия», 2002 |
|
|
|
© Блюменау Д.И., 2002 |
ВВЕДЕНИЕ
Курс «Информационный анализ/синтез» занимает одно из веду щих мест в профессиональной подготовке широкого круга работников информационной сферы —информатиков, библиографов, библиотека рей, редакционно-издательских работников, переводчиков, журналис тов, референтов... В различных учебных заведениях этот курс называет ся по-разному, в том числе «Аналитико-синтетическая переработка информации», «Элементы теории свертывания информации», но со держание курса, по сути, остается практически одним и тем же. Везде он выступает в качестве интегральной дисциплины но отношению к це лому ряду наук социально-коммуникационного цикла —информатике, библиотековедению, рекламоведению, архивоведению, журналистике и др. Это значит, что данный курс аккумулирует в себе целый ряд поло жений, общих для указанных наук, подводит под эти положения еди ную теоретическую и методическую базу и тем самым выступает для них в качестве единого научного метаязыка.
Предметом изучения курса «Информационный анализ/синтез» яв ляются процессы аналитико-синтетической переработки информации (текстов) с целью создания документов различной формы свернутости (развернутости), выполняющих определенные функции в системах со циальных коммуникаций. Особую актуальность приобретает эта дис циплина в настоящее время в связи с широким внедрением в процессы информационного анализа и синтеза средств компьютерной техники, что влечет за собой необходимость разработки специальных алгорит мических процедур и поисковых языков, обеспечивающих формирова ние широкого спектра так называемых вторичных документов —поис ковых образов, аннотаций, рефератов, фрагментов, квазиконспектов, квазиобзоров, квазихрестоматий и др.
Работы в области автоматизации свертывания информации (авто матического индексирования, реферирования, перевода) ведутся уже с начала 1950-х годов, и за эти годы был создан ряд экспериментальных и практических действующих систем, в которых доля человеческого фак
тора с каждым годом постепенно уменьшается. Однако, если при разра ботке систем автоматизированного свертывания информации первая их составляющая — тематический поиск документов для анализа и син теза — уже достаточно давно из научных перешла в разряд технических, то вторая составляющая этих систем —поиск и экстрагирование из до кументов минимальных смысловых релевантных фрагментов, из кото рых формируются различные виды вторичных документов —находит ся преимущественно еще в стадии лабораторных исследований и требу ет значительных усилий разработчиков информационных систем и, в частности, подготовки специалистов, владеющих основами компьютер ного анализа и синтеза информации.
Прежде чем приступить к изложению теоретических и методичес ких положений, относящихся к нашему курсу, следует предварительно ознакомиться с исходными базовыми понятиями, терминами, образую щими терминологический аппарат данной области знания. Некоторые из этих понятий будут объясняться но ходу изложения материала, но большая часть из них —в специальном словаре терминов, приведенном в Приложении 1.
Начать надо, видимо, с понятия «Информация», поскольку курс на зывается «Информационный анализ/сиитез». Существует-большое число различных определений этого феномена (что, по всей вероятнос ти, свидетельствует о недостаточности каждого из них). Например: ин формация —это содержание какого-либо сообщения. Или: сведения о чем-либо, рассматриваемые в аспекте их передачи в пространстве и вре мени. Или: содержание связи между материальными объектами, прояв ляющееся в изменении состояния этих объектов. Частным случаем по следнего понимания будет определение: информация — это сведения, представленные в форме знаков, понятных членам общества и способ ных изменить уровень их знаний о внешнем мире, т. е. изменить состо яние их тезаурусов. Можно, наконец, дать и такое определение: инфор мация — это результат рефлексии живой системы (возможно, не только в ее белково-нуклеиновом варианте) па воздействие материальных структур, воспринимаемых в качестве кода.
Каждый может придерживаться любого из перечисленных опреде лений и множества иных. В данном пособии предлагается понимать иод информацией, точнее научной, еще точнее — профессиональной ин формацией, сведения, которые являются объектом хранения, преобра зования и распространения в системе социальных коммуникаций. Та кое определение охватывает всю научную, техническую, производст венную и управленческую литературу (документацию). Для наших целей такого определения вполне достаточно, хотя вопрос о содержа
нии понятия «информация» в соответствующем месте потребует более подробного рассмотрения.
Нами различаются понятия «научная деятельность», «информаци онная деятельность», «информационное обслуживание» и «информа ционное обеспечение».
Цель н а у ч н о й д е я т е л ь н о с т и (в нашем аспекте рассмотре ния) — переработка информации для создания новой научной инфор мации. Частью научной деятельности является и н ф о р м а ц и о н н а я д е я т е л ь н о с т ь как совокупность операций но восприятию, перера ботке и выдаче информации в рамках системы научных коммуникаций. Эти операции не о т д е л и м ы от научного творчества специалистов.
И н ф о р м а ц и о н н о е о б с л у ж и в а н и е —область профессио нальной информационной деятельности, направленной на удовлетво рение различных информационных потребностей. Информационное обслуживание включает операции оформления, сбора, аналитико-син тетической переработки, хранения, поиска и распространения инфор мации, выполняемые профессиональными отрядами информационных работников (информаторами, библиотекарями, библиографами, пере водчиками, издательскими работниками и многими другими) с целью повышения эффективности творческой деятельности специалистов науки и техники. Перечисленные операции в большинстве случаев мо гут быть о т д е л е н ы от творческой деятельности специалистов и в силу специализации более квалифицированно выполняться информа ционными работниками. (Надо при этом только иметь в виду, что вы полнение операций информационного обслуживания также включает в себя операции информационной деятельности — восприятие, перера ботку и выдачу информации.)
Следует отметить два момента: а) Границы между операциями ин формационной деятельности и информационного обслуживания не очень резкие. Так, например, специалисты, занимающиеся поисковыми НИР (научно-исследовательскими работами), операции поиска ин формации предпочитают проводить самостоятельно, не перепоручая их информационному работнику. В этом случае поиск информации неот делим от творческого процесса, выполняемого специалистом, и являет ся частью информационной деятельности. Понимание относительнос ти границ между информационной деятельностью и информационным обслуживанием в различных сферах (НИР, ОКР, промышленное про изводство) важно при определении меры вмешательства информаци онного работника в творческий процесс специалиста, б) Информаци онным обслуживанием, видимо, и в дальнейшем будут заниматься не только информационные работники, но и сами специалисты науки и
техники (например, некоторыми видами копцептографического ин формационного обслуживания).
По способу удовлетворения информационных потребностей ин формационное обслуживание разделяется на три вида: 1) документаль ное, в процессе которого специалистам предоставляются первичные до кументы (необходимые факты и концепции из которых специалисты извлекают самостоятельно); 2) фактографическое —путем непосредст венного (минуя первичные документы) предоставления им фактов и концепций; 3) концептографическое — путем представления им раз вернутой или интерпретированной информации.
Ин ф о р м а ц и о н н о е о б е с п е ч е н и е — это комплекс методов
исредств документального, фактографического и концентографического обслуживания, используемых для удовлетворения информацион ных потребностей в конкретной научно-технической ситуации.
Достаточно распространенным является мнение, что информацион ное обслуживание функционирует только в рамках имеющегося знания
и«не доходит до получения нового знания», однако такая форма ин формационного обслуживания, как концептографическое обслужива ние, «доходит до получения нового знания». О каком в данном случае новом знании идет речь? В этой связи различаются два основных вида знания (в сфере науки, техники, управления и т. п.): системное и ситуа тивное. Именно такое расчленение понятия «знание» позволяет доста точно четко разграничить сферу информационного обслуживания и сферу информационной деятельности как органической части деятель ности научно-исследовательской, конструкторской и нр.
Системное знание — это совокупность (система) предложений (су ждений) науки, фиксирующих устойчивые, необходимые связи и свой ства предметов и явлений объективного мира. Например: «Общая мас са (вес) веществ, вступающих в реакцию, равна общей массе (весу) иродуюгов реакции»; «Невозможно доказать непротиворечивость фор мальной системы средствами самой системы»; «Установлено, что в ат мосфере Марса содержится около 5 % аргона»; «Биполярный транзис тор представляет собой монокристаллическую полупроводниковую нластипу?в которой с помощью напыления в вакууме созданы три об ласти с дырочной и электронной проводимостью» и т. д., и т. и. Систем ное знание составляет структуру науки и техники и является конечной целью научно-технической деятельности.
Ситуативное знание — предложения науки и техники, которые от ражают не устойчивые и необходимые, а временные, конъюнктурные, соотнесенные с определенной ситуацией связи и отношения. Такие предложения не являются элементами науки как системы, а служат той
«средой», в которой развивается и формируется системное знание и на основе которого чаще всего и принимаются инженерные и управляю щие решения. Ситуативным это знание называется потому, что в нем содержатся описание и оценка фактов и концепций, исходя из особен ностей конкретной ситуации. К ситуативному знанию поэтому отно сится также описание состояния, тенденций и перспектив развития тех или иных научно-технических объектов. Примеры предложений ситуа тивного порядка: «В последние годы отмечается повышенный интерес к проблеме свертывания информации»; «Процесс становления инфор матики как самостоятельной научной дисциплины близок к заверше нию» и т. д. Формулирование нового системного знания —безусловно, «прерогатива», специалистов науки и техники, формулирование ситуа тивного знания —в целом ряде случаев область концентографического обслуживания. При этом совершенно непринципиально, кто в данном случае занимается концептографическим обслуживанием — штатный ли работник той или иной информационной службы или специалист народного хозяйства (в большинстве случаев и не подозревающий о том, что в этот момент он занимается не научной деятельностью, а ин формационным обслуживанием). Главное в том, что изучение законо мерностей процессов, лежащих в основе концептографического инфор мационного обслуживания, и разработка его методического аппарата находятся в сфере информатики.
Такой же подход правомерен и к рассмотрению понятий анализ и синтез. В разных сферах — сфере информационной деятельности, явля ющейся, как мы уже знаем, неотъемлемой частью научной деятельно сти, и сфере информационного обслуживания —содержание этих по нятий не эквивалентно. Анализ научный — это метод исследования, состоящий в том, что изучаемый предмет расчленяется на составные элементы, каждый из которых рассматривается в отдельности как часть расчлененного целого.
Анализ обычно осуществляется для того, чтобы выделенные в ходе его элементы с помощью синтеза соединить в единое целое с одновре менным получением новых знаний. Синтез научный есть метод иссле дования, состоящий в соединении частей предмета, расчлененного в хо де анализа, в установлении взаимодействия и связей частей, в познании предмета как единого целого. Таким образом, анализ осуществляется в интересах синтеза, который невозможен без анализа. Именно поэтому в названии нашего курса анализ и синтез пишутся вместе через косую черту.
В сфере информационного обслуживания применяются информа ционные анализ и синтез. Первый предполагает преобразование доку
мента с целью извлечения из него наиболее существенных, релевант ных задаче анализа, сведений (компонентов текста) —слов, фраз, фраг ментов, второй —обобщение, объединение этих сведений (иногда с их оценкой, интерпретацией) с целью получения так называемых вторич ных документов различного функционального назначения —от наибо лее простых (библиографические описания, аннотации, отдельные факты) до более сложных (обзоры, систематизированные подборки фактов, дайджесты и др.).
Это же относится и к понятию «о б о б щ е и и е »: в научной деятель ности под обобщением понимают мысленное выделение каких-либо свойств, принадлежащих некоторой совокупности предметов, и форми рование такого вывода, который распространяется на каждый отдель ный предмет дайной совокупности. Обобщение ведет к познанию все более глубокой связи между предметами реального мира и их свойства ми. В этом случае обобщение —познавательный прием и результатом его в частном случае является с и с т е м н о е знание.
При информационном обслуживании обобщение понимают как операцию представления текста на более высоком понятийном уровне путем опущения видовых признаков или малоинформативных элемен тов текста. То же относится и к понятиям «оценка» и «интерпретация»: в одном случае (в случае научной деятельности) оценка может быть произведена на основе полученных данных эксперимента, теоретичес ких расчетов или новых технических решений, уточняющих или опро вергающих прежние представления о каком-либо объекте, в другом (информационное обслуживание) — на основе имеющихся в общест венном тезаурусе знаний. В результате такой оценки и интерпретации формируется с и т у а т и в н о е знание.
Следующее терминологическое уточнение: факт —это констатация в прошлом или настоящем отдельного предмета, процесса, события с их характеристикой; концепция — осмысление взаимосвязи между факта ми. Так, «Волга впадает в Каспийское море» —факт; «Сила равна массе, умноженной на ускорение» (Второй закон Ньютона) —концепция.
Важным в теории и практике информационного анализа и синтеза является различение таких понятий, как « п е р в и ч н ы й д о к у м е н т » и « в т о р и ч н ы й д о к у м е н т » . Первый является объектом информационного анализа, второй — результатом информационного синтеза. Существуют три точки зрения, три подхода к разграничению первичности и вторичности:
1. К н и г о в е д ч е с к и й подход — первичными документами яв ляются все первоиздания (оригиналы), вторичными —их переиздания.
2. Г н о с е о л о г и ч е с к и й подход —первичные документы несут неизвестные ранее факты и концепции (например, в научно-техничес ких отчетах, патентах, диссертациях, монографиях и т. п.); вторичные — уже известные (в той или иной степени компилятивные) сведения (на пример, в учебниках, справочниках, научно-популярной литературе, реферативных изданиях и т. п.).
3. Б и б л и о г р а ф и ч е с к и й подход —к первичным документам относятся все документы, созданные в сфере информационной дея тельности (как части научной, технической, педагогической, управлен ческой и т. д.), к вторичным —документы, отражающие в себе содержа ние первичных на различных уровнях их свертывания (развертыва ния), т. е. созданные в сфере информационного обслуживания.
Первый и второй подходы находятся вне непосредственной сферы интересов информатики, и потому в дальнейшем будем при различении первичных и вторичных документов опираться преимущественно на библиографический подход.
Таким образом, аналитико-синтетическая обработка (переработка) информации как самостоятельная операция присуща и информацион ной деятельности, и информационному обслуживанию. В первом слу чае она преследует цель формирования, прежде всего, нового системно го знания, во втором случае —свертывание (развертывание) и интер претацию на основе уже имеющегося знания.
Рассмотрим более подробно содержание понятия «свертывание ин формации» и его специфичность в различных сферах научной и инфор мационной деятельности