Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

принятии решения о начале или завершении деятельности, оценке эффективности и применимости, оценке новизны и конкурентоспособность найденного решения. Очевидно, что искать документ, содержащий ответ, можно, если мы сознательно повторяем работы, выполненные кем-то ранее. То есть, информация такого рода – общее заключение (отдельное, «дискретное» решение), может быть только синтезирована на основе многоаспектного содержательного и статистического анализа «непрерывного» потока публикаций, отражающего не только разные подходы к решению, но и разные этапы жизненного цикла идеи.

Таким образом, можно сказать, что, в отличие от задач нахождения отдельной публикации о методе решения частной проблемы, своей конкретностью предопределяющих требование точности информационного представления, задачи ОД управленческого типа1 предполагают широту и вариантность анализа предполагаемых решений, что предопределяет требование полноты и многоаспектности информационного обеспечения.

3. Обычно объектом информационного поиска является предметное содержание – данные, методы, инструкции и т.д., позволяющие решить или построить решение конкретной задачи ОД. При этом наиболее распространенной коммуникативной формой представления содержания является документ. Документ по своему статусу соответствует «завершенности» процесса ОД: излагаются, так или иначе, проверенные решения, обоснованные подходы, некоторым образом принятые гипотезы. Однако в некоторых случаях, когда исследование не завершено, или мы не знаем об этом, будет «естественным» обратиться к «источнику» – индивидуальному или коллективному автору, генерирующему новое знание. Отметим, что в информационной практике термин «источник» часто ассоциируется и с конкретными средствами передачи информации. С одной стороны, это – отдельные публикации (издания, специализирующиеся в данной предметной области), а с другой – организации (издательства, библиотечные коллекторы, книготорговцы),

1 Выделение отдельных типов ОД здесь достаточно условно, поскольку при принятии «управленческого» решения мы обобщаем «частные» решения, а при поиске и выборе «частного» решения мы должны ориентироваться на общие направления и использовать общепринятые критерии.

21

обеспечивающие распространение публикаций, в том числе, по тематическому принципу.

Примечательно, что эта, в известной степени, искусственная типология не только отражает естественно сложившуюся технологию научных коммуникаций (отдельное решение, в абстрактной форме возникающее в сознании автора, оформляется в виде структурированного документа, который публикуется в издании, становясь, таким образом, доступным через систему доставки), но и, осознанно или нет, используется человеком в поисковой практике. Предметное содержание запроса пытаемся более или менее успешно выразить средствами естественного или искусственного языка: строим терминологическое выражение или соотносим предмет поиска с некоторой областью общепринятой классификации. Но столь же естественно мы используем и «ссылочные» технологии: прямое указание (чье-то мнение) о содержании публикации, или пристатейные ссылки – косвенное упоминание содержательной связи, а, в крайнем случае – подряд просматриваем выпуски журналов, специализирующихся по данной тематике. Однако, как показывает анализ статистики запросов, поиск источников (трудов по имени индивидуального или коллективного автора, организаций, ведущих работу в этой области или выполняющих коммуникационные функции) а АИПС используется крайне редко.

4. С технологической точки зрения процесс поиска – это рутинный перебор документов1, сосредоточенных в традиционных или электронных хранилищах более или менее полно представляющих интересующую нас тему. Отбор обыкновенно производится по содержанию документов. Однако здесь следует уточнить, что слово «содержание» в этом случае надо понимать условно. Содержание документа представляется в поисковой системе достаточно поверхностно – поисковым образом, перечисляющим основные понятия, который система и использует для «отбора» документа (а на самом деле – для формирования списка ссылок на эти докумен-

1 Здесь и далее термин «документ» будет использоваться для обозначения собирательного понятия, связанного с такой формой представления информации, для которой характерна логическая завершенность (цельность содержания), а также физическая доступность и идентифицируемость (т.е., документ всегда имеет структуру, адрес, методы обработки и т.д.).

22

ты), и только на следующем шаге человек, обращаясь через сформированный системой список, получает собственно содержание документа и осмысливает возможность его использования.

Кроме того, достаточно очевидно, что по отношению к тра-

диционным библиотечным способы организации массивов и методы автоматизированного поиска не отличаются принципиальной новизной. Поиск ведется либо путем последовательного просмотра ряда документов1 до тех пор, пока не будет найдена нужная информация, либо с использованием указателей и каталогов, систематизирующих размещение документов по предметному, алфавитному или какому-либо другому принципу и, соответственно, облегчающих доступ к ним (просто сокращая объем перебора при просмотре).

Современным и достаточно простым для использования средством, обеспечивающим перемещение в пространстве Internetдокументов, является Web-технология связывания документов гипертекстовыми ссылками, размещаемыми непосредственно в тексте. Такое очевидное, и, уже поэтому, эффективное средство навигации имеет, тем не менее, два существенных недостатка. С одной стороны, простановка ссылок – трудоемкая работа, выполняемая квалифицированными экспертами, и потому на самом деле ссылками обычно связано лишь очень ограниченное множество документов (а скорее, HTML-страниц). С другой стороны, связывание всегда проводится в контексте некоторой, но всегда конкретной, обычно, выбранной автором предметной области, что в некоторых поисковых ситуациях может привести к дезориентации или дезинформации пользователя, например, если тот же вопрос рассматривается в каком-либо другом аспекте или необходимо найти принципиально новое решение.

5. Важным фактором, влияющим на функциональные особенности реализаций информационных систем, является характер и организация хранения (доступа) информации. В этом смысле системы можно условно разделить на два класса:

- электронные каталоги и документальные ИС (как локальные базы данных);

1 Что возможно только в случае очень маленького массива документов.

23

- поисковые машины (как системы поиска в распределенных массивах).

Однако следует отметить, что подобное деление скорее отражает не только единственно возможный на сегодняшний день компромисс практических потребностей и реальных возможностей промышленной реализации, но и в значительной степени обусловлено историей развития средств поиска. Первые – документальные ИС – берут начало от библиотечных информационных систем, ориентированных на традиционный каталожный поиск; вторые появились как вспомогательное средство поиска в сетевых средах, изначально предназначаемых для оперативных электронных коммуникаций.

В основном именно электронные каталоги и документальные системы обеспечивают профессиональный поиск информации в локальных или распределенных базах данных. Наиболее известными примерами являются информационные ресурсы ВИНИТИ и ИНИОН РАН, INIS, электронный каталог РГБ или библиотеки Конгресса США, которые обеспечивают, в основном, библиографический и тематический поиск.

Библиографический поиск обеспечивает выявление публикаций по их выходным данным, например, по именам авторов, датам публикаций и т.д. Основополагающей предпосылкой здесь является фиксированная для конкретной базы данных модель представления информации, в соответствии с которой обеспечивается нормализованная (единообразная) запись элементов данных. Все это требует от пользователя далеко не очевидных знаний определенных соглашений. Кроме того, практика показывает, что подобные соглашения не всегда соблюдаются не только для различных баз данных, но иногда даже и в рамках одной базы данных.

Тематический поиск обеспечивает отбор документов по се-

мантическим признакам, обобщенно представляющим его содер-

жание. Здесь концептуальным положением является то, что содержание документа может быть представлено некоторой совокупностью понятий, характеризующих основной объект. Это позволяет достаточно эффективно использовать запросы в виде компактных комбинаций терминов – обычно двух-трех слов естественного или естественно-научного языка. Такое представление информации хорошо соответствует теоретико-множественным моделям поиска,

24

однако для многих пользователей создает ситуации непонимания поискового языка и самого процесса получения результата.

Отдельным направлением в развитии информационного поиска является полнотекстовый поиск, основная цель которого – обеспечить точный отбор за счет применения критериев, основанных на семантических категориях. Но здесь, не смотря на достаточно серьезные достижения в области анализа текста и появление промышленных полнотекстовых поисковых систем (в основном в сфере СМИ), ожидать скорого широкого внедрения систем полнотекстового поиска, в том числе и в область научной информации, не приходится уже хотя бы потому, что выявить и воспринять смысл (и тем более новые идеи) в научных публикациях может не всегда и не всякий естественный интеллект. И уж тем более сомнительно автоматически построить понятийную, точно отражающую смысл, структуру по тексту запроса из трех-четырех терминов.

Также важным, но часто не замечаемым фактором является реальная ограниченность полноты представления информации в конкретном массиве (точнее, источников информации, которые используются для формирования массива). Это особенно существенно при поиске в Internet: глобальная сеть сетей физически объединяет компьютеры практически всех крупнейших библиотек мира, однако вход пользователя в сеть не приводит автоматически к возможности использовать электронный каталог какой-либо из таких библиотек. То есть подключение к сети обеспечивает физическую доступность вычислительного комплекса хранящего ресурс, но доступность собственно информационного ресурса – обычно совокупности баз данных (документальных и фактографических массивов) и информационных технологий, часто ограничена технологическими, организационными, финансовыми или какими либо другими условиям.

6. Наконец, следует отметить и некоторые особенности взаимоотношений человека и информационно-поисковых систем (ИПС), обусловленные «заторможенным развитием» последних: ИПС сохранили вопросно-ответную идеологию, свойственную уже ушедшим, традиционным системам пакетного информационного обслуживания, когда гарантом качества поиска был информационный работник. Задачей такого информационного посредника были не только понимание и интерпретация потребностей пользователя,

25

но и выбор ресурса и собственно поиск, что в итоге и обеспечивало эффективность (по крайней мере – профессиональность) поиска. В современных же условиях «информационного самообслуживания», пользователь, привыкший к интуитивному освоению программных средств, большинство из которых имеет существенно более простой интерфейс, часто неадекватно оценивает состояние и результаты поиска. Типичными, но «стратегически» фатальными, ошибками является принятие пользователем безапелляционного решения о «плохой» базе данных или о поисковой системе после получения неудовлетворительного или нулевого результата по первому же запросу (иногда даже не являющемуся правильным выражением поискового языка), или прекращение поиска, после получения известных публикаций (а не новой информации!).

1.3. Информационные коммуникации и свойства информации

Кругооборот информации, как и всякого продукта человеческой деятельности, подчиняется естественному циклу «создание– распространение–потребление».

Как отмечалось ранее, в традиционном цикле информационного обмена основной поток документальной информации идет по цепочке автор–издательство–библиотека–читатель, однако су-

ществуют и обходные пути, например: автор–читатель; изда-

тельство–читатель (подписка).

Новое знание (результат основной деятельности) воплощается обычно в форме сообщения – документа, реализующего преобразование смысла в текст. Такая «материализация» знаний субъекта обеспечивает унифицированную форму обобществления личного знания, а сравнительно низкая стоимость их тиражирования позволяет существенно расширить сферу потенциальных потребителей. Но, с другой стороны, низкая стоимость публикации (по сравнению со стоимостью получения самого результата) приводит к колоссальному и все возрастающему объему публикаций, а унифицированность форм представления обуславливает их внешнюю безликость. Кроме того, чтобы опубликованное сообщение стало стимулом для построения нового знания приемником, сообщение

26

должно быть не только воспринято (выделено среди других и помещено в среду последующей обработки), но также понято (выделен смысл) и вписано в систему наличного знания приемника (потенциально применено) или сохранено в долговременной памяти.

В свою очередь, формирование сообщения, явно или неявно связано с выбором или введением специальной терминологии, что часто сказывается не только на эффективности поиска, но и на адекватности передачи смысла.

Отсюда в частности следует, что «сигнальные» признаки, необходимые для обеспечения эффективности «узнавания» – первой фазы использования сообщения, могут быть сформированы путем введения явной систематизации. Это достаточно естественный путь

– знания всегда системны, т.к. создаются в рамках некоторой системы понятий соответствующей отрасли знаний. И именно это обеспечивает приемлемые условия для ознакомления с более или менее представительным объемом публикаций в конкретной предметной области путем, отличным от полного перебора всех сообщений.

То есть процессы обработки и поиска информации не могут рассматриваться изолированно от процессов основной деятельности, поскольку обусловлены ими, а действенность информации обуславливается «коммуникационными» средствами ИС (например, лингвистическим обеспечением).

Основная и информационная деятельность

Процесс решения любой научной или практической задачи, где, так или иначе, возникает или используется информация, в общем случае включает следующие этапы [23].

1. Поиск сообщений. Создатель нового знания (потенциальный генератор информации) обращается к информационным ресурсам для получения информации, которая может быть использована им, например, в качестве концептуальной основы, экспериментальных, вспомогательных или опровергаемых данных и т. д. По отношению к среде он будет выступать в качестве потребителя информации, а информационная среда будет источником сообщений. При этом сообщения могут быть получены либо в виде услуги информационных систем, обеспечивающих поиск в различных

27

хранилищах, либо по другим каналам, например, путем личного общения с другими разработчиками, непосредственным обращением к результатам других исследований, в том числе еще не представленных в виде сообщений, и т. д.

2.Интерпретация сообщений. Вследствие уникальности конкретных условий решаемых задач язык полученного сообщения (в общем случае) может быть не тождественен «внутреннему языку» разработчика (создателя информации). Данный этап включает адаптацию сообщений, интерпретацию их содержания в терминах «внутреннего языка», а в итоге – извлечение из сообщений сведений, необходимых для решения поставленной задачи. Результат этапа – информационное обеспечение решаемой задачи, которое должно привести к повышению эффективности ее решения.

3.Решение задачи. На данном этапе, используя информационное обеспечение, а также собственные знания, прилагая определенные усилия, разработчик создает новую информацию, составляющую решение задачи. Эта информация зафиксирована на языке задачи, является достоянием разработчика или достаточно ограниченного множества лиц (организаций), связанных с конкретной разработкой и, как правило, для использования за пределами конкретной задачи будет требовать дополнительных затрат труда.

4.Создание сообщений. На данном этапе исследователь осуществляет интерпретацию полученного результата на «языке коммуникаций», т. е. подготавливает сообщение в «стандартной» форме, одной из тех, которые приняты на данном этапе развития предметной области вообще и информационных коммуникаций, в частности. Результатом этого этапа может быть статья, выступление на конференции, сообщение по электронной почте и т. д. Новая информация, оформленная как сообщение, уже представляет собой потенциальную общественную ценность для большого круга пользователей и решения других задач.

5.Распространение сообщений. На этом этапе создатели сообщений вступают в активное взаимодействие с системой научных коммуникаций, затрачивая определенные усилия (в основном организационного характера) по «вводу» сообщения в один (или несколько) из доступных каналов коммуникации (публикация, аудиторное выступление и т. д.). Эффективность данного этапа определяется как степенью усилий, предпринимаемых исследователем,

28

так и теми возможностями, которые ему предоставляет система коммуникации и, в частности, АИС.

Очевидно, что в общем случае перечисленные этапы реализуются сложным последовательно-параллельным образом, не обязательно все и в указанной последовательности. Кроме того, они не сопоставимы по затратам труда. Наиболее общее представление о взаимодействии потребителей-поставщиков информации иллюстрируется схемой на рис. 1.1.

Первый и пятый этапы являются этапами собственно информационной деятельности (ИД), поскольку их эффективность во многом определяется свойствами конкретных коммуникаций и информационных систем. Третий этап – собственно основная деятельность. Этапы второй и четвертый носят пограничный, диффузный характер и могут относиться как к основной, так и к информационной деятельности.

Показанные на рис. 1.1 «каналы» могут быть разделены на три типа:

-непосредственное рабочее взаимодействие разработчиков (связь 3-3) представляет собой постоянный обмен информацией в группе или коллективе в процессе совместной деятельности;

-непосредственное документальное взаимодействие (связь 4-2) заключается в оформлении результата и ограниченном контролируемом распространении (например – передача отчета или документации заказчику);

-опосредованное документальное взаимодействие (связь 5-

1)состоит в опубликовании результата и его последующем неограниченном перемещении по каналам ИС. Информационные связи этого типа, осуществляющиеся через АИС, и являются объектом нашего рассмотрения.

На рис. 1.1, согласно терминологии [23], представлена схема информационного обмена. Реально же пользователь работает с источником информации по схеме информационного обслуживания,

для которой характерна опосредованность, «разорванность», взаимодействия: сообщения «отчуждаются» от автора1. Это приводит к

1 Соответственно, источник информации ассоциируется уже с сообщением – носителем информации, а не с человеком или системой, которые являются источником в прямом смысле этого слова.

29

«рассеянию» информации, и поэтому для эффективного отыскания публикаций (по времени и необходимым ресурсам) необходимо создавать и использовать специальные справочно-поисковые средства.

 

 

 

 

 

 

 

 

 

ИС

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 (ИД)

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2 (И/О)

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 (ОД)

 

 

 

 

 

3

 

 

 

 

4 (И/О)

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5(ИД)

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ИС

Рис. 1.1. Каналы взаимодействия потребителей-поставщиков информации

Концентрация и рассеяние информации

Рассеяние информации означает, что информация, которая была бы полезной для решения данной проблемы, может оказаться

вдокументах, относящихся к совершенно другой предметной области. Следствием свойства рассеяния является дублирование информации – рассредоточение информации, полезной для некоторой предметной области по документам, изданиям и базам данных, относящимся к разным предметным областям.

Рассеяние информации обусловлено социальноэкономическим характером научных коммуникаций, и в первую очередь экономическим и авторским правом. Действительно, автор

впроцессе обучения и работы не только относится к определенной научной школе, но и приобщается к достаточно ограниченному кругу изданий, которые, по его мнению, достаточно адекватно от-

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]