Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

трудной к восприятию пользователями, а главное, многими авторами работ в области информационных технологий.

Образовательные процессы сравнительно консервативны и во многих случаях источники информации считаются известными. Практически во всех вузах есть своя информационная среда, свои электронные библиотеки, банки данных и знаний. В ядерной отрасли такие ресурсы также существуют и о них необходимо не только рассказывать студентам, но и добиваться необходимости их использования в учебе и научно-исследовательской деятельности.

Данное пособие представляет собой учебный курс по основам «навигации» в информационном поле специальности, включая описания наиболее представительных электронных ресурсов, необходимых в учебной и научной работе.

Материал курса, представленный в двенадцати главах и пяти приложениях, условно можно отнести к следующим разделам:

-введение в информатику и информационно-поисковые

системы;

-лингвистическое обеспечение и обработка текстовой информации;

-распределенная обработка информации и документальные информационные ресурсы.

Впервой и второй главах с точки зрения обобщенного поискового процесса в ИПС приводится типология поисковых задач и информационной неопределенности. Рассмотрены концептуальные, технологические и лингвистические основы информационного поиска.

Втретьей и четвертой главах рассмотрено лингвистическое обеспечение информационных систем. Даны основные понятия и типология методов описания содержания документов, а также описаны классификационные и дескрипторные языки. Кратко описаны библиотечно-библиографические и патентные классификации, а также отраслевые классификационные системы. Проанализированы различные типы терминологических структур: словари, тезаурусы, онтологии.

Пятая глава посвящена методам и средствам лексического анализа информационных потоков: выделению наиболее информа-

11

тивных терминов, расчету статистических мер близости терминов, классификации и кластеризации текстовой информации.

Вшестой и седьмой главах определены основные понятия, относящиеся к распределенной обработке информации.

Ввосьмой главе обсуждаются архитектура электронных библиотек и методы доступа к распределенным информационным ресурсам разного типа.

Главы 9, 10, 11, 12 содержат описания промышленных ресурсов, сгруппированные по характеру предоставляемой информации

иформе организации деятельности: электронные каталоги, рефера- тивно-библиографические документальные БД, электронные ресурсы издательств, специализированные БД.

Приложение содержит пример итеративного процесса поиска в реальных информационных ресурсах, приведены фрагменты УДК, Рубрикатора ГРНТИ.

Заключение представляет собой резюме, обобщающее основные принципы и особенности итеративного интерактивного поиска информации в условиях ее распределенного хранения и представления.

Всписке литературы приведены ссылки на все материалы, которые авторы использовали в процессе подготовки пособия.

12

РАЗДЕЛ 1. ИНФОРМАЦИОННЫЕ РЕСУРСЫ И АВТОМАТИЗИРОВАННЫЙ ДОКУМЕНТАЛЬНЫЙ ПОИСК

ГЛАВА 1. КОНЦЕПТУАЛЬНЫЕ ОСНОВЫ ИНФОРМАЦИОННОГО ПОИСКА

1.1. О понятиях «информация» и «информационные ресурсы»

Основное внимание в этой главе будет уделено профессиональному информационному поиску – методам, средствам и технологиям отыскания в информационных ресурсах (ИР) документов или их фрагментов, обеспечивающих пользователю обоснованное решение значимых задач в сфере его основной деятельности.

Во многих пособиях по информатике термины «информация», «сведения», «данные» практически не различаются. Для конструктивного определения основного для данного пособия понятия «информация» вернемся к описанному во введении примеру и зададимся вопросом, что же собственно является ответом информационной системы.

В приведенном примере, когда мы обращаемся к сотруднику справочной службы вокзала, ожидаемым, хотя и крайне лаконичным, но абсолютно полным и точным (а главное – разрешающим нашу жизненную проблему) ответом будет: «23 часа 20 минут».

Точно такое же выражение (величину, определяющую время суток) можно было бы обнаружить (или получить) и в других местах, например, в собственной записной книжке, на экране компьютера, в объявлении киносеансов и т.д. Но, естественно, воспринимая эти данные, в итоге правильные по величине, мы не отправимся на вокзал. Эти данные (величина, а не значение) для нас (точнее, нашей задачи) не будут действенными. Разница между этими ситуациями вполне очевидна, и можно сделать вывод, что значение одной и той же величины определяется обстоятельствами (контекстом) её появления или использования. В примере с сотрудником справочной службы такой контекст содержится в отдельном (от ответа) выражении нашего вопроса и в том, что этот вопрос на-

13

правлен компетентному лицу. В других случаях контекст может находиться вместе с величиной в содержании развернутого ответа, или явно или неявно определяться структурой и содержанием.

То есть информация может быть определена как данные, связанные с контекстом и обладающие свойством действенности. Более подробно понятие информации рассмотрено в [5].

Отсюда можно сделать важный вывод, который предопределяет подходы как к проектированию систем автоматизированной обработки информации, так и к поиску информации: информационная система, помимо средств преобразования данных, так или иначе имеет средства хранения и обработки контекста1. Соответственно, при поиске пользователь, если он заинтересован в эффективности результата, должен использовать метаинформационную составляющую, например, явно указывая поисковые поля (ключевые слова, полные тексты, заголовки, авторы), предметную область, грамотно применяя конструкции поискового языка и т.д.

Конструктивность такого определения состоит не столько в том, чтобы декларировать, что контекст есть и его надо использовать (обрабатывать), сколько в том, что система берет данные (сигналы, величины и т.д.) из бесконечно большого множества данных окружающей среды. Следовательно, необходимо выбрать только те, которые соответствуют контексту, т.е. необходимы и достаточны для решения конкретной задачи. Очевидно, что данные в этом случае должны обладать, а точнее (вследствие элементарности (атомарности) того, что называется «данное») должны быть связаны с контекстом, который обычно задается в виде набора отличительных признаков, которые, в свою очередь, также представляют собой некоторый набор данных. Далее для некоторой целевой обработки эти данные обрабатываются прикладной программой (данные связываются с методом обработки, являющимся одной из форм задания контекста) и, в итоге, полученный результат (тоже данные) должен быть связан со способом его использования, что и обеспечит действенность информации для «конечного пользователя» в реальности.

1 При этом контекст – это, естественно, тоже данные, но выполняющие роль метаданных – данных о характере обрабатываемых данных.

14

Если бы назначением информационных систем было только хранение и поиск данных в массивах записей, то структура системы и базы данных была бы простой. Причина сложности в том, что практически любой объект характеризуется не только параметра- ми-величинами, но и взаимосвязями частей или состояний. Кроме того, как отмечалось выше, сам по себе отдельный элемент данных (его величина) приобретает смысл (значение) только тогда, когда связан с природой значения (другими элементами данных), что и позволит его интерпретировать.

Поэтому физическому размещению данных (и, соответственно, определению структуры физической записи) должно предшествовать описание логической структуры предметной области – построение модели соответствующего фрагмента реального мира, выделяющей только те объекты, которые будут интересны будущим пользователям, и представленные только теми параметрами, которые будут значимы при решении прикладных задач. Такая модель будет иметь очень мало физического сходства с реальностью, но будет полезна как представление пользователя о реальном мире. Причем это представление описываться удобными для пользователя средствами, задавая его для манипулирования в неадекватной человеку жесткой вычислительной среде с числовым представлением информации.

Таким образом, прежде чем описывать физическую реализацию объектов и связей между ними, необходимо определить:

1)способ, с помощью которого внешние пользователи представляют (описывают) объекты и связи;

2)форму и методы внутримашинного представления элементов данных и взаимосвязей;

3)средства, обеспечивающие взаимно однозначные преобразования внешнего и внутримашинного представлений.

Такой подход является компромиссом: за счет предваритель-

но определяемого множества абстракций, общих для большинст-

ва задач обработки данных, обеспечивается возможность построения надежных программ обработки. Пользователь, используя ог-

раниченное множество формальных, но достаточно знакомых понятий, выделяя сущности и связи, описывает объекты и связи предметной области; программист, используя такие типовые абстрактные понятия (как, например, числа, множества, агрегаты

15

данных), определяет соответствующие информационные структуры. Система управления данными, используя двоичные формы представления типизированных данных, обеспечивает эффектив-

ные процедуры хранения и обработки данных.

При любом методе отображения предметной области в машинных базах данных (БД) в основе отображения лежит фиксация (кодирование) понятий и отношений между понятиями. Абстрактное понятие структуры ближе всего находится к так называемой концептуальной модели предметной среды и часто лежит в основе последней.

Понятие структуры используется на всех уровнях представления предметной области и реализуется как:

-структура информации – схематичная форма (обеспечивающая переход к атрибутивная форме) представления сложных композиционных объектов и связей реальной предметной области (ПрО), выделяемых как актуально необходимые для решения прикладных задач, в общем случае без учета того, будут ли для ее решения использованы средства программирования и вычислительные машины. В случае документального представления ПрО необходимо рассматривать еще и структуру текста, обеспечивающую возможность выделения семантически значимых компонентов текста и определение их роли. Эффективность здесь определяется уровнем абстрагирования, а также полнотой и точностью представления свойств с посредством выбранной системы характеристик;

-структура данных – атрибутивная форма представления свойств и связей ПрО, ориентированная на выражение описания данных средствами формальных языков (т. е. учитывающая возможности и ограничения конкретных средств с целью сведения описаний к стандартным типам и регулярным связям). Эффективность в этом случае связывается с процессом построения программы («решателя» прикладной задачи) и, в каком-то смысле – с эффективностью работы программиста;

-структура записей – целесообразная (учитывающая особенности физической среды) реализация способов хранения данных и организации доступа к ним как на уровне отдельных записей, так и их элементов. Эффективность в этом случае связывается

спроцессами обмена между устройствами оперативной и внешней памяти и обеспечивается избыточностью данных, искусственно

16

вводимой для обеспечения функциональной эффективности отдельных операций (например, поиска по ключам).

Структура является общепринятым и удобным инструментом, одинаково эффективно используемым как на уровне сознания человека при работе с абстрактными понятиями, так и на уровне логики машинных алгоритмов. Структура позволяет простыми способами свести многомерность содержательного описания к линейной последовательности записей. При этом сама структура представляется достаточно простыми способами, а в ряде случаев именно описание структуры представляет собой контекст использования данных.

Приведенные определения иллюстрируют, что представления на любом уровне задаются парой: данными – величинами свойств и данными – определяющими характер свойств (метаданные).

«Информационные технологии»; «информационные системы» и «информационные ресурсы» – это другая важная группа широко используемых и также по-разному определяемых понятий. Приведем определения этих понятий, которые авторы считают конструктивными для понимания существа автоматизированной обработки информации.

Согласно определению [12], «Информационная технология

(ИТ) – это представленное в проектной форме (формализованном виде, пригодном для практического использования) концентрированное выражение научных знаний и практического опыта, позволяющее рациональным образом организовать тот или иной достаточно часто повторяющийся информационный процесс».

Понятие «Информационные системы» (ИС) наиболее часто трактуется (согласно определению, данному в [13]), как «..комплекс, состоящий из информационного фонда и процедур: управляющей, обновления, информационного поиска и завершающей обработки, позволяющих накапливать, хранить, корректировать и выдавать информацию»1.

1 Такое определение, безусловно, является конструктивным по своей сути, но, тем не менее, оно не проводит границы между информацией и данными, которые собственно накапливаются, обрабатываются и передаются.

17

Понятие «Информационные ресурсы» с наиболее общих позиций определяется как «накопленная информация об окружающей действительности».

В принципе, можно утверждать, что информационные технологии являются менее зависимыми от структуры и специфики предметной области, чем информационные системы и ресурсы, однако эта связь всегда существует, если, например, определить ав-

томатизированную информационную технологию как целенаправ-

ленное и согласованное использование технических средств, программного обеспечения и информационных ресурсов.

Аналогично, информационные системы – это комплексы, реализующие информационные технологии, ориентированные на процедуры сбора, обработки, хранения, поиска, передачи и отображения информации предметной области, а информационные ресурсы – комплексы соответствующих информационных систем, существующих на конкретных социально-экономических уровнях.

Информационные технологии, системы и ресурсы в данном пособии будем рассматривать в контексте процессов информационного обмена. В традиционном цикле информационного обмена основной поток документальной информации идет по цепочке ав-

тор–издательство–библиотека–читатель, хотя существуют и обходные пути, например: автор–читатель; издательство– читатель (подписка). Переход в начале 1970–х годов информационных служб на дублирование в машиночитаемой форме сначала вторичных (каталоги, реферативные журналы), а затем и первичных (полнотекстовых) документов не нарушает в принципе этой общей структуры. Поставщиками содержания в этом цикле являются любые из участников процесса: автор (индивидуальный или коллективный), издательство или библиотека. Поставка может осуществляться и в форме первоисточника, и в форме БД, как на традиционных носителях, так и по каналам электронной связи. Информационные сети, представляющие собой коммуникационную среду для конечного пользователя, часто входят в состав издательств или распространителей БД, образуя интегральные распределенные информационные службы. Электронная инфраструктура при этом образует относительно самостоятельный слой, не являясь зеркальным подобием традиционных коммуникаций.

18

1.2.Введение в информационный поиск

Сразвитием информационных коммуникаций поиск информации стал для пользователей делом довольно обыденным, но как показывает анализ выражений запросов и действий пользователей профессиональных баз данных научной информации [5], вряд ли грамотным (с осознанием существа выполняемых действий) и потому – малоэффективным. Причиной такого состояния является не только то, что поиск для человека – это естественная, «встроенная» функция и выполняется скорее интуитивно, сколько то, что среды,

вкоторых этот процесс осуществляется, принципиально различаются. Для сознания человека характерна целостность и образность представления, а также ассоциативность отбора, а для ЭВМ – дискретность и точечность (двоичность) представления, а также четкие алгоритмы идентификации и соотнесения объектов. Автоматизированный информационный поиск, таким образом, должен быть интегрирующим процессом, выполняемым в обеих средах, и потому требующим согласования форм представления, методов обработки и средств, обеспечивающих взаимодействие. Для этого наряду с формами и методами представления и обработки информации

вмашинной среде необходимо достаточно обстоятельно рассмотреть особенности порождения, поиска и использования информации в основной деятельности (ОД) человека. Необходимость такого систематизированного рассмотрения определяется следующими факторами, имеющими как объективную, так и субъективную природу.

1. Целью информационного поиска в большинстве случаев является отыскание документов, содержащих сведения, нужные для решения конкретных управленческих, научных или практических задач, в том числе генерации нового знания. При этом характер информации, способ ее представления может быть самым разным – от объявлений о продаже товаров до интерактивных научных конференций, от технического описания, пригодного для непосредственного применения, до не формализуемой в явном виде совокупности фактов, приводящих к творческому озарению или принятию неординарного решения. В дальнейшем изложении мы будем придерживаться именно профессиональной точки зрения: отыскиваемая информация предназначена для использования в ос-

19

новной (профессиональной) деятельности и она (точнее, публикации об искомых объектах или каким-то образом связанных с ними), должна быть не только найдена, но также должна быть обоснована её полнота, точность и достоверность.

2. Требования к полноте, точности и достоверности информации, характеру процесса поиска, а в большей степени – к выбору типов и набора информационных ресурсов, а также последующей обработке найденного зависят от характера задачи (и текущего этапа жизненного цикла). Действительно, когда задача сформулирована в сложившейся предметной области и её актуальность не вызывает сомнений, цель поиска очевидна: найти полноценное изложение метода решения задачи данного типа (например, отчет о НИР, статью, учебник и т.д., достоверность которого не подлежит сомнениям). Во многих случаях (обычно, когда мы ищем уже известный человечеству метод) это можно сделать, не прибегая к «сложным» процедурам, использующим разнообразные, но вспомогательные средства: указатели, реферативно– библиографические БД и т.д. Достаточно «просто» пролистать разделы соответствующих учебников или монографий или, в крайнем случае – подшивку специальных журналов. Предложения библиотек и информационных служб использовать специальные справоч- но-поисковые средства, к тому же не содержащих полных текстов1, кажутся многим современным пользователям абсурдными. Их использование становится неизбежным, когда собственные «подручные» ресурсы не позволяют найти решение, а характер ОД предполагает реальную ответственность (экономическую или юридическую) за принятие решения. Общеизвестными примерами являются задачи патентного поиска, позволяющего подтвердить приоритет изобретения, или научного поиска, доказывающего новизну решения.

Существенно другая роль вторичной информации на начальном и заключительном этапах ОД, в бизнес-планировании и в задачах управления качеством. Например, при определении направления деятельности, выборе решения при неполной информации,

1 Необходимо отметить, что профессиональные БД вторичной научной информации обыкновенно позволяют почти автоматически выйти на полные тексты публикаций.

20

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]