Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Максимов Информационные ресурсы и поисковые системы 2008

.pdf
Скачиваний:
635
Добавлен:
16.08.2013
Размер:
8.18 Mб
Скачать

морфемой. Морфемы делятся на грамматические (аффиксы) и лек-

сические (лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема – это корневая или словообразовательная морфема, выражающая основное значение слова.

Морфологический поиск – поиск с учётом морфологии (всех возможных форм слова). Например, в строке поиска введено «хрюкать» – в результатах поиска присутствуют «хрюкающий», «хрюкало», и другие производные от заданного слова.

Мультимедиа среда, материал, состоящий из комбинации текста, графики, видео, мультипликации и звука, представляющий таким образом информацию в более понятном и удобном для обработки виде.

Навигация поисковая – целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата поиска.

Наименование – слово или словосочетание, используемое для идентификации какого-либо существа, предмета или класса.

Носитель информации (данных) – средства регистрации,

хранения, передачи информации (данных).

Образ – результат отражения объекта 1) в гносеологии – в сознании человека; 2) в искусственных системах – функциональноориентированная модель (процедуры и данные) в памяти ЭВМ.

Объект – осязаемая реальность, проявляющая четко выделяемое поведение.

Оригинал – объект, для которого строится образ. Парадигма – совокупность всех словоформ данного слова.

Если дано некое существительное (например, «котенок»), его парадигму составят слова, образуемые при изменении по падежам и числам («котенок», «котята», «котенка», «котят» и т. д.).

Парадигматические отношения (или аналитические, ба-

зисные отношения) – логические отношения, существующие между лексическими единицами языка независимо от контекста их конкретного употребления.

Поисковый образ документа (ПОД) – описание документа,

выраженное средствами ИПЯ и характеризующее основное смы-

361

словое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Поисковый образ запроса (ПОЗ) – записанный на ИПЯ текст,

выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Полнотекстовые документы (записи) – полный (или почти полный) исходный текст журнальной статьи или другого документа.

Понятие – форма мышления, отражающая существенные свойства, связи и отношения предметов и явлений.

Предметная область (ПрО) – набор объектов, представляющих интерес для актуальных или предполагаемых пользователей, когда реальный мир отображается совокупностью конкретных и абстрактных понятий, между которыми фиксируются определенные связи.

Признак – свойство объекта, обусловливающее его различие или общность с другими объектами

Профиль документа в ODA набор свойств документа, которые относятся к документу в целом.

Разметка – дополнительная информация, включаемая в документ и выполняющая функции выделения логических элементов данного документа и задания процедур обработки выделенных элементов.

Распознавание документа – построение редактируемой электронной копии бумажного документа. Как правило, проводится в два этапа; сначала при помощи сканера получают электронную «фотографию» страницы, затем обрабатывают её специальной программой распознавания символов.

Релевантность – свойство некоторой информации (документ, факт, и пр.) удовлетворять информационную потребность пользователя АИС (relevant – относящийся к делу).

Сведения – 1) познания в какой-либо области; 2) известие, сообщение; 3) знание, представление о чем-либо.

Семантика – раздел языкознания, исследующий смысловую сторону слов и выражений, отношения между знаками. Логиколингвистическая дисциплина, исследующая отношение между

362

формально построенным исчислением и той областью действительности, которая в нем отражается.

Семиотика – наука о знаках и знаковых системах.

Символ – элемент согласованного набора материальных предметов, используемых для представления знаков.

Синтагматические отношения (или текстуальные, синтетические, синтаксические отношения) – отношения между лек-

сическими единицами языка, выражающие действительные конкретные логические связи между соответствующими понятиями в тексте сообщения, которые, в свою очередь, отражают конкретные ситуативные отношения между обозначаемыми ими объектами.

Синтаксис – совокупность действующих в языке способов и средств построения предложений.

Словарь данных – исчерпывающий набор таблиц или файлов, представляющий собой каталог всех описаний данных (имен, типов). Может содержать также информацию о пользователях, привилегиях и т. д., доступную только администратору базы данных.

Словообразование – определяется как совокупность способов и средств образования слов на базе уже существующих.

Смысл – содержание, сущность, значение чего-нибудь. Для человека значение, которое объект, событие или слово приобретают для него в результате его жизненного опыта.

Содержание документа представляет собственно информацию документа: текст, рисунки и т.п.

Сообщение – 1) информация, переданная и (или) полученная в процессе коммуникации; 2) физическое состояние, определенным образом отличающееся от других состояний в цепи управления.

Стратегия поиска – общий план (концепция, предпочтение, предрасположенность, установка) поведения пользователя для выражения и удовлетворения информационной потребности, обусловленный характером цели и типом поиска, архитектурой БД, а также методами и средствами поиска конкретной АИПС.

Структура данных – атрибутивная форма представления свойств и связей предметной области, ориентированная на выражение описания данных средствами формальных языков, и таким образом учитывающая возможности и ограничения конкретных средств, с целью сведения описаний к стандартным типам и регулярным связям.

363

Структура данных линейная – структура, порядок следова-

ния элементов данных которой имеет линейный характер и соответствует порядку расположения элементов в памяти.

Таблица – основная единица информации в системе управления реляционной базой данных. Состоит из одной или более единиц информации (строк), каждая из которых содержит значения некоторого вида (столбцы).

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями – иерархическими (например, род-вид, целое-часть), ассоциативными, а также отношениями эквивалентности.

Термин – слово или словосочетание, являющееся точным обозначением определенного понятия какой-либо области знания.

Терминологическая система – организованная совокупность терминов в специальном языке определенной области знания.

Технологии поисковые – унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования в процессе взаимодействия пользователя с системой отдельных средств поиска для устойчивого получения конечного и, возможно, промежуточных результатов.

Типы данных – совокупность соглашений о программноаппаратурной форме представления и обработки а также ввода, контроля и вывода элементарных данных к типам данных.

Уровни представления данных в БД – концептуальный,

внутренний и внешний. Внутренний уровень - глобальное представление БД, определяет необходимые условия в первую очередь для организации хранения данных на внешних запоминающих устройствах. Представление на концептуальном уровне – это обобщенный взгляд на данные с позиций предметной области. Внешний уровень – представляет потребности пользователей и прикладных программ.

Формат – способ расположения и представления данных на носителе информации.

Численные данные – записи, которые содержат таблицы статистических, финансовых и других сведений в числовой форме.

Электронный документ документ, носителем которого является электронная среда МД, компакт-диск и т. д.

364

Элемент данных (элементарное данное) – неделимое имено-

ванное данное, характеризующееся типом (напр., символьный, числовой, логический, и пр.), длиной (в байтах). Это минимальная адресуемая (идентифицируемая) часть памяти – единица данных, на которую можно ссылаться при обращении к ним.

Элемент текста часть текста, ограниченная начальной и конечной метками (При использовании SGML).

Язык – 1) система знаков, обеспечивающая коммуникацию и включающая набор знаков (словарь терминов) и правила их употребления и интерпретации (грамматика); 2) знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности.

Язык естественный – язык, словарь и грамматические правила которого обусловлены практикой применения и не всегда формально зафиксированы.

Язык искусственный – язык, специально созданный и регулируемый на основе согласованных принципов.

Язык манипулирования данными (ЯМД) – обычно включа-

ет в себя средства запросов к базе данных и поддержания базы данных (добавление, удаление, обновление данных, создание и уничтожение БД, изменение определений БД, обеспечение запросов к справочнику БД).

Язык описания данных (ЯОД) – средство внутрисистемного определения данных, представляющего обобщение внешних взглядов. Описание представляет собой модель данных и их отношений, т. е. структур, из которых образуется БД.

365

Список сокращений

АИПС – автоматизированная информационно-поисковая система

АИС – автоматизированная информационная система АИТ – автоматизированные информационные технологии АСУ – автоматизированная система управления ББК – Библиотечно-библиографическая классификация БД – база данных ЕЯ – естественный язык

ИД – информационная деятельность ИП – информационная потребность

ИПС – информационно-поисковая система ИПТ – информационно-поисковый тезаурус ИПЯ – информационно-поисковый язык ИР – информационный ресурс ИС – информационная система ИСр – информационная среда ИТ – информационная технология ЛЕ – лексическая единица

ЛО – лингвистическое обеспечение МПК – Международная патентная классификация НИР – научно-исследовательская работа НТД – научно-техническая документация НТИ – научно-техническая информация ОД – основная деятельность ПО – программное обеспечение ПОЗ – поисковый образ запроса

ПОД – поисковый образ документа ПОТ – поисковый образ темы ПрО – предметная область

СУБД – система управления базами данных УДК – Универсальная десятичная классификация ЭБ – электронная библиотека ЭВМ – электронно-вычислительная машина

ЭДД – электронная доставка документов

366

ПРИЛОЖЕНИЕ 1

Фрагмент Методики индексирования документов по «Тезаурусу по атомной науке и технике» для системы автоматизированного распределения информации

5. ОБЩАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ СТАДИЙ ОБРАБОТКИ ИНФОРМАЦИОННЫХ ДОКУМЕНТОВ НА ЭТАПЕ ИНДЕКСИРОВАНИЯ Настоящая методика регламентирует следующий порядок

работ индексировщика по общему анализу документа:

-определение вида и тематической направленности;

-составление библиограммы обрабатываемого документа;

-разделение (в случае необходимости) многотемного документа по аспектам содержания на отдельные информационные блоки, каждый из которых выступает как самостоятельный документ;

-перевод заголовка, если он дан на иностранном языке, и обязательное составление краткой аннотации для отечественных материалов;

-отбор ключевых слов из заголовка, аннотации и текста обрабатываемого документа;

-тождественная замена отобранных ключевых слов на дескрипторы информационно-поискового языка, поиск в тезаурусе дескрипторов, дословно совпадающих с ключевыми словами;

-этап нетождественных замен ключевых слов на дескрипторы, поиск в тезаурусе дескрипторов, не совпадающих с ключевыми словами, но характеризующих (с расширением понятия) содержание документа ;

-формирование дескрипторного ПОД;

-этап контрольной самопроверки: восстановление содержания документа по составленному ПОД.

6. АНАЛИЗ СОДЕРЖАНИЯ ИНФОРМАЦИОННОГО ДОКУМЕНТА НА ЭТАПЕ ИНДЕКСИРОВАНИЯ

Непосредственному анализу текста документа предшествует этап Определения его общей тематической направленности и составление по принятой форме библиограммы.

367

6.1. Этап определения общей тематической направленности документа

Индексировщик должен:

-определить, принадлежит ли данный документ к областям тематического охвата САРИ, определяемого отраслевым рубрикатором;

-решить, к какой предметной рубрике (рубрикам) должен быть отнесен документ;

-решить, состоит ли документ из отдельных частей, которые можно рассматривать как достаточно различные по содержанию; в этом случае разделение может быть выполнено на библиографическом уровне и каждая часть может быть представлена как отдельный документ.

6.2. Порядок составления библиограммы документа В соответствующие графы информационной карты вносятся:

-поисковый номер документа;

-обозначение вида первичного информационного материала

-(книга, отчет, статья, патент, стандарт, фирменный проспект, чертеж);

-обозначение формы первичного информационного материала (оригинал, микрокарта, диамикрокарта, микрофильм, фотокопия);

-фамилия и инициалы автора (авторов);

-заголовок;

-название страны, в которой издан первичный информационный материал, с указанием языка издания;

-название источника информации, например, организация, выпустившая отчет; издатель (издательство), выпустивший книгу; страна, издавшая патент и т.д.;

-характеристики издания (номер тома; номер журнала и страницы; номер отчета; номер патента);

-дата издания;

-место хранения первичного информационного документа и инвентарный номер документа;

-гриф документа.

Если материал опубликован на иностранном языке, индексировщик должен указать название документа на языке оригинала и перевести заголовок.

368

Непосредственно после перевода заголовка желательно дать краткую аннотацию, передающую основное содержание документа. Для отечественных труднодоступных материалов это выполняется обязательно.

6.3. Анализ содержания текста документа Сначала анализируется заголовок, затем реферат, оглавление

и полный текст документа.

Из заголовка, реферата, оглавления и текста документа индексировщик выбирает ключевые слова, наиболее полно отражающие содержание документа. Перечень этих ключевых слов должен являться свернутой реферативной моделью содержания информационного документа.

Анализ содержания индексируемого документа должен проводиться с учетом следующих правил:

Правило I. При анализе содержания документа следует выбирать только полезную информацию.

Интерпретация документов заключается в том, что индексировщик устанавливает наиболее важное информационное содержание документа. Критерием, которым следует руководствоваться при этом выборе, является то, что полезная информация наиболее информативна и интересна с точки зрения пользователя системы. Как показывает практика информационного поиска, документ может быть адекватно определен одним, двумя и, возможно, тремя наиболее важными аспектами, которые обычно являются основанием для опубликования этого документа. В процессе подготовки поискового образа индексировщик должен представить каждый из этих аспектов одним или несколькими понятиями и затем согласовать эти группы для отражения содержания рассматриваемого документа. При выборе ключевых слов индексировщик должен помнить, что следует использовать только те ключевые слова, которые действительно отражают понятия, рассматриваемые в документе, и могут отразить полезную с точки зрения пользователя системы информацию, содержащуюся в документе, т.е. каждое выбранное ключевое слово должно нести достаточную информативную нагрузку. Например, при индексировании сообщения «Для определения уровня жидкости использовался сцинтилляционный счетчик с кристаллом NaI» информационная единица «Иодиды натрия» (NaI) должна быть опущена; в то же время она должна быть использова-

369

на для сообщения «Эффективность сцинтилляционных счетчиков с кристаллами NaI большого диапазона измерений». В первом случае не представляет интереса, какой тип счетчика использовался, а во втором случае устройство счетчика само по себе является понятием, которое обсуждается.

Правило 2. При анализе содержания документа следует игнорировать избыточную информацию, выявлять скрытую информацию и уточнять неполную информацию.

Так, избыточная информация содержится во фразах, указывающих, что такие-то явления не рассматривались (отрицательная информация) или рассматривались в других работах; указывающих на факт аналогии между данным явлением и каким-то другим; при упоминании параллельно работающих (помимо авторов) над темой исследования групп ученых.

Иногда имеется тенденция к индексированию слишком большого числа информационных единиц, приведенных в полном тексте документа. Надо помнить, что избыточное индексирование и использование расплывчатых понятий препятствуют поиску релевантных документов, ухудшают параметры всей информацион- но—поисковой системы. Примеры расплывчатых информационных сообщении: «Этот эффект был открыт группой из Окриджской национальной лаборатории», «Эти эксперименты по облучению проводились на реакторах для испытания материалов», «Резонансный захват обнаружен не был». Эти сообщения не содержат фактов, представляющих научный интерес. Не имеет научного значения, кем открыт эффект и на каком реакторе проводились эксперименты. Такая информация не должна индексироваться. Для сообщения «Толстые пластины из нержавеющей стали сваривались» дескриптор ТОЛЩИНА будет расплывчатым понятием, и использование его явится избыточным индексированием. В то же время для сообщения «Тепловые и радиационные испытания были выполнены на топливных частицах с покрытием для определения оптимальной толщины свободного от топлива покрытия из графита» необходимо при индексировании использовать дескриптор ТОЛЩИНА.

Если в документе рассматриваются различные научные аспекты, не все из которых входят в тематический охват информаци- онно-поисковой системы, определяемый для САРИ отраслевым

370

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]