Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ответы 3

.doc
Скачиваний:
55
Добавлен:
10.04.2015
Размер:
383.49 Кб
Скачать

65.Лингвистическое обеспечение АИС: состав, требования

Лингвистическое обеспечение- совокупность ИПЯ, а также средств и методов их создания, ведения, использования и контроля.Ведение лингвистического обеспечения – совокупность процедур, обеспечивающих поддержание подсистемы ЛОАИС в рабочем состоянии.

Структура лингвистического обеспечения:1.информационно-поисковые языки (ИПЯ):

- классификационные (ББК, УДК, ГРНТИ, ОКТЭСИ);

-вербальные языки (язык предметных рубрик. Дескрипторный ИПЯ);

-объектно – признаковый

2.элементы ИПЯ:

-международные стандартные номера;

-коды названий (языков, стран и т.д.).

3.языки взаимодействия с системой;

-семантические языки разметки текста;

-языки диалога.

4.формат представления данных в машиночитаемой форме (коммуникативные форматы).

5.нормативно-справочная база (нормативные документы т.е. стандарты, инструктивно-методические документы т.е. инструкции, методики; справочники):

-нормативные документы (стандарты);

-инструктивно – методические документы (инструкции);

-файлы авторитетных записей (предметных рубрик, авторов);

-справочные документы.6.рабочие средства.

Функции ЛО:

1.систематизация информационных массивов и изданий.

2.определение тематического охвата органов НТИ для рационального распределения информационных массивов между взаимодействующими органами НТИ.

3.индексирование документов и запросов, фактов для проведения ДИФ – видов информационного поиска.

4.единообразие формирования информационных массивов предназначенных для обмена между органами информации. 5.регламентация процесса создания и применения языковых средств в органах информации.

Состав лингвистических средств:

- лингвистическое обеспечение реализации технологии системы (общественное или общесистемное лингвистическое обеспечение, локальное лингвистическое обеспечение);

- лингвистическое обеспечение взаимодействия системы или сети с информационным окружением.

Общесистемное ЛО – комплекс лингвистических средств, используемых во всех структурных подразделениях системы или сети при решении задач ИТ в целом.

Локальное ЛО – комплекс лингвистических средств, реализующих специфические задачи отдельных структурных подразделений системы или сети.

Требования:

1.необходимая семантическая сила, заключающаяся в том, что применяемые ИПЯ должны обладать средствами и способами для точного описания тех характеричстик, которые присущи объектам, выделенным при индексировании документов, запросов или фактов

2.гибкость, заключающаяся в возможности эффективного использования применяемых ИПЯ для индексирования любых типов обработанных документов и запросов, а также в обеспечении в заданных пределах требуемых показателей точности и полноты поиска

3.динамичность, заключающаяся в возможности функционирования применяемых лингвистических средств при любых количественных изменениях в потоках, поступающих документов и информационных запросов , а также в накопленных массивах информации

4.целостность, заключающаяся в максимальных возможностях взаимодействия и связанности всех типов ИПЯ, которые применяются в данной АИС и сохранении такой связанности при их использовании

5.минимизация избыточности, заключающаяся в применении только таких лингвистических средств, которые действительно необходимы для решения подавляющего большинства задач данной АИС

6.защищенность от возможных искажений при использовании

7.стабильность

8.открытость

9.простооа процедуры построения применяемых ИПЯ и внесение в них дополнительных изменений

10. простота использования применяемых ИПЯ

11максимальное соответствие применяемых ИПЯ действующим национальным и международным стандартам

12.минимальная стоимость построения и использования

Факторы, влияющие на состав ЛО АИС:

1.объемы информационных массивов, их годовой прирост

2.отраслевая тематическая и типовидовая структура входного документального потока

3.специфика задач, решаемых структурными подразделениями и структурой в целом

4.состав пользователей и особенностей поступающих в АИС запросов

5.логическая структура и состав БД

6.принципы организационного построения конкретной АИС

7.используемые ИТ.

В случае функционирования АИС в режиме сети на состав ЛО также влияет видовой состав информационных служб и учреждений входящих в сеть.

66.Информационно-поисковые языки в структуре лингвистического обеспечения АИС

ИПЯ – это иск язык, кт предназнач, для выражения содержания док-ов и запросов, а также формирования фактов с целью послед поиска.

Причины созд ИПЯ – недостатки естеств языка, кт затрудн поиск. (наличие синонимов, полисемия (многозначность) и омонемия( наличие слов, кт звучат и пишутся одинаково, но по смыслу не имеют ничего общего), наличие слов кт не несут смыслов нагрузки при формир запросов – союзы, междометия).Требования, пред-е к ИПЯ: гостеприимство, простоа исп-я, семанитч сила- возм-ть языка идентифи предмет с макс степ-ю дробности, однозначность, явное выражение полезных для поиска смысловых отношений между словами.

ИПЯ предназнач для описания содерж док-та или запроса или для описания фактов для послед-го поиска. ИПЯ вкл след компоненты: алфавит, лексика, парадигмат отнош, синтагмат отнош, грамматика.

Алфавит – совок-ть знаков исп-х в данном ИПЯ для составл лексич ед-ц. Лексика – совок-ть всех лексич ед-ц исп-х в данном ИПЯ. Лекс ед-ца – посл-ть, принятая для обознач какого –либо понятия, она имеет план выражения (способ задания) и план содержания (смысл).

Лексика бывает: 1.с тз построения лексич ед – кодируемая (пв≠пс), словарная(пв=пс), 2 с тз длины лексич ед-цы: 1го уровня интеграции – 1 слово, 2го уровня интеграции – устойчивое словосоч. 3 контролируемая - все л ед-цы учит-ся в спец словаре – удк, ббк, и неконтролируемая (исп-ся ест язык, примен кт огра­ничено (формализовано) введением спец-х правил).

Термин – слово, или слсч точно обознач-е какое либо понятие. Термины должны обладать след-ми св-ми: однозначность, точность, стилистич нейтральность. Термины бывают: 1. языковые и неязыковые, 2. по структуре: сущ-е, сущ+прилагат, сущ+сущ. 3. по сфере применения: юрид, математич и пр и межотрасл, научные, общенаучные.

Парадигм отнош отра­ж логич отнош и психологич ассоциации между значениями лексических единиц ИПЯ. Св-ва 1) внетекст хар-р (внетекстовая обусловленность), незав-ть от контекста, 2) многоступенчатость, нелинейность т.е. одна и та же ле может входить в состав различных парадигм, т. е. в разл смысловые ряды, в которых она противопоставляется по различным смысл признакам. Бывают

1.сильные 1.1. Отношения тождества 1.2. Отношения иерархии 1.2.1 Отношение «род-вид» 1.2.2 Отношение «целое—часть»

2.Слабые (ассоциативные) парадигматические отношения учитывают логические отношения пересечения по­нятии и различные психологические ассоциации: отношения причины—следствия, смежности, контраста, кратности.

Существующие способы установления по Логико-интуитивный способ установления парадигмати­ческих отношений направлен на выявление существенных смысловых связей между понятиями, Формализованный способ базируется на следующих средствах «опознания» (различения) парадигматических отноше­нии в тексте: лексических (использование глаголов, причастий, вводных слов, предлогов и т. п.); пунктуационных (использование двоеточия, тире, скобок и т. п.); использование схем, чертежей; использование различий в шрифтах (курсив, разрядка).

Синтагмат отнош - линейные отношения, устанавл-е непоср при объединении слов и словосочетаний во фразы (предложения), со проявляются лишь при употреблении лексических единиц и целиком зависят от контекста

Грамматика ИПЯ — это конкретный набор средств и правил построения поисковых образов на данном ИПЯ. 1. Мешочная грамматика. Это простое перечисление лексиче­ских едини-ц 2. Позиционная грамматика. Это установление жесткого порядка следования лексических единиц, входящих в один поисковый образ 3. Указатели связи. Это—символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам ИПЯ с целью наглядного выражения существующей между ними логиче­ской связи. 4. Указатели роли. Это—символы, буквы или цифры, которые присоединяются к двум или более лексическим единицам и служат для обозначения логической роли (функции), выполняемой этой лексической единицей в поисковом образе.

5. Грамматика логических операторов основана на использо­вании трех логических связок И, ИЛИ, НЕ, позволяющих осуществлять логическое умножение, сложение и вычитание лекси­ческих единиц, т.е. осуществлять операции алгебры логики (булевой алгебры).

67. Классификационные ИПЯ

Классификация – процесс (результат) распред-я каких-либо объектов на взаимоисключающие классы в соотв-ии с наиб сущ-ны-ми признаками. Класс – сов-ть объектов им-х один или неско общих сущес-х признаков. Все сущ-е классифик-ии делят на две группы: Иерархические (ИК), Неиерархические.ИК – классиф между подразд-ми кт сущ-ют 2 вида отнош: иерархии и соподчинения. Иерархия –расположение частей или элементов какого-либо целого в порядке от высшего к низшему. Осн хар-ми ИК как ИПЯ явл кол-во ступеней классиф, глубина и емкость. Кол-во ступеней опред глубину сист классиф-ии В различных ИПЯ глубина иерархии измеряется по-разному. (Рубрикатор ГАСНТИ – 3 уровня, УДК – 10 уровней). Емкость- характеризующий мощность словарного состава (Рубрикатор ГАСНТИ –6118 ЛЕ, УДК – 250 тыс. ЛЕ).

Алфавит ИК по своему составу может быть либо преимущ-но цифровым (УДК, Рубрикаторы ГРНТИ, Классификаторы), либо смешанным (ББК, МКИ), также в сост алфавита ИПЯ входят знаки пунктуации, специальные знаки и символы.

Лексика. Стр-ра ЛЕ любого классифик ИПЯ имеет станд вид,: код, индекс + словесная формулировка. Основные характеристики присущие лексике ИК:1.В плане выражения ЛЕ ИК представляет собой код или индекс. В плане содержания – словесная формулировка.2.Все ИК представляют собой кодированные ИПЯ, при этом коды могут быть: структурированные, неструктурированные.3.По способу задания лексика ИК относится к контролируемой (таблицы, рубрикаторы, классификаторы).4.С точки зрения уровня интеграции ИК относится ко 2-му уровню.

Парадигматические отношения в ИК выражаются 2-мя способами:1.Иерархический способ построения таблиц предусматривает деление всей совокупности знаний на классы, 2.Ссылочно-справочный аппарат – совокупность указаний, фиксирующих связи и разменивания между классификационными делениями.

Организационная структура ИК как ИПЯ состоит из: введения (состав и стр-ра, принципы построения ИПЯ, цели, задачи и его назначение, содержат сведения о посл-ти разделов, способе индеек-ия и т.п), основных и вспомогательных таблиц (иерархически упорядоченные классификационные деления по отраслям знаний), АПУ - алфавитный перечень всех понятий, кт в осн и вспомогат таблицах ИК приведены в систематическом порядке.

Причины многообразия иерархич. ИПЯ: Уникальность, неповторимость признаков присущих отдельным видам документов, как объекта классификации. (док-ты технич хар-ра, по естеств наукам - УДК. Патентные документы - МКИ. Общественно-политическая литература – ББК. Различные типы решаемых на базе данного ИПЯ задач, выполнение определенных функций, связанных со сферой применения. Область применения ИПЯ и ИК в частности – это сфера библиотечной и справочно-информационной деятельности, где ИК выполняют следующие функции: Структурирование, систематизация ДП поступающего в систему, Организация и поддержание в рабочем состоянии справочно-библиографического аппарата, Систематизация БЗ в информационно-библиографических изданиях, подготавливаемых как в ручном так и в автоматизированном режиме, Обеспечение справочно-библиографического и информационного обслуживания пользователей, включая все разновидности тематического поиска информации.

Достоинства ИК Наглядность, обозримость систематического ряда. Построенные на приоритете двух видов отношений (иерархии и соподчинения Информативность и мнемоничность индексов.

Недостатки ИК Жесткость структуры , Слабая гибкость, низкая динамичность, Затруднительность многоаспектного поиска,

ДКД – иерархическая классификация, основанная на принципе десятичного деления, т.е такая , в которой вся совокупность знаний делится на 10 подклассов и т.д. , тем самым обеспечивается гибкость и дробность.

УДК – это иерархическая комбинационная система классификации, служащая для систематизации и последующего поиска различных источников информации. Универсальной эта классификация называется потому, что она охватывает всю совокупность человеческих знаний; десятичной – потому, что вся эта совокупность делится на десять классов, каждый из которых может, в свою очередь, делиться на десять разделов.

ББК – это иерархическая комбинационная классификация универсального характера, предназначенная для организации книжных фондов, каталогов, картотек, упорядочения записей в библиографических указателях. Основная задача ББК – раскрыть содержание документов, представить их в виде стройной научно обоснованной системы знаний и этим максимально облегчить читателю использование библиотечных фондов.

Сфера применения ББК: она служит для организации систематических фондов и каталогов, определения тематических профилей комплектования, для систематизации и упорядочения материалов в библиографических указателях, на тематических выставках литературы и т.п.

68. Дескрипторные ИПЯ.

Дескрипторный ИПЯ – это ИПЯ, лекс ед-цами кт явл дескр-ры и исп-ие кт основано на принципе координатного индексирования. Дескриптор – словарная единица ИПЯ, выраженная словом, словосочетанием или кодом, являющаяся именем класса условной эквивалентности, в который включены эквивалентные и близкие по смыслу ключевые слова. Ключевое слово – это слово или слс из текста документа или запроса, которое несёт в данном тексте наибольшую смысловую нагрузку с точки зрения информационного поиска. Координатное индексирование – это индексирование путём перечисления ключевых слов или дескрипторов. Принцип координатного индексирования был. в связи с попытками механизации и автоматизации информационного поиска. Сист-ма «Унитерм», работает по принципу координатного индексирования. «Унитерм» (от англ. unit term, что означает «единичный термин», «отдельное слово») – это полнозначное, имеющее большую смысловую нагрузку слово, кт выбир-ся из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы. Алфавит ДИПЯ совпад с алф-ом того естеств языка, на кт он созд-ся. Дополнит в его сост м/б исп-ны арабс и римск цифры, скобки, другие знаки и символы.

Лексика дескрипторного ИПЯ в качестве осн ле включает дескрипторы и аскрипторы. Дескриптор это нормализованное слово, которому искусственным путем дана смысловая однозначность. Аскрипторы (недескрипторы) это лексические единицы, подлежащие замене на дескрипторы в поисковых образах документов (запросов) при поиске и обработке информации. Аскрипторы всегда сопровождаются ссылками на заменяющие их дескрипторы, включая такие, как см (смотри), исп к (используй комбинацию), исп а (используй альтернативно).

Исходя из состава лексики дескрипторный ИПЯ может рассматриваться как словарный ИПЯ, обладающий лексикой первого уровня интеграции, план выражения и план содержания лексических единиц которого совпадают.

Парадигматические отношения в дескрипторном ИПЯ представлены в явном виде, эксплицитно, с помощью системы ссылок и помет и реализуются в структуре словарной статьи. Различают дескрипторную и аскрипторную словарные статьи.

Дескрипторная статья состоит из заглавного дескриптора, списка дескрипторов и аскрипторов, семантически связанных с ним, с указанием вида связи. Аскрипторная статья состоит из аскриптора и заменяющих его при обработке и поиске информации дескрипторов или комбинации дескрипторов:

Сильные парадигматические отношения в дескрипторном ИПЯ представлены отношениями синонимии и иерархии. Слабые (ассоциативные) парадигматические отношения могут включать все виды связей, кроме синонимии и отношения «род—вид».

Синтагматические отношения в дескрипторном ИПЯ выражаются с помощью мешочной грамматики, позиционной грамматики и таких её вариантов, как «метод стандартных фраз», аспектный (анкетный, матричный) способ представления информации, указатели роли и указатели связи, операторы булевой алгебры И, ИЛИ, НЕ. Организационную структуру дескрипторного языка рассматривают на примере ИПТ – основных средств контроля лексики ДИПЯ.

Причины появления из-за недостатка УНИТЕРМ и т.д. Область применения: АС (документальные и документографические); Координатное индексирование; Для поиска

Информационно-поисковый тезаурус (ИПТ) – нормативный словарь дескрипторов и ключ слов с зафиксированными парадигмат отнош, предназнач для координатного индексирования документов и информационных запросов. Целью созд - повыш показат кач-ва поиска инф в автоматизированных ИПС. Организац стр-ра: Вводн часть вкл титй лист и текст введения. Тит лист сод-т наимен мин-ва (ведомства) и наимен орг-ии, разраб-ей тезаурус, индексы УДК и Рубрикатора ГАСНТИ, область применен, место и год издания. Во введ ук-ся цель созд-я и обл примен, приводятся ссылки на источники, дается описание порядка сост-ия тезауруса, его состава и структуры, колич хар-ки (общее число словарных статей, число дескрипторов и аскрипторов), перечень всех символов, допущенных для представлен лексических единиц. Лексико-семантический указатель — это упорядоч-я посл-ть слов-х статей ИПТ, сформир-я путем их распол-я в алфав-ом порядке заглавных дескрипторов. Он предст-ет собой алфавитный перечень дескрипторов и аскрипторов с их словарными статьями. Виды ИПТ: По широте темат охвата: политематич., отраслевые, узкоотраслевые или проблемные. По назначению: Базисные - осн понят их взаимосвязи, общие для неск темат подмассивов, Рабочие ИПТ, используемые в реальных ИПС. По системности построения отдельные и комплексы (по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике) По количеству естественных языков: Одноязычные, Многоязычные. По форме представления различают ИПТ на традиционных, на машиночитаемых носителях. По особенностям внутриструктурного построения: созданные на базе фасетного анализа лексики.

69.Объектно-признаковые ИПЯ (ОПЯ)

Появл ОПЯ связано с задачами, кт призваны решать фактографиче информационно-поисковые системы. В состав лингвистического обеспечения фактографического информационного поиска входят те же ИПЯ, которые используются и при документальном информационном поиске: классификационные и дескрипторные ИПЯ; никаких принципиально новых языковых средств для обеспечения работы фактографических ИПС не создано. Однако применение этих ИПЯ в рамках фактографических ИПС (ФИПС) имеет свои особ-ти, обусловл-е, хар-ом фактограф инф-ции, подлежащей вводу, обработке, хранению и поиску. Базов понятиями теории фактограф инф поиска явл понят «факт» и «фактографическая информация». Факт - знание, достов-ть кт доказана. Фактограф инф — это инф-ия о фактах. Основной особенностью ИПЯ ФИПС является то, что запись фактограф инф-ии должна содержать указание и на объект фактографического поиска, и на признак этого объекта, и давать, кроме того, конкретное значение этого признака на данном объекте.

Алфавит ОПЯ - алфавит естественного языка, цифры, специальные символы, а в качестве лексических единиц — слова и словосочетания. В составе лексики ОПЯ можно выделить три основных лексико-семантических класса названий: объектов, признаков и значений признаков. Объектами являются основные единицы (изделия, материалы, технологические процессы и т.п.) фактографического поиска, описываемые с помощью совокупности пар «признак — значение». Все присущие объектам фактографического поиска признаки делятся на количественные и качественные. Количественные признаки — это именованные и неименованные числа, Качественные признаки — это признаки, значение которых выражается описательно, словесно.

В состав лексики ОПЯ входят следующие типы лексических единиц:

1. Лексические единицы, выраженные терминами. 2. Номенклатурные знаки (номенклатура). К номенклатурам относятся марки машин, станков, механизмов, приборов; географические названия и т.д.Отличие номенклатурного знака от термина заключается в том, что в основе терминов лежат общие понятия, а в основе номенклатуры — единичные понятия.3. Кванторные лексические единицы — это лексические единицы, смысл которых совпадает с семантикой таких русских слов, как несколько, все, некоторые из, больше половины и т. п 4. Модальные лексические единицы — это совокупность лексических единиц, смысл которых соответствует семантике русских слов вероятно, достоверно, наверняка и т. п. 5. Лексические единицы, служащие для обозначения названий публикаций и источников сведений, из которых извлекается фактографическая информация, позволяющие «привязать» каждый факт к источнику, из которого он взят.

Организационную структуру ОПЯ представляют объектно - характеристические таблицы, используемые в большинстве действующих ФИПС. Это такие таблицы, в которых названия строк соответствуют объектам фактографического поиска, названия столбцов — их признакам, а конкретные значения (числовые или словесные) записываются на пересечении строк и столбцов.

Тезаурус фактографической ИПС служит трем основным целям: для перевода текстов документов на объекно - признаковый язык; для использования семантических связей между лексическими единицами ОПЯ в процессе поиска; для выдачи информации, содержащейся непосредственно в тезаурусе в виде энциклопедических сведений, представляющих самостоятельный интерес.

96. Основная память: физическая и логическая организация

Основная память содержит оперативное (RАМ память с произвольным доступом) и постоянное (ROM) запоминающие устройства.

Оперативное запоминающее устройство (ОЗУ) предназначено для хранения информации (программ и данных), непосредственно участвующей в вычислительном процессе на текущем этапе функционирования ПК. ОЗУ — энергозависимая память: при отключении напряжения питания информация, хранящаяся в ней, теряется. Основу ОЗУ составляют большие интегральные схемы, содержащие матрицы полупроводниковых запоминающих элементов (триггеров). Элементы оперативной памяти выполняются в виде отдельных микросхем типа DIP (двухрядное расположение выводов) или в виде моду­лей памяти типа SIP (однорядное расположение выводов), или, что чаще, SIMM (модуль памяти с одноразрядным расположением выводов). На материнскую плату можно установить несколько модулей SIMM, DIMM.

Постоянное запоминающее устройство (ПЗУ) также строится на основе установленных на материнской плате модулей (кассет) и используется для хранения неизме­няемой информации: загрузочных программ операционной системы, программ тестирования устройств компьютера и некоторых драйверов базовой системы ввода-вывода (BIOS) и др. Из ПЗУ можно только считывать информацию, за­пись информации в ПЗУ выполняется вне ЭВМ в лабораторных условиях. Модули и кассеты ПЗУ имеют емкость, как правило, не превышающую нескольких сот килобайт. ПЗУ — энергонезависимое запоминающее устройство. Структурно основная память состоит из миллионов отдельных ячеек памяти емкостью 1 байт каждая. Емкость ОЗУ на один-два порядка превышает емкость ПЗУ: ПЗУ занимает 128 (реже 256) Кбайт, остальной объем— это ОЗУ.

Емкость основной памяти компьютера : 8Мб, 16 Мб, 32 Мб, 64 Мб, 128 Мб, 256 Мб

Логическая структура основной памяти

Каждая ячейка памяти имеет свой уникальный (отличный от всех других) адрес. Основная память имеет для ОЗУ и ПЗУ единое адресное пространство. Адресное пространство определяет максимально возможное количество непосредственно адресуемых ячеек основной памяти.

Основная память компьютера делится на две логические области: непосредственно адресуемую память, занимающую первые 1024 Кбайта ячеек с адресами от 0 до 1024 Кбайт- 1, и расширенную память, доступ к ячейкам которой возможен при использовании специальных программ-драйверов. Непосредственно адресуемую память делится: стандартную и верхнюю память. Стандартной памятью (обычная память (СМА)) называется непосредственно адресуемая память в диапазоне от 0 до 640 Кбайт.

Непосредственно адресуемая память в диапазоне адресов от 640 до 1024 Кбайт называется верхней памятью (блоки UMA). Верхняя память зарезервирована для памяти дисплея (видеопамяти) и постоянного запоминающего устройства. Однако обычно в ней остаются свободные участки — "окна", которые могут быть использованы при помощи диспетчера памяти в качестве оперативной памяти общего назначения.

Расширенная память — это память с адресами 1024 Кбайта и выше. Доступ к этой памяти возможен только в защищенном режиме работы микропроцессора.

В реальном режиме имеются два способа доступа к этой памяти, но только при использовании драйверов:

по спецификации XMS (эту память называют тогда ХМА);

по спецификации EMS (дополнительной оперативной памяти – вида ОП (свыше 640Кб) в ПК типа IBM PC).

Расширенная память может быть использована главным образом для хранения данных и некоторых программ ОС.

70.Индексирование как способ реализации ИПЯ

Индексирование — это процесс перевода содерж-я док-ов и запросов с естеств ИПЯ, в рез-те чего созд-ся поисковые образы документов (ПОД) и поисковые предписания (ПП).

Важн-ми треб-ми, кт пред-ся к процессу инд-я, являются: 1)объективность, отраж-я содер-я док-тов и запросов; 2)полнота и точность раскрытия содержания индекс-го документа или запроса. 3)компактность создаваемых поисковых образов, что обусловлено природой процесса индексирования, являющегося разновидностью свертывания информации;4)единообразие (воспроизводимость) индексирования аналогичных по содержанию документов и запросов в целях полноты выдачи информации при поиске.

Этапы:1.Анализ содержания и формы индексируемого источника (документа, запроса - ).2.Перевод результатов анализа текста документа или запроса с естественного языка на ИПЯ, составление ПОД или ПП.

(1)Методов формализации анализа текста: 1)Анкетный, или аспектный, метод анализа текста, при кт индексатор производит отбор ключевых слов по унифицированной схеме (анкете2)Позиционный метод анализа, базирующийся на предположении, что значимость ключевых слов, отражающих основное смысловое содержание документа, находится в определенной зависимости от их позиций в тексте..3)Статистический метод, в основе которого лежит идея о возможности использования числовых параметров для оценки степени информативности (значимости) различных фрагментов текста (слов, словосочетаний), определяемой частотой встречаемости слова в индексируемом тексте. (2) Тождественная замена - понятие, выделенное в тексте индексируемого документа или запроса, заменяется (переводится) адекватным ему понятием (лексической единицей) ИПЯ. Важнейшим условием тождественной замены является совпадение объемов понятий, закрепленных за лексическими единицами индексируемого текста и лексическими единицами ИПЯ. Тождественная замена при индексировании позволяет обеспечивать высокие показатели точности информационного поиска. Нетождественная замена происходит, когда в используемом ИПЯ отсутс-ют лексические единицы, адекватно придающие смысл индексируемых понятий, и исходные лексические единицы, выделенные из текста документа или запроса, заменяются близкими по смыслу, но не адекватными лексическими единицами. Нетождественная замена, сводится к замене исходного понятия родовыми, более широкими, либо ассоциативными понятиями, в сумме дающими примерное наполнение исходного.

.Предкоординатным называется индексирование, осуществляемое, как правило, на базе классификационных ИПЯ.Отличительная особенность закл. в том, что лексические единицы индексируемого сообщения образуют линейную запись.

Посткоординатным, или координатным, инд-ем называется инд-е путем перечисления ключевых слов, или дескрипторов, логическое произведение которых выражает основной смысл содержания данного текста, образуя его поисковый образ. Избыточное индексирование - дополнение исходн поискового образа, получ-го в рез-те пословного перевода лексики авторского текста (документа или запроса), лексическими единицами ИПЯ, связанными с исходными сильными парадигматическими отношениями.(восходящее и нисходящее).

ТЕХНОЛОГИЧЕСКАЯ СХЕМА ИНДЕКСИРОВАНИЯ.

На базе классификационных ИПЯ:1. Анализ содержания и формы индексируемого документа, 2. Поиск выделенных на предыдущем этапе понятий в алфавитно-предметном указателе таблиц классификации (рубрикатора, классификатора). 3. Выбор индекса в АПУ. При выборе классификационного индекса необходимо учитывать специфику документа, аспект, точку зрения, с которой рассматривается индексируемое понятие. 4. Поиск индексов в таблицах классификации..5. Принятие окончательного решения и запись индекса, т.е. составление ПОД.. Координатное индексирование, выполняемое на основе тезауруса: 1.Анализ содержания и формы индексируемое документа, включающий: выделение ключевых слов, характеризующих основное смысловое содержание документа;выделение ключевых слов, характеризующих форму данного документа: тип, вид, язык, территориальный, географический аспекты и т. п.2.Поиск выделенных из текста документа ключевых слов в лексико-семантическом указателе информационно-поискового тезауруса

Несмотря на то, что индексирование по ИПТ носит достаточно формализованный характер, следует помнить, что создаваемый ПОД не должен искажать смысловое содержание индексируемого текста. Поэтому при работе с ИПТ не исключается интеллектуальный характер работы индексатора, который должен помнить о контексте документа или запроса, не допуская формализма, так как буквальное совпадение ключевого слова не всегда гарантирует смысловую адекватность.

ОЦЕНКА КАЧЕСТВА ИНДЕКСИРОВАНИЯ.

Глубина инд-я - степень детальности хар-к, с помощью которых описываются средствами ИПЯ выделенные в тексте индексируемых документов объекты. В случае использования классификационных ИПЯ глубина индексирования будет тем больше, чем большим количеством знаков будет располагать присвоенный документу классификационный индекс. ГИ связана с таким показателем работы системы в целом, как точность информационного поиска.

Полнота индексирования отражает широту тематического содержания индексируемого документа; она связана с количеством характеристик, выделенных в ходе анализа документа и отраженных средствами ИПЯ