Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лингвистическое обеспечение.doc
Скачиваний:
7
Добавлен:
28.04.2019
Размер:
179.2 Кб
Скачать
    1. Грамматические средства выражения синтагматических отношений.

Грамматика ИПЯ- это конкретный набор средств и правил построения поисковых образов на данном ИПЯ. В пределах грамматики одного ИПЯ могут быть использованы различные грамматические средства:

1. Мешочная грамматика(Простое перечисление ЛЕ, входящих в один ПОД или ПОЗ).

Используется в отраслевых или узкотематических ИПС дескрипторного типа технической тематики. Языки мешочной грамматики называются языками без грамматики.

Порядок следования ЛЕ не имеет никакого значения и носит произвольный характер.

2. Позиционная грамматика – это установление жесткого порядка следования ЛЕ, входящих в один поисковый образ. В ИПЯ классификационного типа позиционная грамматика проявляется в правилах построения сложного индекса, согласно которому на первое место всегда ставиться индекс взятый из основных таблиц классификаций и отражающий основное содержание документа.

3. Указатели связи.

Указатели связи только группируют (координируют) термины индексирования, не выявляя их смысловую роль.

Применение вызвано тем, что отдельные слова и словосочетания могут образовывать не одно, а два или несколько осмысленных понятий, но при этом лишь одно из них будет соответствовать целям информационного поиска.

Обычно применяются в ИПЯ в 2 случаях:

- Когда ложное логическое произведение образуют ЛЕ, описывающие 2 разные темы или предметы 1 документа.

- Когда ложное логическое произведение образовывают ЛЕ, описывающие 1 тему или предмет документа.

4. Указатели роли- это символы, буквы или цифры, которые присоединяются к 2 или более ЛЕ и служат для обозначения логической роли.

Позволяют пометить смысловую роль в ПОДе термина индексирования. Этот способ особенно важен для отраслей, в документах которых одни и те же термины могут регулярно выступать в разных ролях, например, для химии, фармакологии.

Смысловые средства УР выражаются виде категорий.

Цель применения – это уменьшение объема понятий, которые обозначают ЛЕ, что приводит к повышению избирательности языка и точности поиска.

    1. Три принципа индексирования

- Классификационный

- Предметизационный

- Координатное индексирование

1. Кл-й принцип. Содержание документа или запроса выражается классификационными индексами в соответствии с правилами какой-либо классификационной системы.

Классификационный принцип индексирования обеспечивает возможность организации информационного поиска по иерархическому признаку. Представление ИПЯ – таблицы классификаций.

Характер информационного поиска – систематический.

  1. Предметизационный принцип индексирования базируется на представлении содержания документа в понятийной системе определенного естественного языка и на использовании в качестве терминов индексирования лексических единиц (ЛЕ) естественного языка (предметные рубрики).

Представление – словарь предметных рубрик.

Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку.

  1. Координатное индексирование. Смысловое содержание документа или запроса многоаспектно выражается множеством ключевых слов или дескрипторов.

Представление – тезаурус.

2 режима индексирования:

1. Предкоординация – лексические единицы ИПЯ изначально строятся для обозначения сложных понятий и даже целых тем (в УДК, ББК, ГРНТИ, МПК). Одна ЛЕ может обозначать сложное понятие и составлять целый ПОД.

2. Посткоординация. Словарный состав ИПЯ строится на основе разделения сложных понятий текстов на более простые понятия с целью дальнейшего свободного оперирования ими (комбинирования, координации) в процессе индексирования документов.

Этот подход позволяет более гибко проводить индексирование документов, но в таких ИПЯ без применения грамматики возможны ложные сочетания ЛЕ в процессе обработки поисковых запросов.