Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лингвистическое обеспечение.doc
Скачиваний:
7
Добавлен:
28.04.2019
Размер:
179.2 Кб
Скачать
  1. Разработка информационно-поискового тезауруса.

Технология составления ИПТ соориентирована на автоматизированный режим работы.

  1. Составление предварительной категориальной схемы отрасли знания (перечень возможных категорий).

  2. Предварительный анализ наиболее информативных фрагментов текстов отрасли и формулирование правил нормализации одиночных ключевых слов и словосочетаний (т.е. правил разбиения словосочетаний).

3) Составление инструкции по координатному индексированию документов.

4) Сбор лексики дескрипторного ИПЯ в процессе индексирования документов, сопровождающийся проверкой выделенных КС – кандидатов на включение в ИПТ – по авторитетным источникам терминологии (словарям, ГОСТам, признанным учебникам, таблицам информационных классификаций).

5) Каждое КС, включаемое в формируемый список ЛЕ, соотносится с одной из выделенных категорий. В процессе работы список категорий может изменяться.

6) В ходе формирования списка КС желательно выявлять синонимичные КС, приписывая их к КС в специальном поле формируемого списка. Для этого необходимо иметь соответствующее программное обеспечение. Синонимы КС могут выявляться не только по текстам документов, но и по авторитетным источникам терминологии.

7) По достижении массивом выделенных КС объема в несколько тысяч единиц можно приступать к созданию классов условной эквивалентности, анализируя термины одной и той же категории и параллельно зафиксированные синонимы. В каждом классе условной эквивалентности выбирается дескриптор – заместитель всего класса в информационных процедурах.

8) После получения перечня дескрипторов составляются семантические карты наиболее весомых для отрасли, «кустовых» дескрипторов. Семантические карты используют при установлении парадигматических отношений на массиве дескрипторов.

9) Производится установление парадигматических отношений между дескрипторами: связей «выше – ниже», а также ассоциативных связей, наиболее ценных для организации поиска.

10) Создаются составные части -- указатели ИПТ.

11) Разрабатываются инструкции по переводу КС в дескрипторы и по ведению ИПТ (по вводу новых дескрипторов в ИПТ).

33. Избыточное индексирование: сущность, назначение.

В дескрипторизации ИПС ПОДа, ПОЗа получается путем перевода ключевых слов текста с естественного языка на ИПЯ.

Операция избыточного индексирования – устранение логико-психологической эллипсности.

Процедура избыточного индексирования заключается в дополнении ПОДа или ПОЗа, полученного в результате пословного перевода с языка ключевых слов на дескрипторный язык, производными дескрипторами, связанными с исходными сильными парадигматическими отношениями. Источником дескриптора является информационный тезаурус.

Под избыточным индексированием понимается дополнение поискового образа терминами, связанными с основным. При этом могут использоваться термины, связанные как с основным отношением обобщения или спецификации, так и ассоциативной связью. Дополнение поискового образа терминами с ассоциативной связью может увеличить полноту поиска, но неизбежно понижает его точность. Недостатком избыточного индексирования является также увеличение объема поисковых образов. Для решения этой проблемы во многих ИПС используется избыточное индексирование не документов, а запросов.