Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные информационно-поисковые системы.doc
Скачиваний:
114
Добавлен:
10.05.2014
Размер:
5.47 Mб
Скачать

50. Назначение, структура и использование информационно-поисковых тезаурусов.

Для уменьшения количества терминов в ПО вводят ИПТ (тезаурус - синоним), в котором отражаются устойчивые связи между понятиями данной предметной области.

Тезаурус – семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями: иерархическими (имеет место нарушение правильной структуры дерева), ассоциативными, эквивалентности. Тезаурус является лексическим инструментом ИПС для осуществления поиска.

Информационно-поисковые тезаурусы. (ИПТ) позволяют решить проблему соотне­сения:

• авторской терминологии (понятий и слов естественного языка, которые автор использует для обозначения этих по­нятий);

• терминологии системы (понятий и терминов, которые используются для выражения этих понятий при вводе доку­ментов в ИПС);

• терминологии потребителя (понятий и терминов, которые потребитель использует для представления этих понятии при формировании запросов).

тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. представляет собой перечень лексических единиц, упорядоченных по систематическому и алфа­витному принципам Лексические единицы обычно делятся на дескрипторы и аскрипторы.

Дескриптор — лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов.

Аскриптор— лексическая единица, которая в поисковых образах документов (запросов) при поиске или об­работке информации подлежит замене на дескриптор. ИПТ подразделяют на два типа:

  1. тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;

  2. тезаурусы, все лексические единицы которых являются де­скрипторами.

Рассмотрим структуру и виды связей на примере ИПТ по информатике [Информационно-поисковый тезаурус, 1987].

Лексические единицы тезауруса поделены на дескрипторы и ключевые слова — не дескрипторы и нормализованы следующим образом:

• имена существительные, обозначающие исчисляемые объекты, представлены в форме именительного падежа множе­ственного числа;

• существительные, обозначающие неисчисляемые объекты, представлены в форме именительного падежа единственно­го числа;

• для всех словосочетаний-дескрипторов, включая словосо­четания с именем собственным, используется естествен­ный (прямой) порядок слов.

Лексические единицы в тезаурусе организованы в виде сло­варных статей. Словарная статья дескриптора состоит из собственно дескриптора (заглавного дескриптора) и списка дескрип­торов и ключевых слов, связанных с заглавным дескриптором по смыслу.

Общеупотребительные аббревиатуры входят в тезаурус в ка­честве дескрипторов. Каждая из них снабжена расшифровкой, которая приводится в косых скобках строчными буквами.

В дескрипторной статье лексические единицы располагают­ся в следующем порядке:

  • заглавный дескриптор;

  • ключевые слова, условно синонимичные заглавному деск­риптору;

  • вышестоящие дескрипторы;

  • нижестоящие дескрипторы;

• дескрипторы, связанные с заглавным дескриптором одним из ассоциативных отношений.