Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс.doc
Скачиваний:
372
Добавлен:
02.05.2014
Размер:
4.3 Mб
Скачать

6.2.3. Информационно-поисковые тезаурусы

Особую роль в развитии информационно-поисковых сис­тем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов.В системе Тауба содержание до­кумента индексируется совокупностьютерминовв видеодно­словных обозначений — унитермов.Например, документ по теории информационного поиска может быть проиндексирован двумя унитермами — «Информационный», «Поиск». В ка­честве унитермов чаще всего выступают элементысловаря клю­чевых терминовпо определенной предметной области.

В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следователь­но, ее можно отнести к чисто дескрипторным системам. Вмес­те с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий.Яв­ление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, на­пример, в содержании документа, в котором речь идет об ин­формационном обеспечении поисковых бригад при ликвида­ции чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы — «Ин­формационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информа­ционного поиска.

Другой проблемойв системах на основе унитермов явля­ютсясинонимичность и омонимичность* некоторыхтерми­нов,что приводит к неоднозначности индексирования докумен­тов. Для преодоления ложной координации и других проблем стали вводитьсоставные термины, указатели связииролей терминов(«род— вид», «средство действия» и т. п.), заново открывая в некотором смысле предметную иерархическую руб­рикацию со связями, и внося тем самым в чисто дескрипторную систему элементы семантики. Так появилось отдельное на­правление информационно-поисковых систем, получившее на­звание тезаурусов.

* Синонимы — одинаковые или близкие по смыслу слова, омонимы — слова, одинаковые в написании и звучании, но имеющие разный смысл — ключ (в замке), ключ (источник воды).

Тезаурус (с греч.«хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-спра­вочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения cинонимии, омонимии, полисемии, определены родо-видовые и ассоциа­тивные связи дескрипторов.*

* Строгое определение информационно-поискового тезауруса (нормативный словарь дескрипторного ИПЯ с зафиксированными в нем парадигматическими отношениями лексических единиц)приведено в ГОСТ 7.74-96 СИБИД. Информационно-поис­ковые языки.—М.: Изд-во стандартов, 1997.

В более общем плане в тезаурусе выделяют классифика­ционную схему и алфавитный перечень дескрипторов-ключевых слов.Классификационная схема определяет системати­зацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.

Внешним отличиеминформационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объе­диняемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терми­нов, им соответствующих.

Главная идеяинформационно-поисковых тезаурусов зак­лючается вповышении эффективности и автоматизации ин­дексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поиско­вых тезаурусов ПОД представлен набором дескрипторов (клю­чевых терминов). Однако в процессе индексирования докумен­тов учитываются семантические (родо-видовые, ролевые, си­нонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обес­печивает более адекватный содержанию ПОД и повышает эф­фективность поиска документов (по точности, полноте и шуму).

Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем вы­делились многоотраслевые, отраслевыеиузкотематические тезаурусы.Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышед­ший в декабре 1967 г. в США. В 1972 г. под редакцией Ю. И. Шемакина был разработан первый отечественный многоотрасле­вой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отрас­лей деятельности, а также создано большое количество узкотематических специализированных тезаурусов.

На основе практики разработки и использования информа­ционно-поисковых тезаурусов были также разработаны специ­альные представления тезаурусов, закрепленные в нашей стра­не в соответствующих ГОСТах.* Согласно ГОСТ 18383-73 фор­ма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору(термину) в следующем виде:**

...

РЕФЕРАТ

с резюме

в СВЕРТЫВАНИЕИНФОРМАЦИИ

н РЕФЕРАТАВТОРСКИЙ

РЕФЕРАТГРАФИЧЕСКИЙ

РЕФЕРАТИНФОРМАТИВНЬШ

РЕФЕРАТ«ТЕЛЕГРАФНОГОСТИЛЯ»

РЕФЕРАТУКАЗАТЕЛЬНЫЙ

РЕФЕРИРОВАНИЕ

а АННОТАЦИЯ

...

где в качестве буквенных обозначений выступают следующие:

с — термины-синонимы;

в — термины, подчиняющие заглавный термин, т.е. выше по иерархии;

н — термины, подчиненные заглавному, т. е. ниже по иерар­хии;

а — термины, ассоциированные с заглавным термином.

* ГОСТ 18383-73. Тезаурус информационно-поисковый. Общие положения. Фор­ма представления.

** Пример позаимствован из работы: Соколов А.В.Информационно-поисковые системы: Учеб. пособие для вузов/Под ред. А. Б. Рябова.—М.: Радио и связь, 1981.

Еще одной особенностью тезаурусовявляется применяе­мая на практикевозможность расширения словарной базы но­выми ключевыми терминами,появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане раз­личаютбазовые и рабочие тезаурусы.Базовые тезаурусы выс­тупают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезау­русы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появле­ния в документах новых или специфичных терминов (так на­зываемые профессионализмы, иногда жаргонные термины и т. д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемыйведе­нием тезауруса.