Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
S-13.DOC
Скачиваний:
2
Добавлен:
10.11.2019
Размер:
542.72 Кб
Скачать

13.4. Iнформаційно-пошуковий тезаурус

З погляду виконання якісного пошуку інформації недостатньо провести лексикографічний контроль та побудувати список дескрипторів і ключових слів. Необхідно створити спеціальний нормативний словник, в якому лексичні одиниці були б взаємопов’язані і визначені. Крім внутрішніх текстових взаємозв’язків такий словник — його називають тезаурусом — має містити позатекстові зв’язки. Тезаурус у перекладі з грецької означає клад, багатство, запас. Отже, множина дескрипторів і ключових слів з їх відношеннями організують тезаурус.

Тезаурус є зібранням лексики штучної мови.

Iнформаційно-пошуковий тезаурус (IПТ) виник насамперед як допоміжний апарат IПС, що будується у вигляді списку тер­мінів і зв’язків між ними.

Iнформаційно-пошуковий тезаурус дає змогу перекладати ос­новний зміст документів та інформаційних запитів з природної мови інформаційно-пошуковою.

Для виконання цієї операції в тезаурусі мають відбиватися парадигматичні відношення, які існують між термінами IПМ. Парадигматичні відношення — це позатекстові відношення, які відображають залежності між процесами чи об’єктами реальної предметної області. Парадигматичні відношення — це відношення типу рід—вид, частина—ціле, причина—наслідок і т.ін. Тобто пара­дигматичні відношення не залежать від контексту, в якому використовуються ті чи інші слова, вони зумовлені не мовними, а логічними зв’язками, які існують в реальній дійсності.

Основні етапи побудови інформаційно-пошукового тезаурусу такі:

1. Добір лексичних одиниць тексту, тобто ключових слів, які виражають основний зміст тексту чи його головну тему.

2. Групування лексичних одиниць тексту в класи умовної ек­вівалентності, тобто аналіз їх щодо синонімії та вибір се­ман­тичних домінант (дескрипторів).

3. Установлення парадигматичних відношень між лексичними одиницями тексту.

4. Оформлення IПТ.

Iснують ручний і автоматизований способи встановлення парадигматичних відношень між ключовими словами. При встановленні цих залежностей визначають дескрипторні статті, або гнізда. Дескрипторна стаття, або гніздо, тезаурусу — це сукупність головного дескриптора та дескрипторів, які пов’язані з ним позатекстовими зв’язками.

У разі ручного способу аналізують словник ключових слів. Для цього кожну лексичну одиницю тексту послідовно крок за кроком порівнюють з усіма іншими словами, щоб виявити зв’язки даного терміна з іншими. Таку роботу доручають висококва­лі­фі­кованому спеціалістові, який добре обізнаний з термінологією тієї предметної області, для якої розробляється IПТ. Проте виконання цієї роботи досить трудомістке й складне та потребує дуже багато часу.

У разі автоматизованого способу дескрипторні статті, або гнізда, визначають так. В основу методики побудови гнізд покладено принцип установлення змістової єдності пар елементів словника статистичним методом. Метод базується на гіпотезі про те, що ті лексичні одиниці тексту, для яких частота попарного використання в межах групи вища за деяку порогову величину, утворюють класи близьких за значенням термінів.

Для визначення коефіцієнтів сумісності може бути використана наступна формула:

С = ,

де С — коефіцієнт сумісності пар ключових слів; К — число документів, у текстах яких зустрічаються обидві одиниці тексту; М — число одиниць, в яких зустрічається хоча б одна з лексичних одиниць.

Здобуті групи взаємопов’язаних дескрипторів зазначеним способом аналізує спеціаліст, і лише після цього формується дескрипторна стаття. Статистичним методом можна тільки встановити наявність зв’язку, тип зв’язку визначає спеціаліст.

Формалізовано дескрипторну статтю можна записати так:

ДС = Д (Мс, Мв, Мн, Ма),

де Д — основний дескриптор; Мс — множина ключових слів, що належать до класу умовної еквівалентності дескриптора; Мв — множина дескрипторів, які безпосередньо підпорядковують ос­новний дескриптор; Мн — множина дескрипторів, які підпорядковані основному дескриптору; Ма — множина дескрипторів, які пов’язані з основними слабкими зв’язками (асоціації).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]