Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
S-13.DOC
Скачиваний:
2
Добавлен:
10.11.2019
Размер:
542.72 Кб
Скачать

13.2. Iнформаційно-пошукова мова та її використання в аiпс

Кожна IПС містить певний набір семантичних засобів (куди належить, зокрема, інформаційно-пошукова мова), методи індек­су­вання документів та запитів, методи пошуку. Основу семантичних засобів становить IПМ. Iнформаційно-пошукова мова — це спеціалізована штучна мова, яка призначена для опису центральних тем чи предметів і формальних характеристик документів, а також для опису інформаційних запитів і наступного виконання пошуку.

Iноді в АIПС одну мову використовують для індексації документів, а іншу — для індексації інформаційних запитів.

До IПМ ставиться цілий ряд вимог:

IПМ повинна мати достатній набір лексико-граматичних засобів для точного вираження центральних тем або змісту будь-якого тексту (документа) і теми довільного інформаційного запиту;

IПМ має бути однозначною, тобто кожний запис нею по­винен мати лише одне семантичне тлумачення;

IПМ має бути зручною для порівняння та повного чи часткового порівняння ПОБ і ПР;

IПМ має бути компактною, мати невелику вартість та бути відкритою для можливого розширення та внесення змін.

Жодна з природних мов не може бути використана як IПМ через недостатню структуризацію, велику кількість граматичних ви­нятків, неоднозначність та велику надлишковість природної мови. Наприклад, у російській мові надлишковість досягає 75—85 %.

В IПМ не допускається наявність характерних для природної мови синонімів та омонімів, оскільки вони спричинюються до семантичної неоднозначності мови.

Основними елементами IПМ є алфавіт, лексика, граматика, парадигматичні (базові) відношення, правила побудови індексів та їх ідентифікація.

Алфавітом називається система графічних знаків, що використовуються для фіксації слів і словосполучень мови.

Лексика мови — це сукупність слів, що використовуються в ній.

Граматика — це сукупність діючих засобів та правил побудови висловлювань засобами цієї мови.

Відношення між словами, які не залежать від контексту, де вони використовуються і спричинені не мовними, а логічними зв’язками, називаються парадигматичними відношеннями. Ці від­но­шення називаються ще аналітичними, або базовими. Завдяки предметно-логічним зв’язкам слова на основі тієї чи іншої семантичної ознаки можуть об’єднуватися в лексико-семантичні групи, які називаються парадигмами. Наприклад, слова «магнітна стріч­ка», «магнітний диск», «перфокартка», «перфострічка», «гнучка маг­нітна дискета» утворюють тематичну групу «носії інформації». У середині цієї групи перелічені слова можна об’єднати в лек­сико-семантичні парадигми «носії паперові», «носії магнітні».

Iншим типом відношень, що пов’язують слова будь-якої мови, є такі лінійні відношення, які безпосередньо установлюються при об’єднанні слів у словосполучення та фрази. Такі відношення називаються синтагматичними. Одним із найпростіших видів синтагматичних відношень є таке, коли до того чи іншого поняття приєднується ще одне, яке пояснює перше і вказує на те, що воно є власним ім’ям, визначенням чи певним видом діяльності. Так, наприклад, якщо документ стосується винахідника і його винаходу, то поняття, які стосуються винаходу та винахідника, відмі­чаються окремо, щоб уникнути плутанини при виконанні пошуку, наприклад, «дізель» (винахідник) і «дизель» (двигун).

Iз щойно сказаного можна зробити такий висновок: парадигматика спирається на певну сукупність (перелік) пов’язаних між собою мовних одиниць, а синтагматика потребує певних правил об’єднання цих одиниць у словосполучення. Тому парадигматику мови можна з певним припущенням порівнювати з її лексикою, а синтагматику мови — з її граматикою.

При розробці IПМ слід ураховувати таке:

специфіку галузі чи предмета, для якого ця мова розробляється;

особливості текстів (документів), які утворюють пошуковий масив;

характер інформаційних потреб, для задоволення яких створюється IПС.

Доцільність використання тієї чи іншої мови багато в чому залежить від призначення інформаційної системи, рівня її оснащення технічними засобами та рівня автоматизації. Для зберігання документів у бібліотеках і технічних архівах використовують, як правило, мови, якими поширюються традиційні бібліо­течно-бібліографічні класифікації. Словниковий склад цих мов зада­ється у вигляді фіксованого списку слів і словосполучень. Ці мо­ви належать до класифікаційного типу, причому розглядаються такі системи класифікації: ієрархічна, алфавітно-предметна, фасетна.

З огляду на ріст інформаційних потоків та інформаційних потреб перелічені мови класифікаційного типу не задовольняють вимог сучасних інформаційних систем. Адже мова цього типу має дуже обмежений словниковий запас, поповнювати який дуже нелегко, а тому мови цієї групи використовуються в дуже вузько­спеціалізованих системах. Більш поширені інформаційно-по­шу­кові мови дескрипторного типу. Ця мова характеризується тим, що її словник складається із окремих ізольованих слів та словосполучень, розміщених в алфавітному порядку. Дескрипторна мова грунтується на методі координатного індексування, який дає змо­гу виражати зміст документа шляхом встановлення відпо­відності між текстом цього документа і деякою множиною ключових слів чи дескрипторів. Тому дескрипторні мови називають посткоординованими, а в противагу їм традиційні бібліотечно-бібліографічні мови належать до передкоординатних. До посткоординатних мов належать дескрипторні мови, а також семантичні коди та синтагматична мова. Загальна класифікація IПМ має такий вигляд:

1. Передкоординатні IПМ.

1.1. Iєрархічна класифікація.

1.2. Алфавітно-предметна класифікація.

1.3. Фасетна класифікація.

2. Посткоординатні IПМ.

2.1. Дескрипторні мови.

2.2. Семантичні коди.

2.3. Синтагматичні мови.

Розглянемо докладніше дескрипторну мову.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]