Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5 КТ.doc
Скачиваний:
52
Добавлен:
08.02.2016
Размер:
6.6 Mб
Скачать

Тема 5.

ПРАВОВІ ІНФОРМАЦІЙНО-ПОШУКОВІ СИСТЕМИ

5.1. Концепція організації інформаційно-пошукових систем

Вирішення великої кількості правових задач залежить від якості результатів інформаційного пошуку — вибору з усієї відомої сукупності документів, текстів, відомостей, фактів і даних тих елементів, які відповідають інформаційним потребам. За умов великих обсягів інформації, серед якої здійснюється пошук, стає доцільним і навіть необхідним використання інформаційно-пошукових систем.

Інформаційно-пошукова система (ІПС) — це сукупність методів і засобів, призначених для зберігання та пошуку документів, відомостей про них чи певних фактів.

За тематикою виділяють галузеві ІПС, полі- та вузькотематичні. Залежно від типу інформації, що зберігається, розрізняють докумен­тальні системи, в яких об’єктом зберігання і пошуку є документ, та фактографічні, в яких зберігаються і розшукуються окремі дані, що характеризують деякі факти — події, процеси, явища.

За режимом функціонування виокремлюють:

  • системи з вибірковим пошуком — ІПС, в яких пошук виконується за постійним набором запитів для певного контингенту користувачів у масиві поточних надходжень документів чи даних, які надходять через певні інтервали часу. При цьому змінюється вміст системи, а запити залишаються без змін;

  • системи з ретроспективним пошуком, які обслуговують разові запити, що змінюються залежно від інформаційних потреб користувачів, у нагромадженому інформаційному фонді зі значною хронологічною глибиною.

Найефективнішим способом пошуку інформації є перегляд кожного документа і визначення його відповідності інформаційному запиту — тексту певною мовою, що відбиває деяку інформаційну потребу. Проте такий пошук є дуже тривалим. Тому насправді пошук здійснюється не за текстами документів, а за їх стислими описами інформаційно-пошуковою мовою — пошуковими образами. Процедура визначення пошукового образу документа (ПОД) називається індексуванням. Найбільш популярною моделлю створення ПОД є векторна модель. За цією моделлю кожному документові приписується вектор розмірності, що дорівнює кількості термінів, якими можна скористатися при пошуку. Елементами вектора є деякі числа (ваги), які визначають адекватність даного терміна документа (у найпростішому випадку — 1, якщо термін присутній, 0 — якщо термін у документі не трапляється).

Взаємодія користувача з ІПС охоплює такі операції:

  • введення в систему пошукових образів документів і самих документів;

  • зберігання інформації в системі;

  • формування запитів, опис і введення у систему пошукових розпоряджень — інформаційних запитів, викладених інформаційно-пошуковою мовою і доповнених допоміжною інформацією;

  • пошук — порівняння пошукових образів документів з пошуковими розпорядженнями;

  • прийняття рішення про видачу знайденої інформації залежно від критерію пошуку, визначеного користувачем;

  • видача інформації, що відповідає інформаційному запиту.

Функціонування ІПС можна оцінити за кількома критеріями:

  • повнота — здатність відшукувати та видавати релевантні документи, тобто такі, що відповідають запитові користувача;

  • точність — здатність відсіювати та затримувати нерелевантні документи;

  • економічна ефективність — окупність витрат на функціонування системи вигодами від її використання, серед яких важливе значення мають підвищення оперативності та зменшення трудомісткості пошуку.

Якість роботи ІПС — релевантність і партинентність

Релевантність — характеристика ступеня відповідності змісту документа, знайденого в результаті інформаційного пошуку, змісту інформаційного запиту. Очевидно, що релевантність відрізняється від пертинентності — характеристики ступеня відповідності змісту документа, знайденого в результаті інформаційного пошуку, інформаційній потребі, вираженій в інформаційному запиті.

ІПС може видати документ навіть якщо його ПОД не повністю відповідає пошуковому розпорядженню. У цьому разі результатом пошуку може бути не один якийсь документ, а їх множина, з якої користувач має вибрати ті, які відповідають його потребам найбільше. Це залежить від критерію пошуку, який може змінюватись за бажанням користувача. А загалом ефективність взаємодії користувача з ІПС та робота самої ІПС прямо залежить від якості інформаційно-пошукової мови (ІПМ) — спеціалізованої штучної мови, призначеної для опису центральних тем і формаль­них характеристик документів, а також опису інформаційних запитів і наступного виконання пошуку. З цією метою не може бути використана жодна з природних мов через їх неструктурованість, велику кількість граматичних винятків, неоднозначність та надмірність.

Основні елементи ІПМ такі:

  1. алфавіт — система графічних знаків, що використовуються для утворення слів і словосполучень;

  2. лексика — сукупність слів, що використовуються в мові;

  3. граматика — сукупність засобів та правил побудови вислов­лювань;

  4. парадигматичні (базові, аналітичні) відношення — відношення, які не залежать від контексту використання і спричинені не мовними, а логічними зв’язками. Наприклад, поняття «магнітний диск», «магнітна стрічка», «лазерний диск», «паперовий документ» утворюють тематичну групу «носії інформації», усередині якої можна виділити лексико-семантичні парадигми «паперові носії інформації» та «машинні носії»;

  5. правила побудови індексів та їх ідентифікації.

Розрізняють ІПМ таких видів:

  • передкоординатні (класифікаційного типу), в основу яких покладено систематичну класифікацію понять, що відбивають певні парадигматичні відношення. Класифікація може бути ієрар­хічною, фасетною, алфавітно-предметною;

  • посткоординатні, в основу яких покладено принцип координатного індексування — зміст документів і запитів вира- жається набором ключових слів, вибраних з індексованого тексту.

Ключові слова — це слова, найбільш характерні для даного тексту або тематики. Пошук і вибір ключових слів є окремою складною проблемою, яка вимагає творчого підходу. Для правової ІПС таку роботу може виконати тільки висококваліфікований юрист широкого профілю. Але навіть повне визначення ключових слів недостатньо для організації ефективного пошуку, оскільки:

  • ключові слова можуть мати різні варіанти написання та синоніми. Тоді документ, індексований за допомогою певного терміна, не буде виданий у відповідь на запит, складений з використанням терміна-синоніму;

  • ключове слово може мати різні значення (проблема омонімічності). Запит, в якому присутні омоніми, призведе до видачі документів, які не стосуються вибраної користувачем теми;

  • набір ключових слів не визначає родово-видові відношення між поняттями, а це звужує пошук.

З метою вирішення названих проблем для різноманітних тематик розробляються тезауруси — структуровані списки ключових слів, призначених для однозначного подання концептуального змісту документів і запитів. Тезаурус упорядковується так, щоб встановити прозорі еквівалентні, гомографічні, ієрархічні та асоціативні зв’язки між термінами.

Тезаурус містить:

  1. дескриптори — слова та словосполучення, які однозначно позначають поняття з теми тезаурусу;

  2. недескриптори — слова та словосполучення, які у природ­ній мові позначають ті самі поняття, що і дескриптори, або еквівалентні поняття;

  3. семантичні зв’язки (зв’язки на основі значень) між дес­крипторами і не-дескрипторами, а також між самими дескрип­торами.

Проблема омонімічності у тезаурусі вирішується тим, що кожне ключове слово ставиться у контекст, який робить це слово однозначним. Для вирішення проблеми синонімічності один із синонімів обирається, більш-менш довільно, як дес­криптор, а синонімам надається статус не-дескрипторів. Тіль­ки дескриптори можуть використовуватись при індексуванні та формулюванні запитів, при цьому не-дескритори допомагають користувачам вибрати дескриптор. Якщо встановлено відповід­ність між ідентичними поняттями в різних мовах, користувач багатомовного тезауруса може формулювати запити рідною мовою і шукати документи незалежно від мови, якою вони були індексовані.

Прикладом спеціалізованого тезауруса є багатомовний політематичний інформаційно-пошуковий тезаурус EUROVOC, визнаний як міжнародний термінологічний стандарт. Він реалізований відповідно до стандартів ISO 2788-1986 «Guidelines for the establishment and development of monolingual thesauri» («Керівництво з введення і розробки одномовних тезаурусів») та ISO 5964-1985 «Guidelines for the establishment and development of multilingual thesauri» («Керівництво з введення і розробки багатомовних тезаурусів»).

EUROVOC використовується для індексування та пошуку даних в ІПС офіційних документів органів, установ, інститутів і деяких держав — членів ЄС. Цей тезаурус охоплює всі теми, важли­ві для діяльності європейських інституцій: політика, міжнародні відносини, європейські співтовариства, законодавство, економіка, торгівля, фінанси, соціальні питання, освіта і комунікації, наука, бізнес і конкуренція, зайнятість та умови праці, транспорт, навколишнє середовище, сільське господарство, лісництво і рибна ловля, виробництво, технології та дослідження, енергія, промисловість, географія, міжнародні організації. Деякі теми у EUROVOC розроблені детальніше порівняно з іншими, оскільки вони важливіші для роботи ЄС. Наприклад, тезаурус містить назви областей кожної держави — члена ЄС, а назви регіонів інших країн відсутні.

Слід відзначити, що однією з характеристик політематичних тезаурусів взагалі і EUROVOC зокрема є досить довільне групування дескрипторів за темами. Фактично, деякі дескриптори можуть торкатися двох або більше тем, але для спрощення управління тезаурусом та обмеження його розміру прийнято уникати поліієрархії. Іншими словами, дескриптор включають не до всіх тем, до яких він може належати, а тільки до тієї теми, яка здається найбільш природною для користувачів.

EUROVOC реалізований офіційними мовами Європейського Союзу. Усі мови реалізації мають однаковий статус — кожен дескриптор в одній мові обов’язково має відповідний дес­криптор в іншій мові. Однак, між не-дескрипторами у різних мовах не існує еквівалентності, оскільки багатство мов різниться для різних тем.

EUROVOC має дворівневу ієрархію. Верхній рівень складають теми, які мають двохсимвольні коди, наприклад, 12 — «LAW», «Право». Нижній рівень організовано як сукупність мікротезаурусів, позначених чотирма цифрами, перші дві з яких визначають тему, до якої належить цей мікротезаурус: 1216 — «сriminal law» («кримінальне право»). Нумерація тем і мікротезаурусів єдина для всіх мов.

На екрані EUROVOC одночасно представлені дві панелі, які ілюструють вибраний рівень ієрархії: логотип EUROVOC і список тем і мікротезаурусів, або список мікротезаурусів і зміст вибраного мікротезауруса (рис. 5.1), або мікротезаурус і його окремий дескриптор.

Рис. 5.1. Вікно тезауруса EUROVOC:

на лівій панелі — список мікротезаурусів за темами «Європейські співтовариства», «Право», «Економікс», на правій — вміст мікротезауруса «Джерела та галузі права»

На рівні окремих дескрипторів і не-дескрипторів структура EUROVOC залежить від семантичних відношень, встановлених між ними. Передбачено такі їх типи:

  1. «SN» (Scope Note, примітка щодо можливих значень) — визначення, що уточнює значення дескриптора, або вказівка, як використовувати дескриптор при індексуванні документа та формулюванні запитів;

  2. «MT» (Microthesaurus, мікротезаурус) — посилання на мікротезаурус, до якого належить дескриптор (недескриптор);

  3. «UF» (Used For, використаний для) та «USE» (використовує) — зв’язок еквівалентності між дескриптором і не-дескрип­тором (-ами), що він їх подає (UF), або між недескриптором і дес­криптором, який замінює цей недескриптор (USE). Фактично зв’язок еквівалентності охоплює кілька типів зв’язків:

  • повної синонімічності або ідентичного значення;

  • близької синонімічності або схожого значення;

  • антонімії або протилежного значення;

  • включення, коли дескриптор охоплює одне або більше понять, яким надано статус недескрипторів, оскільки вони рідко ви­користовуються;

  1. ієрархічні зв’язки між дескрипторами:

  • «BT» (Broader Term, ширший термін) — між певним дескриптором і родовим (більш узагальненим) дескриптором — зазначається з числом, яке показує кількість кроків за ієрархією між ними. При цьому дескриптори, для яких не існує ширших тер­мінів, називаються термінами верхнього рівня. Деякі дескриптори з тем 72 «Географія» та 76 «Міжнародні організації» є поліієрархічними, іншими словами, для них існує більше одного ширшого терміна на наступному вищому рівні;

  • «NT» (Narrower Term, більш вузький термін) — між родовим і видовим (більш вузьким) дескриптором — зазначається з числом, яке показує кількість кроків за ієрархією між ними;

  1. «RT» (Related Term, взаємозв’язані терміни) — асоціативні зв’язки між дескрипторами. Асоціативний зв’язок показує особі, що проводить індексування, або користувачеві, що існує інший, настільки ж або навіть більш релевантний дескриптор. Передбачено асоціативні зв’язки таких типів: причини та наслідку; органу або інструменту; ієрархії (оскільки, як сказано вище, поліієрар­хія не припускається, втрачені ієрархічні зв’язки можна замінити асоціативними); супроводження; послідовності у часі або просторі; входження до складу; характерної риси; об’єкта дії або процесу; розташування; подібності (в разі, коли два майже синонімічні терміни включено як дескриптори); антонімії.

Асоціативні зв’язки мають такі істотні характеристики:

  • вони симетричні;

  • вони несумісні з ієрархічними зв’язками — якщо два дескриптори пов’язані ієрархією, між ними не можна встановити асоціативний зв’язок і навпаки;

  • між дескрипторами, які мають спільний термін верхнього рівня, не може бути встановлено асоціативні зв’язки.

Навігація за тезаурусом здійснюється за допомогою посилань. Дескриптор можна вибрати, набравши на клавіатурі першу літеру його назви дескриптора. Також реалізовані повнотекстовий пошук і пошук за ключовими словами.