- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
3.1 Порівняння проіндексованих списків та словників
Стрічки і списки - простий метод організації даних. Звичайно, вони відображають відповідність між значеннями і цілими. Можна переглянути стрічку використовуючи індекси символів і отримати окремі символи. Також можна переглядати списки слів використовуючи цілі значення і отримуючи одну із стрічок . Ці випадки зображені на рисунку (Рис.1).
Рис.1 Відповідність між значеннями і індексами в стрічках і списках .
При написанні програм потрібні більш гнучкі методи організації і доступу до даних. Розглянемо приклади з рис.2.
Рис.2 Приклади організації даних.
У випадку телефонної книжки, її вміст переглядається, використовуючи «ім’я». Коли ми набираємо ім’я домену у веб-броузері, комп’ютер переглядає його і повертає ipадресу. Частотний список також переглядає слово і знаходить його частоту в наборі текстів. У всіх цих випадках, ми скоріше шукаємо відповідність між «іменами» і числами, а не навпаки, як у послідовностях. В загальному, необхідно встановлювати відповідності між довільними типами інформації . У наступній таблиці 4 наведені лінгвістичні об’єкти і яких відповідностей вони потребують.
Таблиця 4
Linguistic Object |
Maps From |
Maps To |
Document Index |
Word |
List of pages (where word is found) |
Thesaurus |
Word sense |
List of synonyms |
Dictionary |
Headword |
Entry (part-of-speech, sense definitions, etymology) |
Comparative Wordlist |
Gloss term |
Cognates (list of words, one per language) |
Morph Analyzer |
Surface form |
Morphological analysis (list of component morphemes) |
3.2 Тип даних словник в Python
Pythonпідтримує такий тип даних, як словник, і він використовується для встановлення відповідності (відображення) між довільними типами даних. Визначимоposяк пустий словник і додамо до нього значення, які встановлюють частиномовну приналежність певних слів . Значення додаються із використанням квадратних дужок:
|
Говорять, що частина мовиcolorless- прикметник#1, або більш точно, що ключу'colorless'встановлено значення'ADJ'у словникуpos. Значення словникаpos,при перегляді#2, це пари ключ-значення. Для перегляду значення вposвикористовуємо індексування, але в квадратних дужках записується ключ значення, яке потрібно отримати:
|
У випадку доступу до значення ключ, якого відсутній - отримуємо помилку.
|
На відміну від стрічки і списку, де використовується len()для визначення цілого значення, яке відповідає максимальному індексу, аналогічно поступити зі словниками не можна. У випадку не великих словників вміст словника можна переглянути просто ввівши його імя. В результаті на екран буде виведено пари ключ-значення (#2з попереднього прикладу). Порядок цих пар відрізняється від порядку, в якому формувався словник. Це відбулося тому, що словник не є послідовністю, а є відповідністю. Ключі у відповідності не є впорядковані. Для знаходження ключів словник можна конвертувати у список#1— або використовувати словник як параметрsorted()#2, або обробляючи словник вforциклі#3.
|
Здійснюючи ітерації по всіх ключах словника в forциклі, можна вивести на екран його вміст у вигляді списків:
|
Використовуючи методи keys(),values(), items() властиві словникам можна отримувати доступ до ключів, значень, та до пар ключ:значення як до окремих списків. Можна відсортувати кортежі#1, за їх першими елементами (якщо перші елементи однакові то сортування відбувається за другими елементами).
|
Потрібно зазначити що ключі є унікальними. Наступний приклад це демонструє:
|
Спочатку ключу pos['sleep'] відповідає значення ‘n’ а потім воно міняється на ‘v’. Коли потрібно елементу словника присвоїти декілька значень справедливим буде наступний виразpos['sleep'] = ['N', 'V'].