- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
Практична робота №6. Transformation-Based Tagging
Морфологічний аналізатор Брілла (Brill tagger) або TBL (Transfomation-Based Learning) аналізатор розроблений на основі методів машинного навчання. Такий підхід передбачає автоматичнее визначення правил маркування граматичних класів слов на основі попередньр розміченних корпусів і потім застосування цих правил для морфологічного аналузу.
При навчанні данного алгоритму спочатку всім словам разміченого корпуса присвоюються (використовуючи будь-який імовірнісний аналізатор) найбільш імовірні теги. Далі досліджуються різноманітні трансформації (перетворення) тегів, що дозволяє побудувати продукційні правила, які максимально покращують точність аналізу на основі тестового промаркованого корпуса. Результат навчання – впорядкований список правил, який може використовуватися в подальшому для морфологічного аналізу.
Розглянемо морфологічний аналіз згідно запропонованого підходу наступного речення:
(1) |
|
The President said he will ask Congress to increase grants to states for vocational rehabilitation |
Рис 3. ілюструє процес аналізу. Спочатку We will examine the operation of two rules: (a) Replace NN with VB when the previous word is TO; (b) Replace TO with IN when the next tag is NNS.
Table 5.6 illustrates this process, first tagging with the unigram tagger, then applying the rules to fix the errors.
Етапи виконання морфологічного аналізу на основі Brill аналізатора.
Phrase |
to |
increase |
grants |
to |
states |
for |
vocational |
rehabilitation |
Unigram |
TO |
NN |
NNS |
TO |
NNS |
IN |
JJ |
NN |
Rule 1 |
|
VB |
|
|
|
|
|
|
Rule 2 |
|
|
|
IN |
|
|
|
|
Output |
TO |
VB |
NNS |
IN |
NNS |
IN |
JJ |
NN |
Gold |
TO |
VB |
NNS |
IN |
NNS |
IN |
JJ |
NN |
In this table we see two rules. All such rules are generated from a template of the following form: "replace T1 with T2 in the context C". Typical contexts are the identity or the tag of the preceding or following word, or the appearance of a specific tag within 2-3 words of the current word. During its training phase, the tagger guesses values for T1, T2 and C, to create thousands of candidate rules. Each rule is scored according to its net benefit: the number of incorrect tags that it corrects, less the number of correct tags it incorrectly modifies.
Наступний приклад демонструє реалізацію Brill аналізатора вNLTK.
| ||
|