- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
2.3 Спрощений набір тегів для маркування морфологічних характеристик
Для роботи з корпусами, які відрізняються наборами тегів розроблено спрощений набір тегів для маркування морфологічних характеристик (Таблиця 1).
Таблиця 2.1:
Спрощений набір тегів для маркування морфологічних характеристик
Тег |
Значення |
Приклади |
ADJ |
adjective |
new, good, high, special, big, local |
ADV |
adverb |
really, already, still, early, now |
CNJ |
conjunction |
and, or, but, if, while, although |
DET |
determiner |
the, a, some, most, every, no |
EX |
existential |
there, there's |
FW |
foreign word |
dolce, ersatz, esprit, quo, maitre |
MOD |
modal verb |
will, can, would, may, must, should |
N |
noun |
year, home, costs, time, education |
NP |
proper noun |
Alison, Africa, April, Washington |
NUM |
number |
twenty-four, fourth, 1991, 14:24 |
PRO |
pronoun |
he, their, her, its, my, I, us |
P |
preposition |
on, of, at, with, by, into, under |
TO |
the word to |
to |
UH |
interjection |
ah, bang, ha, whee, hmpf, oops |
V |
verb |
is, has, get, do, make, see, run |
VD |
past tense |
said, took, told, made, asked |
VG |
present participle |
making, going, playing, working |
VN |
past participle |
given, taken, begun, sung |
WH |
whdeterminer |
who, which, when, what, where, how |
Використовуючи спрощений набір тегів отримаємо наступний вигляд фрагменту Brown:
|
Виконати самостійно. Побудувати графічне представлення частотного розподілу.tag_fd.plot(cumulative=True). Який відсоток слів маркується першими п’ятьма тегами з Таблиці 2.1.
Використовуючи графічне застосування nltk.app.concordance()можна здійснювати побудову конкордансів з врахуванням морфологічних характеристик слів. При побудові пошукових запитів можна використовувати різні комбінації слів та тегів, наприкладN N N N,hit/VD,hit/VN, чиthe ADJ man.
2.4 Іменники
Іменники в основному відносяться до людини, місця, речей та понять (woman, Scotland, book, intelligence). Іменники зустрічаються після артиклів і прикметників і можуть бути як об’єктом так і суб’єктом дієслова, як показано в таблиці 2.
Таблиця 2.
Word |
After a determiner |
Subject of the verb |
woman |
thewoman who I saw yesterday ... |
the woman satdown |
Scotland |
theScotland I remember as a child ... |
Scotland hasfive million people |
book |
thebook I bought yesterday ... |
this book recountsthe colonization of Australia |
intelligence |
theintelligence displayed by the child ... |
Mary's intelligence impressedher teachers |
Іменники можуть класифікуватися, як загальні іменники та власні імена. Власні іменники ідентифікують специфічних (окремий конкретний предмет) людей або об’єкти (Moses, Scotland). До загальних належать всі інші іменники. Інший поділ іменників, це іменники, які можна полічити (dog, one dog, two dog, не можуть вживатися зі словомmuch) та матеріально-речовинні і збірні іменники, які не мають множини і не вживаються разом з числівниками (sand, two sandможуть вживатися зі словомmuch).
Для перевірки твердження, що іменники зустрічаються після означальних слів і прикметників потрібно здійснити аналіз морфологічно розміченого тексту та визначити до яких лексичних категорій належать слова, які передують іменникам. Спочатку створюється список біграмів, елементами якого є пари слів та тегів, наприклад , (('The', 'DET'), ('Fulton', 'NP'))and(('Fulton', 'NP'), ('County', 'N')). Далі будується частотний розподілFreqDistдля тегів з цих біграмів.
|
Результати аналізу підтверджують твердження.