- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
2.6 Повний набір тегів
Дослідивши іменники за допомогою наступної програми, яка знаходить всі теги з початковими літерами NNі для кожного тега вибирає декілька прикладів, бачимо що використовується велика кількість тегів, якими маркуються іменники. Найбільш важливі з них:$- присвійний іменник,S- множина,P– власне ім’я. Додатково також вказується-NCцитати,-HLзаголовки (слова з великої літери) та-TLзвання. Ця інформація міститься в тегах повного, не спрощеного, набору тегів, якими промарковані слова в корпусі Brown.
| ||
| ||
|
2.7 Дослідження морфологічно розміченого корпусу
Морфологічно розмічені корпуси можна використовувати для здійснення різноманітних досліджень.
Наприклад, якщо вивчати слово oftenто потрібно знати яким чином воно використовується тексті. Доволі просто знайти слова , які в тексті зустрічаються післяoften:
|
Використовуючи метод tagged_words()можна дізнатися до якої частини мови належать ці слова:
|
Найчастіше після oftenзустрічаються дієслова. Іменники ніколи не зустрічаються на цій позиції (принаймі в цьому корпусі).
Для аналізу ширшого контексту потрібно знаходити слова , які відповідають деякій послідовності тегів та слів (наприклад "<Verb> to <Verb>"). Для вирішення цієї задачі потрібно спочатку в кожному реченні виділити послідовності з трьох слів#1, і перевірити ці слова на відповідність до заданої умови#2. Якщо умова задовольняється то послідовність слів виводиться на екран#3.
| ||||
| ||||
|
Деякі слова в корпусі маркуються різними тегами, ці слова є неоднозначні. Знайшовши такі слова та проаналізувавши їх вживання в тексті можна зрозуміти особливості їх морфологічного аналізу.
|
Виконати самостійно. Використовуючи nltk.app.concordance() дослідити контексти вживання слів з попереднього прикладу. Приклади пошукових запитів: near – повний конкорданс для даного слова, near/ADJ – частина конкордансу якщо слово прикметник, near N – випадки вживання іменників після слова.
Практична робота №3. Використаня типу даних - словник в Python
Промарковані слова представляються у вигляді(word, tag),де слово асоціюється з тегом, який відповідає певним морфологічним характеристикам. Автоматичний морфологічний аналіз можна розглядати , як задачу пошуку відповідного тега для слова. Найпростіший спосіб збереження та обробки таких відповідностей (відображень) в Python це використання такого типу даних, як словник.