- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
Зміст звіту по практичним роботам №1-№3
5.1 Титульний аркуш.
5.2 Мета роботи.
5.3 Короткі теоретичні відомості.
5.4 Тексти програм на мові Python.
5.5 Висновок.
ЛІТЕРАТУРА
Steven Bird, Ewan Klein, Edward Loper Introduction to Natural Language Processing. 2001-2007 University of Pennsylvania.
Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.ГПетрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c.
Сузи Р. А. Язык программирования Python.- 206с.
David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.
Інтернет посилання
http://www.nltk.org
http://python.org
Короткі теоретичні відомості
Практична робота №4. Розробка автоматичного морфологічного аналізатора
При виконанні цієї лабораторної роботи буде необхідність використовувати морфологічно розмічені корпуси текстів. При роботі з корпусом Brown доступ до речень з копусу слова в яких промарковані тегами морфологічних характеристик можна отримати наступним чином.
|
Автоматичний морфологічний аналізатор по замовчуванню
Найпростіший можливий морфологічний аналізатор автоматично призначає той самий тег кожному слову. Це доволі дивний підхід, але він дозволяє зробити важливий початковий крок по створенню аналізатора. Для одержання максимально якісного результату кожне слово маркується найбільш уживаним тегом. Для визначення такого тега використаємо просту програму:
|
Тепер можна створити аналізатор default_tagger, який позначить всі слова якNN.
|
Зауважимо, що аналізатор це генератор тегів слів. Роздрукувати його безпосередньо не можна, але можна перетворити у список і тоді роздрукувати, як показано у попередньому прикладі. Генератор ми можемо використати тільки один раз, але якщо результати його роботи зберегти у списку то їх можна використовувати і в подальшому.
Наведений метод маркування є дуже простий, але результат його роботи дуже поганий. Тільки приблизно одна восьма слів буде промаркована правильно в типовому корпусі.:
|
Автоматичний морфологічний аналізатор на основі регулярних виразів
Аналізатор побудований на регулярних виразах встановлює відповідність тегів до слів на основі їх відповідності певним шаблонам. Наприклад можна передбачити, що кожне слово, яке закінчується на –edце єpast participleв дієсловах, а будь-яке слово, яке закінчується на‘sце є присвійний іменник. Подібні правила можна описати, як список регулярних виразів:
|
Потрібно звернути увагу на те, що при застосуванні такого шаблону відповідності будуть знайдені в порядку запису регулярних виразів. Тепер можна налаштувати аналізатор і використати його для аналізу деякого тексту.
|
Останній регулярний вираз «.*» вказує на те, що всі слова, які не відповідають попереднім регулярним виразам будуть промарковані, як іменники. Цей регулярний вираз еквівалентний до аналізатора позамовчуванню.