- •ДніпропетровсьКий університет імені альфреда нобеля Кафедра прикладної лінгвістики та методики навчання іноземних мов автоматичний морфологічний аналіз
- •Дніпропетровськ-2015
- •Короткі теоретичні відомості до робіт №1-№3 Практична робота № 1. Поняття автоматичного морфологічного аналізатора
- •Практична робота №2. Морфологічно розмічені корпуси
- •2.1 Представлення промаркованих слів
- •2.2 Доступ до морфологічно розміченого корпусу
- •2.3 Спрощений набір тегів для маркування морфологічних характеристик
- •2.4 Іменники
- •2.5 Дієслова
- •2.6 Повний набір тегів
- •2.7 Дослідження морфологічно розміченого корпусу
- •3.1 Порівняння проіндексованих списків та словників
- •3.2 Тип даних словник в Python
- •3.3 Визначення (створення) словників
- •3.4 Словники по замовчуванню
- •3.5 Проведення обчислень з використанням словника
- •3.6 Комплексні ключі та значення
- •3.7 Інвертування словника
- •Порядок виконання практичних робіт №1-№3
- •Зміст звіту по практичним роботам №1-№3
- •Інтернет посилання
- •Короткі теоретичні відомості
- •4.2.The Lookup Tagger Пошуковий морфологічний аналізатор
- •Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
- •5.1.Уніграм аналізатор
- •5.2. Розділення даних для тренування та тестування аналізаторів
- •5.3. Морфологічний аналіз на основі n-грамів
- •5.4. Поєднання (комбінування) аналізаторів
- •5.5. Морфологічний аналіз невідомих слів
- •5.6. Збереження результатів тренування аналізаторів
- •Практична робота №6. Transformation-Based Tagging
- •6.1. Категорії слів англійської мови
- •Порядок виконання робіт №5-№6.
- •Зміст звіту
- •Методичні вказівки
Практична робота №5. Використання n-грамів в автоматичному морфологічному аналізі
5.1.Уніграм аналізатор
Уніграм аналізатор (Unigramtaggers) реалізовує простий статистичний алгоритм маркування слів. Кожному слову (tokens) ставиться у відповідність тег, який є найбільш імовірний для цього слова. Наприклад, згідно цього алгоритму тегjjбуде поставлений у відповідність до кожного словаfrequentв тексті, оскільки це слово частіше використовується, як прикметник (afrequentword) і рідко, як дієслово (Ifrequentthislecture).
Перед використанням уніграм аналізатора для аналізу тексту потрібно провести його тренування (навчання) на розміченому корпусі текстів. Аналізатор використовує корпус для визначення тегів, які властиві кожному слову. В наступному прикладі, здійснюється ініціалізація і тренування аналізатора #1. При створенні (ініціалізації) аналізатора промарковані речення вказуються, як параметр аналізатора, що і забезпечує тренування аналізатора. Процес тренування полягає в перегляді тегів кожного зі слів і збереження найбільш імовірних тегів (тегів, які найчастіше зустрічаються з кожним зі слів) у словнику, який зберігається в аналізаторі. Далі застосовується даний аналізатор для попередньо визначеного тексту і проводиться аналіз точності роботи створеного аналізатора:
|
Уніграм аналізатор ставить тегNone всім словам, які не зустрічаються в текстах на основі яких тренувався аналізатор.
5.2. Розділення даних для тренування та тестування аналізаторів
Оскільки, для створення аналізатора необхідно здійснювати його тренування на певних даних, то тестувати аналізатор та оцінювати точність його роботи потрібно на інших даних. Для отримання реальної точності роботи аналізатора дані для тренування та тестування не повинні бути одними і тими ж, як в останньому прикладі. Оцінюючи точність аналізатора на даних, які використовувались для його тренування будуть отримані високі результати, які не відповідають дійсності. Пререважно дані діляться у співідношенні 90% для тренування і10%для тестування:
|
Точність аналізу є нижча, але вона краще характеризує роботу аналізатора при маркуванні довільного тексту.