Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
PYTHON 1-60 шпори.doc
Скачиваний:
27
Добавлен:
23.04.2019
Размер:
176.13 Кб
Скачать

57.Типи граматичних правил для зняття омонімії

Найпростіший варіант таких правил це є набір граматичних правил у вигляді можливого поєднання частин мови.але простого переліку правил поєднання не достатньо і він доповнюється моделлю фільтрування і граматичні правила приймають наступний вигляд:

1)якщо слово є частиною мови А і знаходиться в контексті С змінити частину мови на В

2) якщо слово є частиною мови А і має лексичні властивості Р, змінити частину мови на В

3)якщо слово є частиною мови А і знаходиться в області Р і має лексичні властивості Р. змінити частину мови на В.

58.Використання прихованої моделі Маркова в алгоритмах зняття омонімії

Основним на сьогодні ймовірнісним підходом є алгоритм, який базується на використанні прихованої моделі Маркова HMM tagging. Основна ідея алгоритму полягає в тому, щоб для кожного слова, яке входить в речення, вибрати граматичний клас (tag) таким чином, щоб максимілізувати функцію:P(word|tag) *P(tag|previous n tags), де P(tag|previous n tags) – умовна ймовірність (вирахована по розміченому корпусу) появи даного тега , при умові , що попередні п-тегів вже визначені. P(word|tag)-умовна ймовірність (також визначена по корпусу) появи в даному місці слова word при умові, що це слово має даний граматичний клас (тег). Тег- граматичний клас – це позначення пари <M,L>.М-морфологічні характеристики,L-лема. P(word|tag)= P(wordі|ti ti-1)-ймовірність того , що повне слово wordi може мати тип t1, якщо попереднє слово має тип ti-1

P(tag|previous n tags)= P(tagi|tagi-2,tagi-1-ймовірність того, що повний тег t1 може йти після тегів ti-1 I ti-2.

Алгоритм НММ має доволі високу обчислювальну складність. Точність складає 96% .Застосування даної моделі для флективних мов потребує використання великих морфологічно розмічених корпусів текстів.В результаті роботи ми отримуємо або М морф С без омонімів або морф С, де біля кожного омоніма стоїть ймовірність вибору цього омоніма в якості основного в поточний момент.

співав {співати:0,95 verb| спів:0,4 noun,чол,одн }.

59.Основні ідеї методу зняття омонімії на основі нормалізуючи підстановок і позицій сусідніх слів:

1)Використання невеличкого, відібраного і розміченого вручну корпуса як джерела побудови словника контекстів омонімів.

2)Природньо передбачити , що елементи кожного контексту сильніше або слабше впливають на вибір значення омоніма в залежності від їх розміщення відносно омоніма.В даній роботі пріоритет впливу сусідів виражено в числовій формі на основі простої ймовірнісної моделі.

3)метою алгоритму є одержання леми слова , тобто вибір між декількома правилами перетворення словоформи у можливі леми. В якості елементів контексту омонімів вибрані нормалізуючі підстановлення .

4)При побудові корпуса використовується ідея рангування частотних омонімів рос.мови по степені «трудоємності вибору леми».Трудоємність вибору леми пов*язана з розміром корпуса, який необхідний для впевненого вирішення неоднозначності.Крім того в побудові корпуса , який необхідний для впевненого вирішення неоднозначності. Крім того в побудові корпуса враховувався принцип максимальної пропорційної різноманітності жанрів і лем.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]