57.Типи граматичних правил для зняття омонімії

Найпростіший варіант таких правил це є набір граматичних правил у вигляді можливого поєднання частин мови.але простого переліку правил поєднання не достатньо і він доповнюється моделлю фільтрування і граматичні правила приймають наступний вигляд:

1)якщо слово є частиною мови А і знаходиться в контексті С змінити частину мови на В

2) якщо слово є частиною мови А і має лексичні властивості Р, змінити частину мови на В

3)якщо слово є частиною мови А і знаходиться в області Р і має лексичні властивості Р. змінити частину мови на В.

58.Використання прихованої моделі Маркова в алгоритмах зняття омонімії

Основним на сьогодні ймовірнісним підходом є алгоритм, який базується на використанні прихованої моделі Маркова HMM tagging. Основна ідея алгоритму полягає в тому, щоб для кожного слова, яке входить в речення, вибрати граматичний клас (tag) таким чином, щоб максимілізувати функцію:P(word|tag) *P(tag|previous n tags), де P(tag|previous n tags) – умовна ймовірність (вирахована по розміченому корпусу) появи даного тега , при умові , що попередні п-тегів вже визначені. P(word|tag)-умовна ймовірність (також визначена по корпусу) появи в даному місці слова word при умові, що це слово має даний граматичний клас (тег). Тег- граматичний клас – це позначення пари <M,L>.М-морфологічні характеристики,L-лема. P(word|tag)= P(word_і|t_i t_i_-1)-ймовірність того , що повне слово word_i може мати тип t1, якщо попереднє слово має тип t_i_-1

P(tag|previous n tags)= P(tag_i|tag_i_-2,tag_i_-1-ймовірність того, що повний тег t1 може йти після тегів t_i_-1 I t_i_-2.

Алгоритм НММ має доволі високу обчислювальну складність. Точність складає 96% .Застосування даної моделі для флективних мов потребує використання великих морфологічно розмічених корпусів текстів.В результаті роботи ми отримуємо або М морф С без омонімів або морф С, де біля кожного омоніма стоїть ймовірність вибору цього омоніма в якості основного в поточний момент.

співав {співати:0,95 verb| спів:0,4 noun,чол,одн }.

59.Основні ідеї методу зняття омонімії на основі нормалізуючи підстановок і позицій сусідніх слів:

1)Використання невеличкого, відібраного і розміченого вручну корпуса як джерела побудови словника контекстів омонімів.

2)Природньо передбачити , що елементи кожного контексту сильніше або слабше впливають на вибір значення омоніма в залежності від їх розміщення відносно омоніма.В даній роботі пріоритет впливу сусідів виражено в числовій формі на основі простої ймовірнісної моделі.

3)метою алгоритму є одержання леми слова , тобто вибір між декількома правилами перетворення словоформи у можливі леми. В якості елементів контексту омонімів вибрані нормалізуючі підстановлення .

4)При побудові корпуса використовується ідея рангування частотних омонімів рос.мови по степені «трудоємності вибору леми».Трудоємність вибору леми пов*язана з розміром корпуса, який необхідний для впевненого вирішення неоднозначності.Крім того в побудові корпуса , який необхідний для впевненого вирішення неоднозначності. Крім того в побудові корпуса враховувався принцип максимальної пропорційної різноманітності жанрів і лем.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 1112 / 1312 13 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.02.20162.2 Mб307Praktikum_spetsializatsii_1.doc
#
12.11.201967.86 Кб14PRAVO_RADI_YeVROPI.docx
#
09.12.2018262.66 Кб7programm.doc
#
21.02.201655.47 Кб545Proverbs and sayings.docx
#
21.02.20161.96 Mб144publickz94.pdf
#
23.04.2019176.13 Кб27PYTHON 1-60 шпори.doc
#
23.11.2018231.42 Кб25PZ_02_v08_TMTKM.doc
#
24.04.2019371.71 Кб30R1.doc
#
21.02.20165.71 Mб137readmsg.docx
#
21.02.2016109.57 Кб60refland.ru_turizm_1.doc
#
13.08.2019254.09 Кб21ReportLab3TPR.docx