- •Чинники, що зумовили формування комп’ютерної лінгвістики як науки
- •Поняття кл. Історія розвитку кл
- •Зв’язки кл з іншими нелінгвістичними науками
- •Поняття кл. Основні напрямки кл
- •Основні напрямки кл. Комп’ютерна лексикографія
- •Основні напрямки кл. Аналіз текстів на природній мові
- •Історія розвитку та сучасний стан систем машинного перекладу
- •Прикладні системи розробку яких, забезпечує кл
- •Характеристика об’єкту досліджень в кл
- •Характеристика предмету досліджень в кл
- •Два типи моделей опису мовленнєвої діяльності. Розширена класифікація моделей
- •Класифікація моделей опису мовленнєвої діяльності
- •Етапи створення лінгвістичної моделі
- •Вимоги до побудови лінгвістичних моделей
- •Класифікація лінгвістичних моделей за способом побудови
- •Класифікація лінгвістичних моделей за способом аналізу мовних об’єктів
- •22. Система рівнів абстракції опису лінгвістичних явищ в кл
- •23. Критерії вибору формалізму для представлення лінгвістичних явищ в кл
- •24. Граматики, що використовуються для опису в кл
- •25.Загальна схема опрацювання текстів на природній мові
- •26. Аналіз окремих слів. Характеристика етапу
- •27. Аналіз окремих речень. Характеристика етапу
- •28. Аналіз тексту в цілому. Характеристика етапу
- •29. Поняття автоматизована система опрацювання текстів. Характеристика основних підходів до її розробки
- •30. Які задачі вирішує модуль ама в системах автоматичного опрацювання текстів природною мовою
- •Загальна умовна структура системи ама
- •32. Основні принципи розробки систем ама
- •33.34.35 Основні групи методів ама
- •37. Етапи ма з використанням словників
- •38. Етапи створення швидкодіючого алгоритму ма
- •39. Які основні вимоги висуваються до систем ама
- •40.Основні поняття морфологічної моделі мови флективного типу
- •41.Основні складові лінгвістичного забезпечення систем ма.
- •43. Які складові необхідні для опису мови в її морфологічній моделі?
- •44. Поняття таблиці морфів. Навести приклад
- •45. Поняття списки масок. Навести приклад
- •46. Поняття списки морфів. Навести приклад
- •47. Поняття технічної частини мови
- •48 Яку інформацію повинен містити кожен запис у словнику основ
- •49. Порівняння методів ма «справа-наліво» і «зліва-направо»
- •50. Переваги методів ма «зліва-направо»
- •51. Характеристика задачі побудови словника основ і пошуку в ньому, як задачі керування базою даних
- •52. Загальна структура словника основ, яка забезпечує мінімум звертань до диска
- •53. Алгоритм пошуку у словнику основ. Навести приклад
- •54.Алгоритм роботи «стека вкладених ключів». Навести приклад
- •55.Алгоритм формування словника основ. Навести приклад
- •57.Типи граматичних правил для зняття омонімії
- •58.Використання прихованої моделі Маркова в алгоритмах зняття омонімії
- •60.Алгоритм зняття омонімії методом на основі нормалізуючи підстановок і позицій сусідніх слів
57.Типи граматичних правил для зняття омонімії
Найпростіший варіант таких правил це є набір граматичних правил у вигляді можливого поєднання частин мови.але простого переліку правил поєднання не достатньо і він доповнюється моделлю фільтрування і граматичні правила приймають наступний вигляд:
1)якщо слово є частиною мови А і знаходиться в контексті С змінити частину мови на В
2) якщо слово є частиною мови А і має лексичні властивості Р, змінити частину мови на В
3)якщо слово є частиною мови А і знаходиться в області Р і має лексичні властивості Р. змінити частину мови на В.
58.Використання прихованої моделі Маркова в алгоритмах зняття омонімії
Основним на сьогодні ймовірнісним підходом є алгоритм, який базується на використанні прихованої моделі Маркова HMM tagging. Основна ідея алгоритму полягає в тому, щоб для кожного слова, яке входить в речення, вибрати граматичний клас (tag) таким чином, щоб максимілізувати функцію:P(word|tag) *P(tag|previous n tags), де P(tag|previous n tags) – умовна ймовірність (вирахована по розміченому корпусу) появи даного тега , при умові , що попередні п-тегів вже визначені. P(word|tag)-умовна ймовірність (також визначена по корпусу) появи в даному місці слова word при умові, що це слово має даний граматичний клас (тег). Тег- граматичний клас – це позначення пари <M,L>.М-морфологічні характеристики,L-лема. P(word|tag)= P(wordі|ti ti-1)-ймовірність того , що повне слово wordi може мати тип t1, якщо попереднє слово має тип ti-1
P(tag|previous n tags)= P(tagi|tagi-2,tagi-1-ймовірність того, що повний тег t1 може йти після тегів ti-1 I ti-2.
Алгоритм НММ має доволі високу обчислювальну складність. Точність складає 96% .Застосування даної моделі для флективних мов потребує використання великих морфологічно розмічених корпусів текстів.В результаті роботи ми отримуємо або М морф С без омонімів або морф С, де біля кожного омоніма стоїть ймовірність вибору цього омоніма в якості основного в поточний момент.
співав {співати:0,95 verb| спів:0,4 noun,чол,одн }.
59.Основні ідеї методу зняття омонімії на основі нормалізуючи підстановок і позицій сусідніх слів:
1)Використання невеличкого, відібраного і розміченого вручну корпуса як джерела побудови словника контекстів омонімів.
2)Природньо передбачити , що елементи кожного контексту сильніше або слабше впливають на вибір значення омоніма в залежності від їх розміщення відносно омоніма.В даній роботі пріоритет впливу сусідів виражено в числовій формі на основі простої ймовірнісної моделі.
3)метою алгоритму є одержання леми слова , тобто вибір між декількома правилами перетворення словоформи у можливі леми. В якості елементів контексту омонімів вибрані нормалізуючі підстановлення .
4)При побудові корпуса використовується ідея рангування частотних омонімів рос.мови по степені «трудоємності вибору леми».Трудоємність вибору леми пов*язана з розміром корпуса, який необхідний для впевненого вирішення неоднозначності.Крім того в побудові корпуса , який необхідний для впевненого вирішення неоднозначності. Крім того в побудові корпуса враховувався принцип максимальної пропорційної різноманітності жанрів і лем.