Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Metodichni_vkazivki.doc
Скачиваний:
13
Добавлен:
21.02.2016
Размер:
951.3 Кб
Скачать

6.1. Категорії слів англійської мови

Іменники англійської мови можуть бути морфологічно складними. Наприклад booksіwomenце множина. Слова з–nessсуфіксом - це іменники утворені з прикметників:happiness, illness. Суфікс–mentз’являється в деяких іменниках, які походять від дієслів:government, establishment.

Дієслова англійської мови також можуть бути морфологічно складними. Наприклад теперішній тривалий час в дієсловах характеризується закінченням –ingі описує триваючу незавершену дію(falling, eating). Суфікс –ingтакож з’являється і у іменників, які походять від дієслів(the falling of the leaves(герундій)). В Броунівському корпусі вони маркуються якVBG. Минулий час в дієсловах часто характеризується закінченням–ed, описує завершену дію і маркуєтьсяVBD.

Загальні набори тегів часто охоплюють деяку морфологічно-синтаксичну інформацію – це є інформація про види морфологічного маркування, які отримують слова в залежності від їх синтаксичної ролі. Розглянемо, наприклад, вибрані різні граматичні форми слова “go” в наступних реченнях.

Кожна з цих форм go, goes, gone, went– морфологічно відрізняється від інших. Розглянемо форму “goes” (йде). Ця форма не охоплює всі граматичні контексти, але вимагає третю особу однини об’єкту. Таким чином наступні речення є граматично невірними.

Навпаки, goneце є форма минулого часу, яка вживається після have (не може бути змінена на goes в цьому контексті) і не може розглядатися як основне слово клаузи(фрагмент речення).

Можна легко вибрати набір тегів для цих чотирьох різних граматичних форм але і можемо позначити їх, як VB(дієслово). Звичайно це було б адекватно для деяких цілей, Але більш детальний набір тегів забезпечує більше корисної інформації по ці форми, яка може бути значимою для інших процесів визначення синтаксичних шаблонів з послідовності тегів. Набір тегів Броунівського корпусу охоплює ці розбіжності як показано в таблиці 4.

Таблиця 4.

Більшість наборів тегів для маркування частин мови використовує базові категорії такі, як іменник, дієслово. Але набори тегів можуть і відрізнятися в залежності від того як точно поділені слова на категорії і яким чином визначені самі категорії. Наприклад, слово isможе бути промарковане, як дієслово в одному наборі тегів, але як форма дієсловаbeв іншому наборі тегів (так як в Броунівському корпусі). Ці розбіжності (варіації) в наборах тегів є неминучі, так як теги частин мови використовуються різними способами і для різних задач. Іншими словами немає єдиного правильного шляху для встановлення відповідності тегів, тільки є більш чи менш корисні способи в залежності від мети. В додатках наведено частину набору тегів Броунівського корпусу.

Порядок виконання робіт №5-№6.

  1. Ознайомитися з теоретичними відомостями.

  2. Виконати приклади, які використовуються в теоретичних відомостях (всі програми потрібно починати з виконання оператора import nltk, re, pprint).

  3. Виконати наступні вправи.

3.1. Здійсніть тренування юніграм аналізатора на основі частини корпуса, який відповідає першій або другій літері прізвища студента та виконайте аналіз тексту з частини корпуса, яка відповідає першій або другій літері імені студента. Результати поясніть. Чому для деяких слів не встановлені теги.

3.2. Прочитати файл допомого про морфологічний аналізатор на основі афіксів (help(nltk.AffixTagger)). Напишіть програму, яка викликає аналізатор на основі афіксів в циклі, з різними значеннями довжини афіксів і мінімальними довжинами слів. При яких значеннях можна отримати кращі результати.

3.3. Здійсніть тренування біграм аналізатора на частинах корпуса з вправи 3.1 без backoff аналізатора. Перевірте його роботу. Що відбулося з продуктивністю аналізатора? Чому?

3.4. Дослідити наступні проблеми. що виникають при роботі з аналізатором на основі підстановок: що відбудеться з продуктивністю аналізатора, якщо опустити backoff аналізатор (дослідити на частині броунівського корпусу, яка відповідає першій або другій літері прізвища студента); на основі рис.1. та відповідного фрагмента програми встановити точку максимальної продуктивності незважаючи на розмір списку (об’єм оперативної пам’яті) і точку достатньої продуктивності при мінімальному розмірі списку.

3.5. Знайдіть розмічені корпуси текстів для інших мов які вивчаєте або володієте (українська, польська, німецька, російська, італійська, японська). Здійсніть тренування та оцініть продуктивність роботи різних аналізаторів та комбінацій різних аналізаторів. Точність роботи аналізаторів порівняйте з точністю роботи аналізаторів для англійських корпусів. Результати поясніть.

3.6. Створити аналізатор по замовчуванню та набір юніграм і n-грам аналізаторів. Використовуючи backoff здійсніть тренування аналізаторів на частині корпуса з вправи 3.2. Дослідіть три різні комбінації поєднання цих аналізаторів. Перевірте точність роботи аналізаторів. Визначіть комбінацію аналізаторів з максимальною точністю аналізу. Змініть розмір даних на яких проводилось тренування. Повторіть експерименти для змінених даних для тренування. Результати порівняйти і пояснити.

3.7. Прочитати стрічку документування функції demo Brillаналізатора. Здійснити експерименти з різними значення параметрів цієї функції. Встановити який взаємозв’язок є між часом тренування (навчання аналізатора) і точністю його роботи.

  1. Підготувати і оформити звіт.

Варіант

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Номери завдань

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

6

6

6

6

6

6

6

6

6

6

6

6

6

6

6

7

7

7

7

7

7

7

7

7

7

7

7

7

7

7

Варіант

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

Номери завдань

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

3

3

3

3

3

3

3

3

3

3

3

3

3

3

3

4

4

4

4

4

4

4

4

4

4

4

4

4

4

4

5

5

5

5

5

5

5

5

5

5

5

5

5

5

5

6

6

6

6

6

6

6

6

6

6

6

6

6

6

6

7

7

7

7

7

7

7

7

7

7

7

7

7

7

7

2

2

2

2

2

2

2

2

2

2

2

2

2

2

2

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]