Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Днепропетровский университет им. А. Нобеля

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Metodichni_vkazivki.doc

Скачиваний:

Добавлен:

21.02.2016

Размер:

951.3 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1811 12 13 14 15 16 17 18 > Следующая >>>

Зміст звіту по практичним роботам №1-№3

5.1 Титульний аркуш.

5.2 Мета роботи.

5.3 Короткі теоретичні відомості.

5.4 Тексти програм на мові Python.

5.5 Висновок.

ЛІТЕРАТУРА

Steven Bird, Ewan Klein, Edward Loper Introduction to Natural Language Processing. 2001-2007 University of Pennsylvania.
Г. Россум, Ф.Л.Дж. Дрейк, Д.С. Откидач, М. Задка, М. Левис, С.Монтаро, Э.С.Реймонд, А.М.Кучлинг, М.-А.Лембург, К.-П.Йи, Д.Ксиллаг, Х.ГПетрилли, Б.А.Варсав, Дж.К.Ахлстром, Дж.Рокинд, Н.Шеменон, С.Мулендер. Язык программирования Python./ 2001 – 452c.
Сузи Р. А. Язык программирования Python.- 206с.
David Mertz Text Processing in Python Addison WesleyBiber, 2003 - 544.

Інтернет посилання

http://www.nltk.org

http://python.org

Короткі теоретичні відомості

Практична робота №4. Розробка автоматичного морфологічного аналізатора

При виконанні цієї лабораторної роботи буде необхідність використовувати морфологічно розмічені корпуси текстів. При роботі з корпусом Brown доступ до речень з копусу слова в яких промарковані тегами морфологічних характеристик можна отримати наступним чином.

>>> from nltk.corpus import brown

>>> brown_tagged_sents = brown.tagged_sents(categories='news')

>>> brown_sents = brown.sents(categories='news')

Автоматичний морфологічний аналізатор по замовчуванню

Найпростіший можливий морфологічний аналізатор автоматично призначає той самий тег кожному слову. Це доволі дивний підхід, але він дозволяє зробити важливий початковий крок по створенню аналізатора. Для одержання максимально якісного результату кожне слово маркується найбільш уживаним тегом. Для визначення такого тега використаємо просту програму:

>>> tags = [tag for (word, tag) in brown.tagged_words(categories='news')]

>>> nltk.FreqDist(tags).max()

'NN'

Тепер можна створити аналізатор default_tagger, який позначить всі слова якNN.

>>> raw = 'I do not like green eggs and ham, I do not like them Sam I am!'

>>> tokens = nltk.word_tokenize(raw)

>>> default_tagger = nltk.DefaultTagger('NN')

>>> default_tagger.tag(tokens)

[('I', 'NN'), ('do', 'NN'), ('not', 'NN'), ('like', 'NN'), ('green', 'NN'), ('eggs', 'NN'), ('and', 'NN'), ('ham', 'NN'), (',', 'NN'), ('I', 'NN'), ('do', 'NN'), ('not', 'NN'), ('like', 'NN'), ('them', 'NN'), ('Sam', 'NN'), ('I', 'NN'), ('am', 'NN'), ('!', 'NN')]

Зауважимо, що аналізатор це генератор тегів слів. Роздрукувати його безпосередньо не можна, але можна перетворити у список і тоді роздрукувати, як показано у попередньому прикладі. Генератор ми можемо використати тільки один раз, але якщо результати його роботи зберегти у списку то їх можна використовувати і в подальшому.

Наведений метод маркування є дуже простий, але результат його роботи дуже поганий. Тільки приблизно одна восьма слів буде промаркована правильно в типовому корпусі.:

>>> default_tagger.evaluate(brown_tagged_sents)

0.13089484257215028

Автоматичний морфологічний аналізатор на основі регулярних виразів

Аналізатор побудований на регулярних виразах встановлює відповідність тегів до слів на основі їх відповідності певним шаблонам. Наприклад можна передбачити, що кожне слово, яке закінчується на –edце єpast participleв дієсловах, а будь-яке слово, яке закінчується на‘sце є присвійний іменник. Подібні правила можна описати, як список регулярних виразів:

>>> patterns = [

... (r'.*ing$', 'VBG'), # gerunds

... (r'.*ed$', 'VBD'), # simple past

... (r'.*es$', 'VBZ'), # 3rd singular present

... (r'.*ould$', 'MD'), # modals

... (r'.*\'s$', 'NN$'), # possessive nouns

... (r'.*s$', 'NNS'), # plural nouns

... (r'^-?[0-9]+(.[0-9]+)?$', 'CD'), # cardinal numbers

... (r'.*', 'NN') # nouns (default)

... ]

Потрібно звернути увагу на те, що при застосуванні такого шаблону відповідності будуть знайдені в порядку запису регулярних виразів. Тепер можна налаштувати аналізатор і використати його для аналізу деякого тексту.

>>> regexp_tagger = nltk.RegexpTagger(patterns)

>>> regexp_tagger.tag(brown_sents[3])

[('``', 'NN'), ('Only', 'NN'), ('a', 'NN'), ('relative', 'NN'), ('handful', 'NN'), ('of', 'NN'), ('such', 'NN'), ('reports', 'NNS'), ('was', 'NNS'), ('received', 'VBD'), ("''", 'NN'), (',', 'NN'), ('the', 'NN'), ('jury', 'NN'), ('said', 'NN'), (',', 'NN'), ('``', 'NN'), ('considering', 'VBG'), ('the', 'NN'), ('widespread', 'NN'), ...]

>>> regexp_tagger.evaluate(brown_tagged_sents)

0.20326391789486245

Останній регулярний вираз «.*» вказує на те, що всі слова, які не відповідають попереднім регулярним виразам будуть промарковані, як іменники. Цей регулярний вираз еквівалентний до аналізатора позамовчуванню.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 1811 12 13 14 15 16 17 18 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.02.201670.14 Кб23lect.2. Word meaning.doc
#
21.11.20192.34 Mб4lecture 2.doc
#
14.07.201933.4 Кб74Lecture 3.docx
#
21.02.2016498.18 Кб18MA_KL.doc
#
28.04.2019142.85 Кб8Metodichka_ET_2012.doc
#
21.02.2016951.3 Кб13Metodichni_vkazivki.doc
#
21.02.2016133.12 Кб5MVK_KR_TDP_2011.doc
#
21.02.2016874.29 Кб74Navch_posibnyk.pdf
#
09.09.2019244.22 Кб5OlyaKursova_KIB.doc
#
21.02.2016270.34 Кб13otvety_na_ekzamen.doc
#
21.02.201673.73 Кб7OT_Nosov.doc