Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
доклад по курсовой.doc
Скачиваний:
5
Добавлен:
23.11.2018
Размер:
86.02 Кб
Скачать

2.1. Аналитический обзор программных средств для аннотирования текста

Практически все учебные корпуса являются лингвистически размеченными.

Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. tagging).

Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические. К последним относятся:

  • разметка, отражающая особенности форматирования текста (заголовки, абзацы, отступы и т.д.);

  • разметка, касающаяся сведений об авторе и тексте. Причем сведения об авторе могут включать не только его имя, но также и возраст, пол, годы жизни и многое другое, а сведения о тексте обычно содержат, кроме названия, еще и язык, на котором он написан, год и место издания и т.д.

Наличие подобной информации позволяет значительно детализировать поиск в текстовых базах данных и, кроме того, предоставляет средства идентификации соответствующего документа.

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  • токенизация (разбиение на орфографические слова);

  • лемматизация (приведение словоформ к словарной форме).

Также важным этапом является морфологический анализ. В иностранных источниках употребляется термин part-of-speech tagging, дословно – частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.

Синтаксическая. Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих.

Семантическая. Хотя для семантической, как и для других видов разметки, нет стандартной формы, чаще всего для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение.

Анафорическая. Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. Просодическая. В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию.

Аннотирование корпусов осуществляется программными средствами. Во-первых, это экономичнее с точки зрения временных и трудозатрат, чем если бы разметка проводилась вручную. Во-вторых, что более важно, это связано с поиском решений в области автоматической обработки текста.

К числу известных и наиболее часто используемых программ при аннотировании корпусов относятся такие программы как AntConc, WordSmith, MonoConc Pro и CATMA.

AntConc является бесплатной, мультиплатформенной программой для проведения корпусных лингвистических исследований и управления данными. .

Конкорданс. Данный инструмент показывает результаты исследования формата KWIC (ключевое слово в контексте). Он позволяет увидеть, как слова и фразы обычно используются в разных контекстах.

График конкорданса. В этом инструменте все адреса для каждого элемента поиска представлены в виде “штрих-кода”, указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент.

Просмотр файлов. В любое время целевой файл можно посмотреть в оригинальной форме, используя меню «просмотр файлов». Это позволяет более подробно исследовать результаты, полученные в других инструментах AntConc.

Кластеры. Инструмент кластеры используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна.

Расположение. Инструмент «расположение» показывает расположение элемента поиска.

Список слов. Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.

Список ключевых слов. В дополнение к созданию списка слов, с помощью AntConc можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми (или редкими) в целевых файлах.

WordSmith Tools программа управления инструментами. Она показывает и изменяет текущие значения по умолчанию, управляет выбором текстовых файлов, а также вызывает различные инструменты. Программа состоит из трех инструментов: Concord, KeyWords, WordList.

Concord это программа, которая создает конкорданс, используя DOS, Text Only, ASCII или ANSI текстовые файлы.

KeyWords

Это программа для идентификации "ключевых" слов в одном или нескольких текстах.

WordList

Данная программа создает списки слов на основе одного или более ASCII (американская стандартная кодировочная таблица для печатных символов и некоторых специальных кодов) или ANSI (Америка́нский национа́льный институ́т станда́ртов) текстовых файлов. Слова автоматически строятся и в алфавитном порядке и по частоте, и, при необходимости вы можете создать список слов по индексу.

MonoConc Pro быстрая программа конкорданс (текстовый поиск) с отличным пользовательским интерфейсом. Он используется для лингвистического или языкового преподавания и изучения языков (ESL). Наряду с предоставлением KWIC результатов конкордансом, программное обеспечение производит также информацию о списках слов и словосочетаний. Программа проста в использовании, хотя и поставляется с целым рядом мощных функций, таких как контекстный поиск, поиск по регулярному выражению, частеречный поиск по тегам, сочетаемости слов и корпус сравнения.

CATMA является практическим и интуитивно понятным инструментом для литературоведов, студентов и других сторон, имеющих интерес к анализу текстов и литературным исследованиям.

Основанная на известной программе «Usebase», данная программа предоставляет разметку и функциональный анализ, содержащихся в двух ее составляющих: Tagger и Analyzer.

В отличие от структурной разметки, которая в большинстве случаев может быть выражена более или менее фиксированным набором тегов, разметка, которая интерпретирует смысл текстовых элементов - так называемых "герменевтической разметкой" - должна быть гибкой и расширяемой, но в то же время отвечать требованиям стандартов с тем чтобы дать возможность взаимодействию инструментов.

Изучив все эти продукты, можно сделать вывод, что наиболее удобным и простым в использовании является программное средство AntConc. Благодаря таким инструментам как конкорданс, график конкорданса, кластеров, инструмента просмотра файлов, спискам ключевых слов и некоторым другим инструментам, программа дает возможность проведения подробных корпусных лингвистических исследований. Ко всему прочему программа является бесплатной.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]