1. Этапы классификации речевых сообщений. Формализация задачи классификации текстов

Наиболее очевидный способ классификации речевых сообщений − получение полной текстовки средствами автоматического распознавания речи, а затем применение к полученному тексту алгоритмов классификации.

Для этого необходимо реализовать следующие этапы:

выбрать и зафиксировать множество категорий (рубрик или тем);
составить текстовки обучающей выборки;
по текстовкам обучающей выборки составить словарь ключевых слов;
по этому словарю провести распознавание файлов контрольной выборки;
результаты распознавания подать на вход классификатора, обученного на текстовках обучающей выборки.

Следовательно, задача классификации речевых сообщений на последнем этапе сводится к задаче автоматической классификации текстов. Методы классификации (категоризации) текстов хорошо изучены и имеют богатую историю, начинающуюся с работ 1960-х гг. по наивным вероятностным моделям классификации текстов.

Большинство известных методов автоматической классификации текстов основаны на предположении, что тексты каждой тематической рубрики содержат отличительные признаки (слова или словосочетания) и наличие или отсутствие таких признаков в тексте говорит о принадлежности или непринадлежности исследуемого текста той или иной рубрике. Задача методов классификации состоит в том, что бы наилучшим образом выбрать такие отличительные признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении текста к рубрике.

Формально задача классификации определяется следующим образом. Имеется множеств объектов D, не обязательно конечное, а так же множество C={c_i} i=1..N_c, состоящее из N_cклассов объектов. Каждый класс c_i представлен некоторым описанием F_i, имеющим некоторую внутреннюю структуру. Процедура классификации f объектов dϵD заключается в выполнении преобразований над ними, после которых либо делается вывод о соответствии d одной из структур F_i , что означает отнесение d к классу c_i, либо вывод о невозможности классификации d. Общая модель классификатора текстов может быть представлена трехосновной алгебраической системой следующего вида

Cl=<D, C, F, R_c, f>, (1.1)

где D – множество документов (текстов), подлежащих классификации, C - множество классов (рубрик, тем), F – множество описаний, R_c – отношение на CxF, f – процедура классификации вида D→C. Отношение R_c имеет свойство:

∀c_iϵC ∃! F_iϵF: (c_i,F_i) ϵ R_c,

то есть классу соответствует единственное описание. Обратное требование необязательно. Отображение f не имеет никаких ограничений, так что возможны ситуации, когда

то есть некоторый текст может быть отнесен к нескольким классам одновременно.

Кроме сформулированной задачи классификации определяется задача обучения, под которой подразумевается частичное или полное формирование C, F, R_c и f на основе некоторых априорных данных (обучающей выборки).

Исходя из представления модели классификатора, классификаторы могут быть разделены в зависимости от способа представления описаний классов (внутренняя структура элементов множества F), а также от организации процедуры классификации f.

Несмотря на многообразие существующих методов автоматической классификации текста, с практической точки зрения их все можно разбить на два класса – методы, основанные на знаниях (парадигматический подход) и методы машинного обучения (синтагматический подход). Эти подходы к измерению семантических расстояний и классификации текстов требуют привлечения разных источников (словарных описаний или корпусов текстов) и использования различных исследовательских инструментов (представление лексикона или текста как векторного пространства, применение методики латентного семантического анализа и близких ей, задание разнообразных мер для измерения семантических расстояний и пр.).

1 / 91 2 3 4 5 6 7 8 9 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.11.2019419.33 Кб6latyn_2kurs.doc
#
26.09.2019312.83 Кб52Latyn_polnostyu.doc
#
08.06.201517.22 Кб13Leadership_Characteristics.docx
#
08.06.201525.09 Кб17learning_english.doc
#
08.06.20153.51 Mб49Lecture 1.doc
#
14.09.2019460.29 Кб11Lecture 14.doc
#
14.09.20192.72 Mб6Lecture 2.doc
#
08.06.20151.9 Mб33Lecture 21.doc
#
08.06.20151 Mб39Lecture 22.doc
#
29.08.20196.83 Mб6Lecture 23.doc
#
08.06.2015535.55 Кб57Lecture 25.doc