- •1. Этапы классификации речевых сообщений. Формализация задачи классификации текстов
- •2. Парадигматический подход
- •3. Модели синтагматического подхода
- •3.1. Способы представления текста
- •3.1.1. Векторно-пространственная модель
- •3.1.2. Модель n-грамм
- •3.2. Типы классификаторов текстов в рамках синтагматического подхода
- •3.2.2. Классификаторы, основанные на функциях подобия. Латентно-семантический анализ
- •3.2.2.1. Латентно-семантический анализ
- •3.2.2.2. Скрытое распределение Дирихле
- •3.2.3. Классификаторы на основе нейросетей
- •3.2.4. Метод опорных векторов
- •4. Подходы к кластеризации текстов
Лекция № 14. Классификация
1. Этапы классификации речевых сообщений. Формализация задачи классификации текстов
Наиболее очевидный способ классификации речевых сообщений − получение полной текстовки средствами автоматического распознавания речи, а затем применение к полученному тексту алгоритмов классификации.
Для этого необходимо реализовать следующие этапы:
выбрать и зафиксировать множество категорий (рубрик или тем);
составить текстовки обучающей выборки;
по текстовкам обучающей выборки составить словарь ключевых слов;
по этому словарю провести распознавание файлов контрольной выборки;
результаты распознавания подать на вход классификатора, обученного на текстовках обучающей выборки.
Следовательно, задача классификации речевых сообщений на последнем этапе сводится к задаче автоматической классификации текстов. Методы классификации (категоризации) текстов хорошо изучены и имеют богатую историю, начинающуюся с работ 1960-х гг. по наивным вероятностным моделям классификации текстов.
Большинство известных методов автоматической классификации текстов основаны на предположении, что тексты каждой тематической рубрики содержат отличительные признаки (слова или словосочетания) и наличие или отсутствие таких признаков в тексте говорит о принадлежности или непринадлежности исследуемого текста той или иной рубрике. Задача методов классификации состоит в том, что бы наилучшим образом выбрать такие отличительные признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении текста к рубрике.
Формально задача классификации определяется следующим образом. Имеется множеств объектов D, не обязательно конечное, а так же множество C={ci} i=1..Nc, состоящее из Nc классов объектов. Каждый класс ci представлен некоторым описанием Fi, имеющим некоторую внутреннюю структуру. Процедура классификации f объектов dϵD заключается в выполнении преобразований над ними, после которых либо делается вывод о соответствии d одной из структур Fi , что означает отнесение d к классу ci, либо вывод о невозможности классификации d. Общая модель классификатора текстов может быть представлена трехосновной алгебраической системой следующего вида
Cl=<D, C, F, Rc, f>, (1.1)
где D – множество документов (текстов), подлежащих классификации, C - множество классов (рубрик, тем), F – множество описаний, Rc – отношение на CxF, f – процедура классификации вида D→C. Отношение Rc имеет свойство:
∀ciϵC ∃! FiϵF: (ci,Fi) ϵ Rc,
то есть классу соответствует единственное описание. Обратное требование необязательно. Отображение f не имеет никаких ограничений, так что возможны ситуации, когда
,
то есть некоторый текст может быть отнесен к нескольким классам одновременно.
Кроме сформулированной задачи классификации определяется задача обучения, под которой подразумевается частичное или полное формирование C, F, Rc и f на основе некоторых априорных данных (обучающей выборки).
Исходя из представления модели классификатора, классификаторы могут быть разделены в зависимости от способа представления описаний классов (внутренняя структура элементов множества F), а также от организации процедуры классификации f.
Несмотря на многообразие существующих методов автоматической классификации текста, с практической точки зрения их все можно разбить на два класса – методы, основанные на знаниях (парадигматический подход) и методы машинного обучения (синтагматический подход). Эти подходы к измерению семантических расстояний и классификации текстов требуют привлечения разных источников (словарных описаний или корпусов текстов) и использования различных исследовательских инструментов (представление лексикона или текста как векторного пространства, применение методики латентного семантического анализа и близких ей, задание разнообразных мер для измерения семантических расстояний и пр.).