Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lecture 14.doc
Скачиваний:
11
Добавлен:
14.09.2019
Размер:
460.29 Кб
Скачать

Лекция № 14. Классификация

1. Этапы классификации речевых сообщений. Формализация задачи классификации текстов

Наиболее очевидный способ классификации речевых сообщений − получение полной текстовки средствами автоматического распознавания речи, а затем применение к полученному тексту алгоритмов классификации.

Для этого необходимо реализовать следующие этапы:

  • выбрать и зафиксировать множество категорий (рубрик или тем);

  • составить текстовки обучающей выборки;

  • по текстовкам обучающей выборки составить словарь ключевых слов;

  • по этому словарю провести распознавание файлов контрольной выборки;

  • результаты распознавания подать на вход классификатора, обученного на текстовках обучающей выборки.

Следовательно, задача классификации речевых сообщений на последнем этапе сводится к задаче автоматической классификации текстов. Методы классификации (категоризации) текстов хорошо изучены и имеют богатую историю, начинающуюся с работ 1960-х гг. по наивным вероятностным моделям классификации текстов.

Большинство известных методов автоматической классификации текстов основаны на предположении, что тексты каждой тематической рубрики содержат отличительные признаки (слова или словосочетания) и наличие или отсутствие таких признаков в тексте говорит о принадлежности или непринадлежности исследуемого текста той или иной рубрике. Задача методов классификации состоит в том, что бы наилучшим образом выбрать такие отличительные признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении текста к рубрике.

Формально задача классификации определяется следующим образом. Имеется множеств объектов D, не обязательно конечное, а так же множество C={ci} i=1..Nc, состоящее из Nc классов объектов. Каждый класс ci представлен некоторым описанием Fi, имеющим некоторую внутреннюю структуру. Процедура классификации f объектов dϵD заключается в выполнении преобразований над ними, после которых либо делается вывод о соответствии d одной из структур Fi , что означает отнесение d к классу ci, либо вывод о невозможности классификации d. Общая модель классификатора текстов может быть представлена трехосновной алгебраической системой следующего вида

Cl=<D, C, F, Rc, f>, (1.1)

где D – множество документов (текстов), подлежащих классификации, C - множество классов (рубрик, тем), F – множество описаний, Rc – отношение на CxF, f – процедура классификации вида D→C. Отношение Rc имеет свойство:

∀ciϵC ∃! FiϵF: (ci,Fi) ϵ Rc,

то есть классу соответствует единственное описание. Обратное требование необязательно. Отображение f не имеет никаких ограничений, так что возможны ситуации, когда

,

то есть некоторый текст может быть отнесен к нескольким классам одновременно.

Кроме сформулированной задачи классификации определяется задача обучения, под которой подразумевается частичное или полное формирование C, F, Rc и f на основе некоторых априорных данных (обучающей выборки).

Исходя из представления модели классификатора, классификаторы могут быть разде­лены в зависимости от способа представления опи­саний классов (внутренняя структура элементов множества F), а также от организации процедуры классификации f.

Несмотря на многообразие существующих методов автоматической классификации текста, с практической точки зрения их все можно разбить на два класса – методы, основанные на знаниях (парадигматический подход) и методы машинного обучения (синтагматический подход). Эти подходы к измерению семантических расстояний и классификации текстов требуют привлечения разных источников (словарных описаний или корпусов текстов) и использования различных исследовательских инструментов (представление лексикона или текста как векторного пространства, применение методики латентного семантического анализа и близких ей, задание разнообразных мер для измерения семантических расстояний и пр.).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]