Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / системы поиска знаний (KDD).doc
Скачиваний:
52
Добавлен:
26.05.2015
Размер:
420.35 Кб
Скачать

4.9. Логистическая регрессия

Логистическая (логическая) регрессия имеет много общего с обычной линейной регрессией, но используются для предсказания вероятности появления того или иного значения булевой целевой или категориальной переменной, таких как 0 - 1, да - нет, отлично - хорошо - плохо. Так как эта переменная дискретна, она, строго говоря, не может быть смоделирована методами обычной многофакторной линейной регрессии.

Рассмотрим сначала булеву переменную. Применение регрессионных методов нахождения числовых зависимостей в этом случае основывается на том, что логические значения "ложь" и "истина" булевой переменной Y рассматриваются как числовые значения 0 и 1, соответственно. При этом мы можем воспользоваться одним из методов нахождения числовых зависимостей для построения регрессионной модели, наилучшей с точки зрения, например, критерия наименьшей среднеквадратичной ошибки (6). Значением полученной регрессионной функции будет, вообще говоря, действительное число, которое может рассматриваться как нечеткая мера принадлежности к множеству записей с Y = 1. Конечно найденная регрессионная функция не может служить точной мерой вероятности принадлежности к классу Y = 1. Например, ее значение не обязательно лежит в интервале [0, 1]. Тем не менее во многих случаях она дает приемлемую картину распределения записей с Y = 0 и Y = 1 в разных областях пространства независимых переменных.

Найденная функция может быть использована для построения четкого классификационного правила вида>a,где пороговое значение a может быть выбрано из требования минимальности количества ошибок классификации на записях, включенных в обучающую группу. Полученные вероятности могут использоваться и для оценки шансов (шанс - это отношение вероятности появления события к вероятности того, что событие не произойдет).

Этот метод также может быть использован, если целевая переменная имеет категориальный тип, то есть когда должны быть получены классификационные правила, разбивающие множество записей на более чем два подмножества. Если целевая переменная принимает n разных значений (n > 2), нужно решить n регрессионных задач, таких что в i-ой регрессионной задаче значение зависимой переменной равно 1 для записей, принадлежащих i-ому классу и 0 для остальных записей. В качестве результата получим n функций fi выражающих меру принадлежности i-ому классу. Чтобы классифицировать новую запись, надо вычислить для нее значения всех этих функций, и если наибольшим окажется значение k-ой функции, отнести запись к k-ому классу.

Логистическая регрессия - это, с одной стороны, классификационный инструмент, который используется для предсказания значений категориальных переменных (проявится ли у пациента определенный диагноз или нет) и, с другой стороны, регрессионный инструмент, который используется для оценки степени влияния входных факторов (индивидуальных характеристик пациентов, факторов окружающей среды). Смысл применения линейной регрессии для классификации заключается в его эффективности (Kiselev et al., 1997).