Постановка задачи
Задача данной курсовой работы включает следующие подзадачи:
описание предметной области;
выявление актуальной проблемы в данной области;
экономическая и математическая постановка проблемы, выявленной в данной области;
обзор и описание методов решений подобных задач;
построение математической модели;
формулирование задачи для решения на основе построенной математической модели;
непосредственно решение поставленной задачи;
описание методов, использованных для решения поставленной задачи;
проверка полученных результатов на их соответствие изучаемой системы, включая исследование влияния факторов, не учитываемых в модели,
10) рекомендации для практического применения полученных результатов;
11) формулировка выводов.
Обзор методов решения подобных задач
Решения по поставленной в курсовой работе задаче в страховых компаниях принимаются андеррайтерами. Альтернативой экспертному андеррайтингу (то есть принятию страховых решений на основании личного опыта) служит современный способ прогнозирования риска — расчет страхового рейтинга, основанный на данных, полученных в результате анализа анкеты клиента специальной скоринговой системой
В частности, компания Scorto™ Corporation на базе технологий кредитного скоринга позволяет страховым компаниям в принятии решения о страховании или отказе от страхования тех или иных объектов имущества граждан.
Однако данная компания, очевидно, что в коммерческих целях, в Internet- ресурсах не размещает алгоритмы и технологии решения поставленной задачи.
Существуют и другие методы, позволяющие решать схожие задачи с теми, которые решаются с помощью скоринговых моделей:
· статистические методы, основанные на дискриминантном анализе (линейная регрессия, логистическая регрессия);
· различные варианты линейного программирования;
· дерево классификации или рекурсионно-партиционный алгоритм (РПА);
· нейронные сети;
· метод ближайших соседей.
Традиционными и наиболее распространенными являются регрессионные методы, прежде всего линейная многофакторная регрессия :
р = wo + w1x1 + w2x2 + … + wnxn ,
где р - вероятность дефолта, w - весовые коэффициенты, x - характеристики клиента.
Недостаток данной модели заключается в том, что в левой части уравнения находится вероятность, которая принимает значения от 0 до 1, а переменные в правой части могут принимать любые значения от - ∞ до + ∞.
Логистическая регрессия позволяет преодолеть этот недостаток:
log (p/(1-p)) = wo + w1x1 + w2x2 + … + wnxn.
Для применения логистической регрессии необходимы гораздо более сложные расчеты для получения весовых коэффициентов и, следовательно, более мощная компьютерная база и усовершенствованное компьютерное обеспечение. Но при современном уровне развития компьютерной техники это не является проблемой, и в настоящее время логистическая регрессия является лидером скоринговых систем.
Преимущество логистической регрессии еще и в том, что она может подразделять клиентов как на две группы (0 -- плохой, 1 -- хороший), так и на несколько групп (1, 2, 3, 4 группы риска).
Все регрессионные методы чувствительны к корреляции между характеристиками, поэтому в модели не должно быть сильно коррелированных независимых переменных.
Линейное программирование также приводит к линейной скоринговой модели. Провести абсолютно точную классификацию на плохих и хороших клиентов невозможно, но желательно свести ошибку к минимуму. Задачу можно сформулировать как поиск весовых коэффициентов, для которых ошибка и будет минимальной.
Дерево классификации и нейронные сети представляют собой системы, которые разделяют клиентов на группы, внутри которых уровень риска одинаков и максимально отличается от уровня риска других групп. Нейронные сети используются главным образом при определении кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Но наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками благодаря их способности выявлять нестандартные ситуации.
При использовании метода ближайших соседей выбирается единица измерения для определения расстояния между клиентами. Все клиенты в выборке получают определенное пространственное положение. Каждый новый клиент классифицируется исходя из того, каких клиентов - плохих или хороших - больше вокруг него.
На практике используется комбинация нескольких методов, и компании хранят свои скоринговые модели в строжайшем секрете, поэтому целью данной курсовой работы и является самостоятельная разработка для страховых компаний автоматизированного механизма принятия решения о страховании или отказе от страхования личного транспорта граждан.
Построение математической модели
Пусть страховой компании на страхование принимаются несколько автомобилей, то есть имеется n объектов, характеризуемых параметрами, таких, например, как номер двигателя, учет в ГИБДД, год выпуска и др. Параметры обозначим x. Чтобы минимизировать риски, страховой компании необходимо определить, какие автомобили из предоставленных на страхование следует страховать, а какие – нет. То есть имеется функция F(x),
обозначающая принимаемое решение страховой компанией и зависящая от параметров х.
Формулирование задачи для решения на основе построенной математической модели
На основе вышеизложенной модели можно решить задачу в рамках множественной регрессии, где зависимая переменная F принимает фиксированные значения из некоторого заранее предопределенного набора.
То есть из предоставляемых на страхование автомобилей необходимо отобрать те, которые по своим характеристикам, параметрам подлежат страхованию. Для решения данной задачи я буду использовать модель бинарного выбора и скоринговую модель.
Модель бинарного выбора
Формулировка задачи
Пусть в рамках задачи множественной регрессии зависимая переменная Y принимает фиксированные значения из некоторого заранее предопределенного набора, т.е. моделируемому объекту приписывается выбор между двумя и более возможными альтернативами. В частности, модель с бинарной переменной включает отклик, принимающий два значения (обычно 0 и 1), а также регрессоры X, которые содержат факторы, определяющие альтернативный выбор.
Эта задача возникает, как правило, если моделируемый показатель измерен в порядковой шкале, которая принципиально не может быть преобразована в непрерывную числовую последовательность. Пусть, например, рассматривается оценка пола особи: мужской (0) или женский (1). Тогда построенная обычная линейная регрессия будет предсказывать абсурдные значения Y – дробные, отрицательные и больше единицы. Может быть, это как-то и интерпретируется с медицинской точки зрения, но в практике гидробиологических исследований такое будет едва ли возможно.
Для случая с качественной зависимой переменной требуется найти модель, которая порождала бы дискретное распределение E(Y | X), зависящее от X и хорошо описывающие исходные данные. Классическая модель регрессии не подходит для описания этой ситуации, поскольку предполагает, что зависимая переменная имеет непрерывное распределение.
С этой целью рассматривается логистическая регрессия, которая выражает статистическую связь в виде зависимости P{Y=1|X}=f(X), т.е. прогнозируется вероятность события {Y = 1}, обусловленная значениями независимых переменных X1,…,Xp. Геометрически суть задачи состоит в том, чтобы найти одну из возможных гиперплоскостей, которая бы в определенном смысле наилучшим образом разделяла бы две группы наблюдений (соответствующие 0 и 1) в пространстве регрессоров.