Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
курсовая Ксю.doc
Скачиваний:
33
Добавлен:
13.07.2019
Размер:
205.82 Кб
Скачать

Постановка задачи

Задача данной курсовой работы включает следующие подзадачи:

  1. описание предметной области;

  2. выявление актуальной проблемы в данной области;

  3. экономическая и математическая постановка проблемы, выявленной в данной области;

  4. обзор и описание методов решений подобных задач;

  5. построение математической модели;

  6. формулирование задачи для решения на основе построенной математической модели;

  7. непосредственно решение поставленной задачи;

  8. описание методов, использованных для решения поставленной задачи;

  9. проверка полученных результатов на их соответствие изучаемой системы, включая исследование влияния факторов, не учитываемых в модели,

10) рекомендации для практического применения полученных результатов;

11) формулировка выводов.

Обзор методов решения подобных задач

Решения по поставленной в курсовой работе задаче в страховых компаниях принимаются андеррайтерами. Альтернативой экспертному андеррайтингу (то есть принятию страховых решений на основании личного опыта) служит современный способ прогнозирования риска — расчет страхового рейтинга, основанный на данных, полученных в результате анализа анкеты клиента специальной скоринговой системой

В частности, компания Scorto™ Corporation на базе технологий кредитного скоринга позволяет страховым компаниям в принятии решения о страховании или отказе от страхования тех или иных объектов имущества граждан.

Однако данная компания, очевидно, что в коммерческих целях, в Internet- ресурсах не размещает алгоритмы и технологии решения поставленной задачи.

Существуют и другие методы, позволяющие решать схожие задачи с теми, которые решаются с помощью скоринговых моделей:

· статистические методы, основанные на дискриминантном анализе (линейная регрессия, логистическая регрессия);

· различные варианты линейного программирования;

· дерево классификации или рекурсионно-партиционный алгоритм (РПА);

· нейронные сети;

· метод ближайших соседей.

Традиционными и наиболее распространенными являются регрессионные методы, прежде всего линейная многофакторная регрессия :

р = wo + w1x1 + w2x2 + … + wnxn ,

где р - вероятность дефолта, w - весовые коэффициенты, x - характеристики клиента.

Недостаток данной модели заключается в том, что в левой части уравнения находится вероятность, которая принимает значения от 0 до 1, а переменные в правой части могут принимать любые значения от - ∞ до + ∞.

Логистическая регрессия позволяет преодолеть этот недостаток:

log (p/(1-p)) = wo + w1x1 + w2x2 + … + wnxn.

Для применения логистической регрессии необходимы гораздо более сложные расчеты для получения весовых коэффициентов и, следовательно, более мощная компьютерная база и усовершенствованное компьютерное обеспечение. Но при современном уровне развития компьютерной техники это не является проблемой, и в настоящее время логистическая регрессия является лидером скоринговых систем.

Преимущество логистической регрессии еще и в том, что она может подразделять клиентов как на две группы (0 -- плохой, 1 -- хороший), так и на несколько групп (1, 2, 3, 4 группы риска).

Все регрессионные методы чувствительны к корреляции между характеристиками, поэтому в модели не должно быть сильно коррелированных независимых переменных.

Линейное программирование также приводит к линейной скоринговой модели. Провести абсолютно точную классификацию на плохих и хороших клиентов невозможно, но желательно свести ошибку к минимуму. Задачу можно сформулировать как поиск весовых коэффициентов, для которых ошибка и будет минимальной.

Дерево классификации и нейронные сети представляют собой системы, которые разделяют клиентов на группы, внутри которых уровень риска одинаков и максимально отличается от уровня риска других групп. Нейронные сети используются главным образом при определении кредитоспособности юридических лиц, где анализируются выборки меньшего размера, чем в потребительском кредите. Но наиболее успешной областью их применения стало выявление мошенничества с кредитными карточками благодаря их способности выявлять нестандартные ситуации.

При использовании метода ближайших соседей выбирается единица измерения для определения расстояния между клиентами. Все клиенты в выборке получают определенное пространственное положение. Каждый новый клиент классифицируется исходя из того, каких клиентов - плохих или хороших - больше вокруг него.

На практике используется комбинация нескольких методов, и компании хранят свои скоринговые модели в строжайшем секрете, поэтому целью данной курсовой работы и является самостоятельная разработка для страховых компаний автоматизированного механизма принятия решения о страховании или отказе от страхования личного транспорта граждан.

Построение математической модели

Пусть страховой компании на страхование принимаются несколько автомобилей, то есть имеется n объектов, характеризуемых параметрами, таких, например, как номер двигателя, учет в ГИБДД, год выпуска и др. Параметры обозначим x. Чтобы минимизировать риски, страховой компании необходимо определить, какие автомобили из предоставленных на страхование следует страховать, а какие – нет. То есть имеется функция F(x),

обозначающая принимаемое решение страховой компанией и зависящая от параметров х.

Формулирование задачи для решения на основе построенной математической модели

На основе вышеизложенной модели можно решить задачу в рамках множественной регрессии, где зависимая переменная F принимает фиксированные значения из некоторого заранее предопределенного набора.

То есть из предоставляемых на страхование автомобилей необходимо отобрать те, которые по своим характеристикам, параметрам подлежат страхованию. Для решения данной задачи я буду использовать модель бинарного выбора и скоринговую модель.

Модель бинарного выбора

Формулировка задачи

Пусть в рамках задачи множественной регрессии зависимая переменная Y принимает фиксированные значения из некоторого заранее предопределенного набора, т.е. моделируемому объекту приписывается выбор между двумя и более возможными альтернативами. В частности, модель с бинарной переменной включает отклик, принимающий два значения (обычно 0 и 1), а также регрессоры X, которые содержат факторы, определяющие альтернативный выбор.

Эта задача возникает, как правило, если моделируемый показатель измерен в порядковой шкале, которая принципиально не может быть преобразована в непрерывную числовую последовательность. Пусть, например, рассматривается оценка пола особи: мужской (0) или женский (1). Тогда построенная обычная линейная регрессия будет предсказывать абсурдные значения Y – дробные, отрицательные и больше единицы. Может быть, это как-то и интерпретируется с медицинской точки зрения, но в практике гидробиологических исследований такое будет едва ли возможно.

Для случая с качественной зависимой переменной требуется найти модель, которая порождала бы дискретное распределение E(Y | X), зависящее от X и хорошо описывающие исходные данные. Классическая модель регрессии не подходит для описания этой ситуации, поскольку предполагает, что зависимая переменная имеет непрерывное распределение.

С этой целью рассматривается логистическая регрессия, которая выражает статистическую связь в виде зависимости P{Y=1|X}=f(X), т.е. прогнозируется вероятность события {Y = 1}, обусловленная значениями независимых переменных X1,…,Xp. Геометрически суть задачи состоит в том, чтобы найти одну из возможных гиперплоскостей, которая бы в определенном смысле наилучшим образом разделяла бы две группы наблюдений (соответствующие 0 и 1) в пространстве регрессоров.