Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
3
Добавлен:
16.03.2016
Размер:
78.72 Кб
Скачать

РЕШЕНИЕ ЗАДАЧ ФИНАНСОВОГО АНАЛИЗА С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ1

Д.Ю. Мамонтов, студент, Т.С. Карасева, студент Научный руководитель – Е.С. Семенкин, д.т.н., профессор

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, г. Красноярск

E-mail: tatyanakarasewa@yandex.ru

Внастоящее время все более актуальным становится применение методов интеллектуального анализа данных в банковской сфере. Этому процессу способствует накопление банками больших объемов информации. В сложившейся экономической ситуации растет необходимость точной оценки кредитоспособности клиента с целью минимизации рисков невозврата денежных средств, анализа кредитного рынка в целом. Важным фактором является и увеличение мошенничества в банковской сфере.

Входе данной работы были протестированы методы классификации при решении пяти различных задач. Первая (№1) задача состояла в предсказании годового дохода клиента. Вторая (№2) задача состояла в определении принадлежности клиента к классам: кредит одобрен/не одобрен. Следующая (№3) задача состояла в определении готовности потенциального клиента подписать договор на срочный депозит. Четвертая (№4) задача заключалась в оценке процедуры аутентификации банкнот [1]. Пятая (№5) база данных содержала данные кредитных заявителей, каждому из которых присвоен статут одобрена/не одобрена выдача кредита [2]. Анализ данных осуществлялся с помощью системы RapidMiner [3].

Были созданы модели относительно целевого атрибута для каждой задачи. В ходе работы был создан процесс, содержащий методы классификации: наивный байесовский классификатор (NB); метод k ближайших соседей (k-NN); деревья решений (DT); индукция правил (IR); нейронная сеть (ANN); линейный дискриминантный анализ (LDA). С помощью оператора T-Test проведено сравнение используемых методов, чтобы увидеть, имеется ли между ними статистически значимое различие.

Полученные результаты для Задачи № 1 позволяют говорить о том, что такие методы как DT (точность классификации 84%), IR (83%) и NB (83%) демонстрируют лучшие среди всех использованных методов результаты. Худшую эффективность показывает LDA (65%).

Наибольшей эффективностью в Задаче № 2 обладают методы IR (84%) и DT (85%). Наихудший результат показывает метод ANN (53%).

Врешении Задачи № 3 наиболее эффективны ANN (86%), IR (89%), k-NN (88%), DT (86%), а наименьшую эффективность продемонстрировал LDA (50%).

Проанализировав данные, полученные в ходе решения Задачи № 4, мы сделали вывод о статистическом различии всех использованных методов. Наилучшим является метод k-NN (100%), а худшие показатели у LDA (60%).

Впоследней задаче наименьшую эффективность показал метод k-NN (64%). Результаты остальных методов не имеют статистически значимого различия.

На следующем этапе исследований был применен оператор ансамблирования Vote, использующий простое большинство голосов нескольких методов классификации, объединенных в ансамбль. Были созданы два типа ансамблей. Первый (Vote 1) содержит методы, показавшие наибольшую эффективность, второй (Vote 2) использует

1 Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.

два наиболее эффективных метода и метод с наименьшей эффективностью. Далее приведены результаты работы обоих типов ансамблей для каждой из 5 задач. В скобках указаны методы, включенные в ансамбль.

Задача №1: Vote 1 (NB, DT, IR) - 84,28%; Vote 2 (NB, DT, LDA) - 82,28%. Задача №2: Vote 1 (NB, DT, IR) - 89,14%; Vote 2 (IR, DT, LDA) - 90,28%. Задача №3: Vote 1 (ANN, DT, IR) - 88,50%; Vote 2 (IR, ANN, LDA) - 85,29%. Задача №4: Vote 1 (k-NN, DT, IR) - 98,91%; Vote 2 (k-NN,DT, LDA) - 99,27%. Задача №5: Vote 1 (NB, DT, LDA) - 76,50%; Vote 2 (k-NN, DT, LDA) - 71,50%.

Последние мета-методы, которые были опробованы, это – баггинг (BG) и бустинг (BT). Далее приведены результаты для всех задач. В скобках указаны алгоритмы, для которых применялись выбранные мета-методы.

Задача №1. BG (DT): 83,72%; BT (DT): 83,45%. Задача №2. BG (IR): 92,57%; BT (IR): 89,06%. Задача №3. BG (DT): 93,17%; BT (DT): 94,07%. Задача №4. BG (k-NN): 93,80%; BT (k-NN): 100%. Задача №5. BG (LDA): 76,50%; BT (LDA): 77,00%.

Можно сделать вывод, что для различных задач финансового анализа эффективными оказываются различные методы, выбор которых связан со значительными затратами времени специалистов в области анализа данных. Это значит, что необходимо использовать методы, которые могут автоматически настраиваться на решаемую задачу, не требуя от банковских работников экспертных знаний в области интеллектуального анализа данных. Используемая система Rapid Miner не предоставляет таких возможностей, поэтому следует использовать другие системы, содержащие, например, такие подходы, как генетическое программирование [4], в том числе самонастраивающиеся методы [5].

Список литературы:

1. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 4.12.2014).

2.Applied Data Mining and Statistical Learning, Analysis of German Credit Data [Электронный ресурс]. URL: https://onlinecourses.science.psu.edu/stat857/node/215 (дата обращения: 10.09.2015)

3.RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 18.12.2014).

4.Семенкин Е.С., Шабалов А.А., Ефимов С.Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. 2011. № 3 (36). С. 7781.

5.Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012 2012. С. 6256587.

Соседние файлы в папке 3-Prikladnye-informacionnye-tehnologii