РЕШЕНИЕ ЗАДАЧ ФИНАНСОВОГО АНАЛИЗА С ПОМОЩЬЮ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ1
Д.Ю. Мамонтов, студент, Т.С. Карасева, студент Научный руководитель – Е.С. Семенкин, д.т.н., профессор
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, г. Красноярск
E-mail: tatyanakarasewa@yandex.ru
Внастоящее время все более актуальным становится применение методов интеллектуального анализа данных в банковской сфере. Этому процессу способствует накопление банками больших объемов информации. В сложившейся экономической ситуации растет необходимость точной оценки кредитоспособности клиента с целью минимизации рисков невозврата денежных средств, анализа кредитного рынка в целом. Важным фактором является и увеличение мошенничества в банковской сфере.
Входе данной работы были протестированы методы классификации при решении пяти различных задач. Первая (№1) задача состояла в предсказании годового дохода клиента. Вторая (№2) задача состояла в определении принадлежности клиента к классам: кредит одобрен/не одобрен. Следующая (№3) задача состояла в определении готовности потенциального клиента подписать договор на срочный депозит. Четвертая (№4) задача заключалась в оценке процедуры аутентификации банкнот [1]. Пятая (№5) база данных содержала данные кредитных заявителей, каждому из которых присвоен статут одобрена/не одобрена выдача кредита [2]. Анализ данных осуществлялся с помощью системы RapidMiner [3].
Были созданы модели относительно целевого атрибута для каждой задачи. В ходе работы был создан процесс, содержащий методы классификации: наивный байесовский классификатор (NB); метод k ближайших соседей (k-NN); деревья решений (DT); индукция правил (IR); нейронная сеть (ANN); линейный дискриминантный анализ (LDA). С помощью оператора T-Test проведено сравнение используемых методов, чтобы увидеть, имеется ли между ними статистически значимое различие.
Полученные результаты для Задачи № 1 позволяют говорить о том, что такие методы как DT (точность классификации 84%), IR (83%) и NB (83%) демонстрируют лучшие среди всех использованных методов результаты. Худшую эффективность показывает LDA (65%).
Наибольшей эффективностью в Задаче № 2 обладают методы IR (84%) и DT (85%). Наихудший результат показывает метод ANN (53%).
Врешении Задачи № 3 наиболее эффективны ANN (86%), IR (89%), k-NN (88%), DT (86%), а наименьшую эффективность продемонстрировал LDA (50%).
Проанализировав данные, полученные в ходе решения Задачи № 4, мы сделали вывод о статистическом различии всех использованных методов. Наилучшим является метод k-NN (100%), а худшие показатели у LDA (60%).
Впоследней задаче наименьшую эффективность показал метод k-NN (64%). Результаты остальных методов не имеют статистически значимого различия.
На следующем этапе исследований был применен оператор ансамблирования Vote, использующий простое большинство голосов нескольких методов классификации, объединенных в ансамбль. Были созданы два типа ансамблей. Первый (Vote 1) содержит методы, показавшие наибольшую эффективность, второй (Vote 2) использует
1 Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.
два наиболее эффективных метода и метод с наименьшей эффективностью. Далее приведены результаты работы обоих типов ансамблей для каждой из 5 задач. В скобках указаны методы, включенные в ансамбль.
Задача №1: Vote 1 (NB, DT, IR) - 84,28%; Vote 2 (NB, DT, LDA) - 82,28%. Задача №2: Vote 1 (NB, DT, IR) - 89,14%; Vote 2 (IR, DT, LDA) - 90,28%. Задача №3: Vote 1 (ANN, DT, IR) - 88,50%; Vote 2 (IR, ANN, LDA) - 85,29%. Задача №4: Vote 1 (k-NN, DT, IR) - 98,91%; Vote 2 (k-NN,DT, LDA) - 99,27%. Задача №5: Vote 1 (NB, DT, LDA) - 76,50%; Vote 2 (k-NN, DT, LDA) - 71,50%.
Последние мета-методы, которые были опробованы, это – баггинг (BG) и бустинг (BT). Далее приведены результаты для всех задач. В скобках указаны алгоритмы, для которых применялись выбранные мета-методы.
Задача №1. BG (DT): 83,72%; BT (DT): 83,45%. Задача №2. BG (IR): 92,57%; BT (IR): 89,06%. Задача №3. BG (DT): 93,17%; BT (DT): 94,07%. Задача №4. BG (k-NN): 93,80%; BT (k-NN): 100%. Задача №5. BG (LDA): 76,50%; BT (LDA): 77,00%.
Можно сделать вывод, что для различных задач финансового анализа эффективными оказываются различные методы, выбор которых связан со значительными затратами времени специалистов в области анализа данных. Это значит, что необходимо использовать методы, которые могут автоматически настраиваться на решаемую задачу, не требуя от банковских работников экспертных знаний в области интеллектуального анализа данных. Используемая система Rapid Miner не предоставляет таких возможностей, поэтому следует использовать другие системы, содержащие, например, такие подходы, как генетическое программирование [4], в том числе самонастраивающиеся методы [5].
Список литературы:
1. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 4.12.2014).
2.Applied Data Mining and Statistical Learning, Analysis of German Credit Data [Электронный ресурс]. URL: https://onlinecourses.science.psu.edu/stat857/node/215 (дата обращения: 10.09.2015)
3.RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 18.12.2014).
4.Семенкин Е.С., Шабалов А.А., Ефимов С.Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. 2011. № 3 (36). С. 7781.
5.Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012 2012. С. 6256587.