Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
3
Добавлен:
16.03.2016
Размер:
101.46 Кб
Скачать

О ПРИМЕНЕНИИ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ1

Д.В. Дресвянский, студент С.А. Митрофанов, студент

Сибирский государственный аэрокосмический университет

Российская федерация, 660037, г. Красноярск, пр. имени газеты «Красноярский рабочий», 31,

E-mail: ecodenis@yandex.ru markus1995@mail.ru

Распознавание изображений – одно из самых интенсивно развивающихся направлений в области информационных технологий. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки аналоговых сигналов и медицинской диагностики. В общем случае распознавание изображений – это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных.

В настоящей работе использованы 5 баз данных, в которых информация содержатся в виде численных значений закодированных пикселей. В соответствии с содержанием баз данных определилось пять задач:

1)Распознавание типа почвы по снимкам со спутника.

2)Распознавание объектов в городском ландшафте.

3)Распознавание цифры по рукописи.

4)Распознавание типа автомобиля.

5)Распознавание объекта в сегментированном изображении.

Для обучения системы были применены 10 методов классификации объектов, реализованные с помощью программы RapidMiner [1]: нейронная сеть (NN), метод k ближайших соседей (k-NN), деревья решений (DT), индуктивный вывод правил (RI), метод опорных векторов (SVM), многослойный персептрон (MLP), наивный байесовский классификатор (NB), метод линейной регрессии (LR), линейный дискриминантный анализ (LDA), случайный лес (RF).

Для решения этих задач определялись самые эффективные методы, которые по критерию Стьюдента (t-test) не обладают значимыми статистическими различиями между собой, но имеют их в сравнении с остальными используемыми методами.

Результаты эффективности всех перечисленных методов представлены в таблице

1.

Кроме того, для повышения эффективности решения задачи найденные лучшие методы были собраны в ансамбли. В то же время, методы, которые поодиночке справляются с некоторой задачей классификации плохо, вместе могут решать эту задачу лучше. Поэтому в данной работе также были собраны в ансамбли три наихудших метода и все методы, использованные нами.

Однако не только ансамбли могут повышать эффективность. Поэтому был применен бустинг по алгоритму AdaBoost [2] (сокращение от Adaptive Boosting) к нескольким методам, которые были использованы в данной работе. Результаты бустинга и ансамблей представлены в таблице 2.

1 Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037

Номер

задачи

1

2

3

4

5

Таблица 1.

Эффективность различных методов в задачах распознавания изображений.

 

NN

 

MLP k-NN SVM

 

 

RI

 

 

NB

 

RF

 

DT

 

LDA

 

LR

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

89,56

89,87

90,71

90,8

85,8

79,6

68,73

83,08

79,42

76,19

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

77,04

73,47

29,18

18,37

73,8

81,05

43,26

78,82

73,47

74,23

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

91,72

92,70

 

97,68

 

98,14

 

88,74

82,15

 

69,22

 

88,64

 

82,22

 

82,26

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

82,60

 

81,53

 

65,32

 

68,28

 

68,65

46,29

 

57,98

 

63,33

 

76,56

 

75,39

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

71,63

95,8

 

 

96,32

15,67

95,11

79,39

68,35

95,84

14,29

74,82

Номер

NB

задачи

 

 

 

 

1

75,55

2

 

73,37

 

3

 

80,24

 

4

 

23,43

 

5

 

76,92

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2.

 

 

Эффективность методов, подвергшихся бустингу, и ансамблей.

Бустинг по алгоритму

AdaBoost

 

 

 

 

 

 

 

 

Ансамбли

 

 

 

 

 

 

 

 

RI

 

DT

 

k-NN

NN

 

3

 

 

 

 

 

 

3

 

 

 

 

 

 

Все

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

лучших

 

 

 

худших

 

 

 

методы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

86,17

 

34,65

 

87,78

 

 

85,71

 

89,35

 

 

 

 

77,62

 

 

 

 

88,66

 

 

 

 

66,22

 

44,16

 

28,72

 

 

75,85

 

83,40

 

 

 

32,57

 

 

 

82,66

 

 

 

 

93,10

 

88,72

 

97,70

 

 

91,76

 

96,30

 

 

 

82,97

 

 

 

92,70

 

 

 

 

70,66

 

52,94

 

60,62

 

 

79,74

 

60,23

 

 

 

61,18

 

 

 

75,97

 

 

 

 

47,87

 

70,55

 

91,72

 

 

65,73

 

97,36

 

 

 

18,53

 

 

 

96,49

 

 

 

Эффективность методов классификации, ансамбле и методов, подвергшиеся бустингу, были сравнены по Т-критерию Стьюдента [3], чтобы узнать, какой вариант для каждой базы данных наиболее надежен и эффективен.

Как видно из таблиц 1 и 2, для различных задач подходят разные варианты.

Для задачи 1 бустинг и ансамбли не дали желаемых результатов, а лишь ухудшили работу алгоритмов. Таким образом, для решения данной задачи лучшими являются методы SVM и k-NN. С точки зрения статистики, они значимо не различаются и их можно использовать равноправно.

Для задачи 2 наилучшим решением оказались ансамбли, состоящие из всех методов и ансамбли, состоящие из лучших методов (NB, NN, DT). Эти ансамбли, также статистически не различаются и их можно использовать равнозначно для решения данной задачи.

Взадаче 3 бустинг k-NN незначительно увеличил эффективность метода, поэтому в равной мере можно использовать как обычный метод, так и модернизированный. Обычный SVM от них статистически не отличается и тоже может использоваться для классификации по данной базе.

Взадаче 4 определенно рекомендуется использовать нейронную сеть, так как она показала лучшую эффективность, значительно отличающуюся от остальных методов.

Взадаче 5 лучшим вариантом решения оказался ансамбль из лучших методов, состоящий их k-NN, DT и MLP. По результатам t-test он имеет значимые отличия от других методов.

Таким образом, результаты оказались неопределенными, что не позволяет однозначно выбрать наилучший подход в задачах распознавания изображений. Это значит, что необходимо строить более мощные, а лучше - адаптивные методы, которые смогут автоматически настраиваться на решаемую задачу. Сделать это в рамках используемой системы RapidMiner не представляется возможным, поэтому следует

использовать другие подходы. Примером таких подходов являются бионические и эволюционные алгоритмы [4, 5, 6], особенно в самоадаптивных вариантах [7, 8].

Список литературы:

1.RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 23.06.2015).

2.Freund Y., Schapire R.E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of Computer and System Sciences, no. 55, 1997.

3.А. А. Корнеев, А. Н. Кричевец. Условия применимости критериев Стьюдента и Манна-Уитни. // Психологический журнал, 2011, том 32, № 1, с. 97–110.

4.Akhmedova S., Semenkin E. Data mining tools design with co-operation of biology related algorithms // Lecture Notes in Computer Science. 2014. Т. 8794. С. 499-506.

5.Семенкин Е.С., Шабалов А.А., Ефимов С.Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. 2011. № 3 (36). С. 7781.

6.Семенкин Е.С., Семенкина М.Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. 2007.

3 (16). С. 27-33.

7.Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012 2012. С. 6256587.

8.Akhmedova S., Semenkin E. Co-operation of biology related algorithms // 2013 IEEE Congress on Evolutionary Computation, CEC 2013 2013. С. 2207-2214.

Соседние файлы в папке 3-Prikladnye-informacionnye-tehnologii