Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методичка_Нейросетевые структуры_ч1.doc
Скачиваний:
44
Добавлен:
18.11.2019
Размер:
1.71 Mб
Скачать

3.3.3. Методы инициализации весов и подбора обучающих данных

Обучение НС, даже при использовании самых эффективных алгоритмов, – достаточно трудоемкий процесс, зависящий от многих факторов. Один из них – выбор начальных значений весов сети. Идеальными считаются начальные значения wij, достаточно близкие к оптимальным, когда не только устраняются задержки в точках локальных минимумов, но и значительно ускоряется процесс обучения. Универсального метода выбора нет, поэтому в большинстве практических реализаций используется случайная инициализация с равномерным распределением значений wij в заданном интервале. Чтобы стартовая точка активации нейронов лежала достаточно далеко от зоны насыщения, в качестве такого интервала чаще всего выбирают (0,1). Хорошие результаты дает равномерное распределение весов, нормализованное для каждого нейрона по амплитуде , где Nin – количество входов нейрона. Веса порогов скрытых нейронов должны принимать случайные значения из интервала (–1/win, 1/win), а выходных нейронов – нулевые значения.

Д остаточно серьезным фактором, влияющим на качество обучения НС, является подбор обучающих данных. С точки зрения цели функционирования НС можно рассматривать как векторный классификатор, определяющий принадлежность каждого входного вектора к конкретной группе. Нейроны первого скрытого слоя образуют гиперплоскости, разделяющие N–мерное пространство входных данных на кластеры, нейроны следующего (чаще выходного) слоя идентифицируют кластеры. При ограниченном числе обучающих выборок их размещение относительно конкретных гиперплоскостей становится очень важным. Наилучшие результаты достигаются в тех случаях, когда они располагаются с разных сторон границ гиперплоскостей, разделяющих пространство данных. Примеры выбора обучающих точек для разделения универсального множества показаны на рис. 3.6. Неудачный выбор обучающих данных потребует использования 3–х скрытых нейронов (рис. 3.6 а), при корректном выборе будет достаточно одного (рис. 3.6 б), поскольку подмножества B и D оказываются пустыми. Видно, что оптимальному случаю соответствует выбор обучающих данных по границам областей, поэтому весьма важной является любая предварительная информация о количестве областей, по которым распределены эти данные.

3.3.4. Обеспечение устойчивости функционирования нс

После определения оптимальной архитектуры ИНС, выбора начальных значений параметров, подготовки обучающих данных и хорошего обучения актуальной становится задача обеспечения стабильности выходных сигналов, т.е. устойчивости функционирования НС. Разработчики нейрокомпьютеров (НК) выделяют четыре типа устойчивости:

  1. к случайным возмущениям входных сигналов;

  2. к флуктуациям параметров сети;

  3. к разрушению части элементов НС;

  4. к обучению новым примерам.

Для выработки устойчивости первых трех типов целесообразно использовать генераторы случайных искажений, которые для устойчивости 1-го типа производят возмущение входных сигналов (преобразуют обучающий пример), для устойчивости 2–го типа – случайным образом меняют параметры сети в заданных пределах, а для устойчивости 3–го типа – удаляют случайно выбранную часть НС, состоящую из заданного количества элементов (нейронов, связей).

Средствами обучения устойчивости 4–го типа, вообще говоря, являются выработка устойчивости либо 1–го, когда возмущение состоит в изменении процесса обучения, либо 2–го типа, когда определяющую роль играет случайный сдвиг параметров. Опыт показывает, что обучение позволяет выработать устойчивость к весьма сильным возмущениям. Так, в задачах распознавания образов уровень шума мог в несколько раз превосходить полезный сигнал, случайный сдвиг параметров – достигать 0,5–0,7 их идеального значения, разрушение – 30–50% элементов. И, тем не менее, обученная сеть делала не более 10% ошибок!

Контрольные вопросы

  1. Дайте определение и приведите классификацию НС.

  2. Приведите теорему Колмогорова–Арнольда–Хехт–Нильсена и следствия из нее.

  3. Какие критерии используются для сравнения методов обучения НС?

  4. На чем основано и в чем заключается обучение ИНС?

  5. Что лежит в основе градиентных методов обучения?

  6. Опишите универсальный оптимизационный алгоритм обучения НС.

  7. Дайте характеристику градиентных методов 1–го порядка.

  8. В чем заключается основная идея оптимизации с помощью АПМ?

  9. На чем основано обучение ИНС с помощью АЛМ?

  10. Какова основная особенность оптимизации функций в методе АСГ?

  11. Охарактеризуйте эвристические методы обучения НС.

  12. Как осуществляется и на что влияет подбор коэффициентов обучения в детерминированных алгоритмах оптимизации?

  13. Что показывает сравнение детерминированных методов обучения НС?

  14. Почему при обучении ИНС наибольшую эффективность обеспечивают глобальные методы оптимизации?

  15. Поясните основные этапы метода имитации отжига и его зависимость от выбора параметров T, L, r.

  16. Охарактеризуйте основные операции ГА и методы их реализации.

  17. Как осуществляется глобальная оптимизация в методе виртуальных частиц?

  18. Определите основные этапы практического построения и обучения НС.

  19. Чем определяется и как выбирается оптимальная архитектура НС?

  20. На какие подмножества разбивается область входных данных при решении задач с помощью НС?

  21. В чем заключается и как проявляется эффект гиперразмерности НС?

  22. Что такое погрешность обучения и погрешность обобщения? Как они изменяются при обучении НС?

  23. Какие алгоритмы сокращения НС Вы знаете? В чем их отличие?

  24. Как осуществляется редукция НС с учетом чувствительности E(w) к весу wij?

  25. В чем заключается использование штрафных функций при редукции НС?

  26. Как осуществляется начальная инициализация весов при обучении НС? На что она влияет?

  27. Каким образом сказывается на эффективности обучения НС выбор обучающих данных?

  28. Расскажите о методах обеспечения стабильности функционирования ИНС.