Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный открытый университет им. В. С. Черномырдина

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ОСИИ учебное пособие / книга ии.doc

Скачиваний:

719

Добавлен:

19.03.2015

Размер:

1.78 Mб

Скачать

☆

<<< < Предыдущая 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4038 39 40 > Следующая >>>

§ 3.14.2. Многослойный персептрон и алгоритм обратного

распространения ошибки.

Строгие математические доказательства М. Минского и С. Пайперта были неуязвимы. Всеобщий энтузиазм сменился не менее всеобщим пессимизмом. Правительство США прекратило финансирование нейропроектов, и персептроны были преданы забвению, длившемуся более 20 лет.

Тем не менее, работы в области нейросетевых и нейрокомпьютерных технологий продолжались отдельными наиболее настойчивыми исследователями. Многие понимали, что надо усложнять структуру персептронов, т. е. продолжать приближать компьютерную модель к оригиналу — человеческому мозгу. Оказалось, что проблему «Исключающее ИЛИ» можно решить с помощью двухслойного персептрона, изображенного на рис.3.26.

Рис.3.26. Двухслойный персептрон, реализующий функцию

«Исключающее ИЛИ»

Работа этого персептрона происходит по следующему алгоритму.

Нейрон № 1: S₁=0,5х₁ + (-0,5)х₂; y₁= 1, если S₁θ; y₁= 0, если S₁<θ.

Нейрон № 2: S₂=(-0,5)x₁ +0,5x₂; у₂ = 1, если S₂θ; у₂ = 0, если S₂ <θ.

Нейрон № 3: S₃=lx_l+lx₂; y₃ = 1, если S₃ θ; y₃= 0, если S₃ <θ.

С помощью этих формул легко проверить таблицу истинности персептрона, составленную при задании порога θ= 0,5 (табл.3.9).

Таблица 3.9

Таблица истинности двухслойного персептрона (см. рис.3.26)

x₁	x₂	S₁	S₂	y₁	y₂	S₃	y₃	y
0	0	0	0	0	0	0	0	0
0	1	-0,5	0,5	0	1	1	1	1
1	0	0,5	-0,5	1	0	1	1	1
1	1	0	0	0	0	0	0	0

Советским ученым С.О. Мкртчяном был разработан специальный математический аппарат, позволяющий без обучения строить многослойные персептроны, моделирующие любые булевы функции.

Многие исследователи понимали, что объединение нейронов в нейронные сети расширяет класс задач, решаемых персептроном, но не представляли, как такие сети обучать. Простые и изящные правила Хебба и их обобщение — дельта-правило — годились только для корректировки синаптических весов нейронов выходного слоя, тогда как вопрос о настройке параметров внутренних нейронных слоев оставался открытым.

Эффективный алгоритм обучения многослойных персептронов, открывший путь для их широкого практического применения, стал известен только в 1986 г., благодаря работе Румельхарта, Хилтона и Вильямса. Интересно, что данный фундаментальный алгоритм, называемый алгоритмом обратного распространения ошибки (back propagation), был предложен на один год ранее в работах Паркера и Ле-Кана, изданных независимо одна от другой. Более того, еще в 1974 г. этот простой и изящный алгоритм обратного распространения ошибки был защищен Вербосом в его докторской диссертации. Однако тогда он остался незамеченным и только спустя более десяти лет был «переоткрыт» заново и получил всеобщее признание и применение.

Рассмотрим идею алгоритма обратного распространения ошибки, попытавшись обобщить дельта-правило для случая обучения двухслойного персептрона, имеющего N входов, I выходов и скрытый слой из J нейронов (рис.3.27). Алгоритм корректировки синаптических весов нейронов выходного слоя оставим таким же, как для однослойного персептрона, заменив x_j на у_j.

w_ij(t+1) = w_ij(t) + Δw_ij; (3.11)

Δw_ij=ηδ_iy_j; (3.12)

(3.13)

Рис. 3.27. Двухслойный персептрон с N входами, I выходами и скрытым слоем из J нейронов

Синаптические веса нейронов скрытого слоя попытаемся корректировать с помощью тех же самых формул, в которых индекс i заменим на j, а индекс j - на n: (3.14)

(3.15)

Понятно, что в последнем выражении в качестве у_n следует использовать х_n. Однако неясным здесь остается вопрос о вычислении нейронной ошибки (d_j - y_j), которая для скрытого слоя неизвестна. Идея авторов рассматриваемого алгоритма состояла в том, чтобы в качестве этой ошибки использовать суммарные ошибки с выходного слоя, помноженные на силы соответствующих синаптических связей, т.е. (3.16)

Итак, для скрытого слоя окончательно имеем: (3.17)

(3.18)

Используя эту идею, несложно расписать алгоритм обратного распространения ошибки для обучения персептрона, имеющего произвольное число скрытых слоев. Однако прежде внесем еще одно изменение в модель нейрона. К сумме, которую вычисляет нейрон, полезно добавить некоторое число, называемое порогом, или смещением:

(3.19)

Смещение w_i₀ задается так же, как и синаптические веса w_ij, т.е. датчиком случайных чисел. Ввод смещения в формулу преобразования нейрона можно интерпретировать как добавление еще одного входного сигнала x₀, который всегда равен единице. Поэтому, чтобы не усложнять выкладки, сумму (3.19) представим в более компактном виде (приняв x₀= 1):

(3.20)

Алгоритм обратного распространения ошибки распишем для многослойного персептрона, имеющего входной слой k= 0, несколько скрытых слоев k=1,2,...,К-1 и выходной слой k=K (рис.3.28). Нейроны входного слоя математических преобразований не выполняют, а лишь передают входные сигналы нейронам первого слоя.

Рис.3.28. Многослойный персептрон (MLP — MultiLayerPerseptron)

Будем полагать, что каждый k-й слой содержит H_k нейронов. Таким образом, персептрон имеет N =H₀ входов и М= H_К выходов. В алгоритме будем использовать следующие обозначения: i - порядковый номер нейрона k-го слоя; j - порядковый номер нейрона (k-1)-го слоя; l - порядковый номер нейрона (k+1)-го слоя.

Шаг 1. Инициализация синаптических весов и смещений.

В циклах по k=1,2,...,К; i=1,2,...,H_k; j =1,2,...,Н_k_-1 синаптическим весам и смещениям w_ij⁽^k⁾ датчиком случайных чисел присваиваются малые величины, например, из интервала от -1 до 1.

Шаг 2. Представление из обучающей выборки очередного входного вектора X_q=(х₁,х₂,...,x_N)_q и соответствующего ему желаемого выходного вектора D_q=(d₁,d₂, ...,d_M)_q, где q - номер примера в обучающей выборке.

Шаг 3. Прямой проход.

В циклах по k=1,2,...,К; i=1,2,...,Н_k вычисляются выходные сигналы i-го нейрона в k-м слое

(3.21)

где y_j⁽⁰⁾ =x_j, x₀=1, y_j⁽^k^-1) = 1 и выходные сигналы персептрона y_i=y_i⁽^K⁾.

Шаг 4. Обратный проход.

В циклах по k= К,К-1,...,1; i=1,2,...,H_k;j=1,2, ...,H_k_-1 вычисляются синаптические веса на новой эпохе

(3.22)

где (3.23)

причем для выходного слоя k= К согласно (3.13)

а для всех других случаев согласно (3.18)

(3.24)

Шаг 5. Повторение шагов 2 - 4 необходимое число раз.

Входные векторы обучающих примеров Х_q и D_q на втором шаге алгоритма обычно представляются последовательно от первого до последнего, т.е. q=1,2,...,Q, где Q - общее число примеров. Например, в случае распознавания букв русского алфавита Q=33. После того как для каждого обучающего примера будут скорректированы весовые коэффициенты персептрона, т.е. шаги 2-4 будут повторены 33 раза, на пятом шаге алгоритма вычисляется среднеквадратичная ошибка, усредненная по всем обучающим примерам:

(3.25)

Помимо среднеквадратичной ошибки может быть также оценена максимальная разность между желаемым и фактическим выходами персептрона:

(3.26)

Итерационный процесс заканчивается после того, как погрешность ε, вычисляемая по формулам (3.25) или (3.26), достигнет заданной величины, либо при достижении предельного числа эпох обучения. В результате персептрон обучится выполнять нужное отображение любого входного вектора Х_q на выходной вектор Yq, отличающийся от желаемого вектора D_q на некоторую малую величину.

Теперь представим себе, что на входное табло фотоэлементов попала карточка с какой-либо буквой, выполненной другим шрифтом. Фотоэлементы сформируют входной вектор X, не совпадающий ни с одним из векторов из использованной обучающей выборки. Если шрифт, которым выполнена входная буква не слишком отличается от шрифта обучающей выборки, а персептрон хорошо спроектирован и обучен, то он вычислит вектор Y, в котором выход нейрона, соответствующего представленной на вход букве, будет иметь максимальное значение. Таким образом, персептрон, несмотря на помехи и искажения входного образа, выдаст правильное заключение о его принадлежности к тому или иному классу. Свойство персептрона правильно реагировать на входные образы, которых не было в обучающей выборке, называется свойством обобщения.

<<< < Предыдущая 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3738 / 4038 39 40 > Следующая >>>

Соседние файлы в папке ОСИИ учебное пособие

#
19.03.20151.78 Mб719книга ии.doc
#
19.03.201578.34 Кб34обложка ИИ.doc
#
19.03.201564.51 Кб43рис 1.5-6мон1.DOC
#
19.03.201587.04 Кб51Рисунки.doc