Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
82
Добавлен:
01.05.2014
Размер:
1.15 Mб
Скачать

Санкт-Петербургский

государственный электротехнический университет

ЛЭТИ”

______________________________________________________________________

кафедра МОЭВМ

Отчет

по лабораторной работе №3

Проектирование и исследование ИНС для классификации нелинейно разделимых образов

Выполнил: студент гр. 3341 Рыжок М.С.

Проверил: доцент Лисс А.А.

Санкт-Петербург, 2007

Лабораторная работа №3.

Проектирование и исследование ИНС для классификации нелинейно разделимых образов

Часть 1. Многослойный персептрон и Радиальная базисная функция

Цель работы:

Научиться проектировать архитектуры и подбирать параметры обучения для Многослойного персептрона и Радиальной базисной функции для классификации образов, не разделимых линейно.

Задания:

1. Требуется спроектировать различные архитектуры сетей для разделения образов на 4 класса. Для этого:

  • сформировать представительный набор данных для обучения сети. Классифицируемые данные – точки на координатной плоскости, определяющие 4 различных области или класса (см. рисунок).

2. Спроектировать и обучить с помощью SNN многослойный персептрон, решающий задачу классификации сформированного набора данных.

Исследовать способность сети к обобщению (к классификации образов, не принадлежащих обучающей выборке).

3. Спроектировать и обучить с помощью SNN сеть РБФ, решающую ту же задачу.

Также исследовать способность сети к обобщению.

4. Сравнить качество функционирования и обучения для двух сетей.

Выполнение задания

Обучающая выборка

Обучение сети

Добавим к данным новые точки, принадлежащие различным классам.

Проверьте реакцию сети на эти данные:

Ввиду проведенного опыта можно заметить, что сеть способна к обобщению (к классификации образов, не принадлежащих обучающей выборке). Она отнесла добавленные координаты в те классы, которым они пренадлежат.

Метод обучения – радиальная базисная функция

случайная выборка Sample:

метод К-средних K-means:

отклонение Explicit:

отклонение Isotropic:

отклонение K-Nearest:

Вывод:

Выбор центров:

1) В кач-ве центров скрытых элементов берутся несколько случайно выбранных точек обучающего множества.

Недостаток: если число скрытых элементов невелико, такое представление – неудовлетворительно

2) Осуществляется выбор множества точек, являющихся центрами кластеров обучающих данных.

Выбор отклонений:

2) Отклонения берутся одинаковыми для всех скрытых элементов. При Значение  определяется с помощью: d=1/22. Значение d задается в поле Deviation.

3) При выборе изотропного алгоритма отклонения вычисляются по правилу k/d2, где d – расстояние между двумя наиболее удаленными центрами, а k – число центров (т.е. радиальных элементов). Затем это значение умножается на значение в поле Deviation, которое в этом случае лучше выбирать равным 1.

4) Алгоритм задания отклонений по К ближайшим соседям использует для этого среднеквадратичное расстояние от каждого элемента до ближайших к нему элементов. Т.е. отклонение для каждого элемента вычисляется отдельно и зависит от того, насколько густо расположены данные в его окрестности. Вычисленное расстояние умножается на коэффициент в поле deviation. Это сделано для более точной настройки алгоритма. Число соседей задается в поле Neighbors.

Вывод:

1. Научились проектировать архитектуры и подбирать параметры обучения для Многослойного персептрона и Радиальной базисной функции для классификации образов, не разделимых линейно.

2. В процессе обучения весовые коэффициенты сети преобразования данных настраиваются так, чтобы она могла воспроизводить выходные данные, содержащиеся в предъявляемых ей обучающих парах. В результате процесса обучения сеть запоминает все обучающие данные, т.е. правильно реагирует на тесты, совпадающие с ними. Однако кроме способности помнить данные обучающей выборки сеть должна обладать способностью к обобщению.

Обобщение – способность сети корректно осуществлять преобразование вход/выход как для примеров из обучающего множества, так и для, не использованных при обучении. Значит это способность ИНС к нелинейной интерполяции входных данных.

Можно выделить два необходимых условия для существования способности сети к обобщению:

1) гладкость нелинейного преобразования, выполняемого сетью, т.е. небольшим приращением выходных. Это условие не всегда соблюдается, особенно если обучающие данные получены в ходе реальных экспериментов и содержат помехи;

2) набор обучающих данных должен быть достаточно представительным. т.е. с одной стороны,, время его обработки не должно быть слишком большим, а с другой – он должен полностью учитывать все особенности решаемой задачи преобразования данных.

3. Многослойные нейронные сети являются наиболее известными и применяемыми среди сетей прямого распространения. Доказана возможность их использования при решении задач преобразования данных, т.е. задач классификации, обработки изображений, при разработке систем идентификации и управления, в системах обработки сигналов и т.д. Главное достоинство – многослойная нейронная сеть, обученная с помощью этого алгоритма, способна решать задачи классификации линейно неразделимых образов. Однако алгоритм имеет некоторые ограничения, главное из которых – длительный процесс обучения, обусловленный рядом причин. Это и неправильный выбор шага при обучении градиентными методами (скорости обучения), и неудачно спроектированная архитектура сети, и возможность попадения сети в локальный минимум, которая присуща всем градиентным методам.

4. Важнейшей характеристикой сетей преобразования данных, т.е. сетей, которые могут после обучения реализовать заданное соответствие, является способность к обобщению. Для того, чтобы сеть обладала способностью к обобщению, в результате обучения не должно возникнуть ни переобучения, ни недообучения. Большое значение имеет подготовка набора обучающих данных. Их не должно быть слишком много, чтобы избежать переобучения и минимизировать время обучения, но набор данных должен быть представительным, чтобы сеть могла производить интерполяцию.

5. Сеть РБФ, как и семейство персептронов, используется для решения широкого класса задач преобразования данных, в частности, это задачи классификации образов, представленных векторами в многомерном пространстве признаков.

Главное преимущество и отличие РБФ перед персептронами – она может решать задачи классификации образов с нелинейной резделяющей поверхностью.

РБФ обучается и функционирует с гораздо большей скоростью, чем многослойные сети, т.к. РБФ достаточно только одного скрытого слоя и одного выходного элемента, а сети с обратным распространением ошибки требуется многослойная структура скрытых слоёв.