Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Деревья решений, ID3 (всё сразу).doc
Скачиваний:
19
Добавлен:
21.08.2019
Размер:
1.26 Mб
Скачать

Регрессионный анализ

Регрессионный анализ позволяет исследовать формы связи, устанавливающие количественные соотношения между случайными величинами изучаемого процесса.

Регрессия наиболее часто используется для построения прогнозных моделей.

К-ближайшие соседи

Аналогично деревьям решений, алгоритмы К-ближайших соседей лучше всего подходят для кластеризации и классификации. При выявлении кластеров алгоритм сначала представляет каждую запись как точку в многомерном пространстве. Затем он подбирает веса по каждой размерности так, чтобы точки, изображающие данные со сходными целевыми признаками, оказались в тесном соседстве. Предположим, например, что для банка целевая характеристика такова: "люди, обратившиеся за второй закладной". Если параметрами являются возраст, сумма первой закладной, задолженность и доход, то алгоритм последовательно перебирает различные веса для этих размерностей до тех пор, пока все точки, изображающие даные о лицах, обратившихся за второй закладной, не окажутся на графике рядом друг с другом, т. е. соседями. После того как К-ближайшие соседи использованы для кластеризации, они могут помочь произвести классификацию. Например, финансовая организация может очертить круг потенциальных покупок закладных, используя модель К-ближайших соседей. Если К-ближайшие соседи какого-то лица приобретут вторую закладную с некоторой вероятностью, то это лицо приобретет ее с той же самой вероятностью. Финансовая организация может решить предлагать вторые закладные только людям, для которых вероятность покупки составляет, скажем, 66% или выше.

Нейронные сети

Нейронные представляют собой большой класс систем, архитектура которых пытается имитировать построение нервной ткани из нейронов. В одной из наиболее распространенных архитектур, многослойном персептроне с обратным распространением ошибки, эмулируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д.

Эти значения рассматриваются как сигналы, передающиеся в вышележащий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ, реакция всей сети на введенные значения входных параметров. Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо «натренировать» на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Эта тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.

Алгоритмы нейросетей обычно используются для задач прогнозирования, кластеризации и классификации. Имитируя деятельность человеческого мозга, они включают в себя много простых устройств обработки, связанных адаптивными весами. Они создают прогнозирующую модель путем рассмотрения "обучающего множества" настоящих записей.

Теоретически формирование нейросети аналогично формированию пути нервного импульса в мозгу, когда человек все время решает одну и ту же задачу. Например, если человек, играя в теннис, набирается опыта, то со временем он может начать автоматически учитывать воздействие таких факторов, как ветер, усталость, натяжение струн ракетки и положение солнца. Аналогично этому, нейросеть совершенствует свою модель с каждой новой записью, которую она изучает. Чтобы алгоритм нейросети смог предсказывать объем продаж фотоаппаратов в сети магазинов, ему будет предложено обучающее множество, содержащее записи одного-двух предыдущих лет с данными о продажах в зависимости от времени года, цены, величины скидки, локальной экономической ситуации и географического положения. Он использует обучающее множество для построения модели. После того как модель будет построена, торговое предприятие с ее помощью сможет предсказывать объем продаж, вводя новые множества записей.