- •Аннотация
- •Введение
- •Постановка задачи
- •Обзор существующих решений
- •Основные принципы функционирования и обучения нейронных сетей
- •Архитектура нейронных сетей
- •Алгоритм обратного распространения ошибки
- •Сверточные нейронные сети в задачах распознавания изображений
- •Архитектура и принцип работы сверточных нейронных сетей
- •Распознавание символов номерного знака автомобиля с использованием сверточной нейронной сети
- •Выводы
- •Нейронные сети в задачах обработки текстов
- •Статистические языковые модели. Проклятие размерности
- •Нейросетевая языковая модель Y. Bengio
- •Исследование и построение решения задачи
- •Описание решения задачи при помощи word2vec
- •Описание практической части
- •Выбранный инструментарий
- •Описание обучающей и тестовой выборок
- •Результаты решения задачи при помощи word2vec
- •Выводы
- •Заключение
- •Список литературы
6Заключение
В данной работе проводилось исследование векторных представлений слов на основе нейронных сетей.
Нейронные сети давно успешно используются в задачах распознавания изображений. В данной работе была рассмотрена специальная архитектура сетей для решения таких задач. Для задач обработки текстов нейросетевые решения также существуют довольно долгое время, однако эффективные решения в смысле вычислительной сложности стали появляться сравнительно недавно.
Одно из таких решений – модель word2vec для получения векторного представления слов – было подробно рассмотрено в данной работе. Одним из преимуществ word2vec являются существенно меньшие вычислительные затраты на обучение по сравнению со всеми ранее известными нейросетевыми языковыми моделями, в частности, благодаря представлению словаря в виде дерева Хаффмана и иерархическому softmax’у.
Результаты решения задачи определения демографических атрибутов пользователей сервиса Twitter говорят о применимости языковой модели word2vec для решения задач обработки текстов. Преимуществом этой модели по сравнению с широко известной языковой моделью n-грамм является существенное понижение размерности признаков при аналогичном качестве работы, а также уменьшение вычислительных затрат на обучение.
Таким образом, можно сделать основной вывод данной работы – нейронные сети обладают большим потенциалом для решения задач обработки текстов и способны справляться с ними лучше популярных на сегодняшний день решений.
31
Список литературы
[1]Mikolov T., tau Yih W., Zweig G. Linguistic regularities in continuous space word representations // In Proceedings of NAACL HLT. 2013.
[2]Haykin S. Neural Networks: A Comprehensive Foundation. 2 edition. Prentice-Hall, 1999.
[3]Characterization of a class of sigmoid functions with applications to neural networks / S. Ranka, C. Mohan, K. Mehrotra, A. Menon // Neural Networks. 1996. Vol. 9. Pp. 819–835.
[4]Petrov S. Convolutional neural network for recogniton of licence plate symbols: Tech. rep.: Dubna International University of Nature, Society and Man, Institute of system analysis and management, 2013.
[5]Katz S. Estimation of probabilities from sparse data for the language model component of a speech recogniser // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1987. Vol. 35, no. 3. Pp. 400–401.
[6] A neural probabilistic language model / Y. Bengio, R. Ducharme, P. Vincent,
C.Jauvin // Journal of Machine Learning Research. 2003. no. 3. Pp. 1137–1155.
[7]E cient estimation of word representations in vector space / T. Mikolov, K. Chen,
G.Corrado, J. Dean // In Proceedings of Workshop at ICLR. 2013.
[8]Distributed representations of words and phrases and their compositionality / T. Mikolov,
I.Sutskever, K. Chen et al. // In Proceedings of NIPS. 2013.
32