- •Реферат
- •Содержание
- •Введение
- •1. Профилированиепользователей
- •2. Работа с веб-данными
- •2.1 Источники данных
- •2.2 Обработка данных
- •3. Содержимое на основе профиля пользователя
- •3.1 Управление данными
- •3.2 Профилирование пользователя для веб-просмотра
- •3.3 Классификация профилей пользователя
- •3.3.1 Индексация и предобработка
- •3.3.2 Извлечение термов
- •3.3.3 Взвешивание термов с использованием статистических мер
- •3.3.4 Перевод текста в векторное представление
- •4. Нейронные сети
- •4.1 Функции активации
- •4.2 Функция потерь
- •5 Сверточные нейронные сети
- •5.1 Архитектура сверточной нейронной сети
- •5.1.1 Полносвязный слой
- •5.1.2 Сверточный слой
- •5.1.3 Cубдискретизирующий слой
- •5.1.4 Dropout слой
- •5.2 Модели использования сверточной нейронной сети дляклассификации текстов
- •5.2.1 Посимвольный подход
- •5.2.2 Подход c использованием кодирования слов
- •6 Использование сверточной нейронной сети для профилирования
- •6.1 Алгоритм при векторной репрезентации слов и текстов
- •6.2 Алгоритм при семантической репрезентации слов и текстов
- •6.3 Результаты работы алгоритмов
- •Заключение
- •Библиографический список
- •Приложение а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
- •Продолжение Приложения а
Заключение
В данной работе проводилось исследование задачи профилирования пользователей, в том числе и при использование нейронных сетей.
Нейронные сети, зарекомендовавшие себя, как мощный алгоритм для классификации изображений, в последнее время стали активно использоваться и для других задач машинного обучения.
Использование сверточной нейронной сети для профилирования позволит пользователям сети Интернет тратить меньше времени на просмотр информации и больше на ее практическое применение.
Представленный алгоритмы определения профиля пользователя, основанные на векторной и семантической репрезентации текста с использованием сверточной нейронной сети, являются абсолютно новыми методами классификации пользователей. При этом эффективность работы алгоритма с семантической репрезентации гораздо выше, чем при использовании векторной, но они оба работают гораздо эффективнее стандартного метода классификацииBagofWords&TFIDFдля обычных нейронных сетей, т.к. используют сверточные нейронные сети в своей основе. Таким образом, анализируя просмотренные пользователем данные, мы можем спрогнозировать и предложить пользователю наиболее интересную для него информацию благодаря правильному кодированию интересующих пользователя слов.
Результаты, достигаемые при реализации данных подходов, позволят повысить эффективность поиска и выдачи информации для каждого пользователя сети Интернет. Данные алгоритмы позволят повысить производительность средств распространения рекламных информационных материалов в сети Интернет и эффективность рекламного и информационного воздействия на пользователей. Также полученные алгоритмы могут быть использованы в качестве методов для борьбы со спамом, а точнее его распознавании. Найдется применение алгоритмам и при фильтрации документов, в качестве персонализации информации при переводе текстов, в помощи навигации по большим информационным ресурсам, индексации поисковых запросов, автоматического аннотирования. Таким образом, сфера возможного применения результатов научного исследования весьма широка, что показывает высокую ценность проделанной работы.
Библиографический список
[1] Герман, О.В. Введение в теорию экспертных систем и обработку знаний. / О.В. Герман. – Минск, Дизайн-Про, 1995.
[2] Анализ данных и процессов: учеб. пособие. 3- е издание перераб. и доп. /А.А.Барсегян [и др.] – СПб.: БХВ-Петербург, 2009.
[3] Balabanovic, M. Content-based collaborative recommender communic / M. Balabanovic, Y. Shoham. – FAB, 1997.
[4] McCulloch, W. S. A logical calculus of the ideas immanent in nervous activity / Warren S. McCulloch, Walter Pitts – Springer New York, 1943.
[5] Воронцов, К. В. Курс лекций по машиному обучению / К. В. Воронцов. – 2015.
[6] LeCun, Y. Gradient-based learning applied to document recognition / Yoshua Bengio Yann LeCun, Patrick Haffner – IEEE, 1998.
[7] Krizhevsky, A. Imagenet classification with deep convolutional neural networks / Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton – NIPS, 2012. – 1106 -1114 p.
[8] Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы. / Д. Рутковская, М. Пилиньский. – Москва, Горячая Линия – Телеком, 2007.
[9] Mikolov, T. Efficient estimation of word representations in vector space. / Tomas Mikolov, Kai Chen, Greg Corrado – ICLR, 2013.
[10] Berry, M.W.Using linear algebra for intelligent information retrieval. / M.W. Berry, S.T. Dumas, G.W. O'Brien SIAM Rewiev, Vol.37, No.4, 1995 – 573-595 p.
[11] Blum, A. Combining Labeled and Unlabeled Data with Cotraining. / A. Blum, T. Mitchell – In COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann Publishers, 1998.
[12] Brank, J. Feature selection using support vector machines. / J. Brank [and etc.]. – Proceedings of the 3rd International Conf. on Data Mining Methods and Databases for Engineering, Finance, and Other Fields, 2002.
[13] Brusilovsky, P. Adaptive Hypertext and Hypermedia. / P. Brusilovsky, A. Kobsa, J. Vassileva – Kluwer Academic Publishers, 1998.
[14] Burke, R. Question Answering from Frequently-Asked Question Files: Experiences with the FAQ Finder System. / R. Burke [and etc.]. – AI Magazine, 18 (2), 1997 – 57-66 p.
[15] Cohen, W. Context-sensitive learning methods for text categorization. / W. Cohen, Y. Singer – ACM Transactions on Information Systems, v17, 1999 – 171-173 p.
[16] Craven, M. Relational Learning with Statistical Predicate Invention: Better Models for Hypertext. / M. Craven, S. Slattery – Machine Learning, 43 (1-2), 2001 – 97-119 p.
[17] Dhillon, I. S.Concept decomposition for large sparse text data using clustering. / I.S. Dhillon, D.S. Modha – Machine Learning, Vol.42, No.1, 2001 – 143-175 p.
[18] Duda, R. O. Pattern Classification 2nd edition. / R.O. Duda, P.E. Hart, D.G. Stork – Wiley-Interscience, 2000
[19]. Ghani, R. Data Mining on Symbolic Knowledge Extracted from the Web. / R. Ghani [and etc.]. – KDD-2000 Workshop on Text Mining, 2000.
[20] Hand, D. Principles of Data Mining (Adaptive Computation and Machine Learning). / D. Hand, H. Mannila, P. Smyth – MIT Press, 2001.
[21] Hastie, T. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer Series in Statistics. / T. Hastie, R. Tishirani, J. Friedman – Springer Verlag, 2001.
[22] Markov, Z. Data-mining the Web: uncovering patterns in Web content, structure, and usage. / Z. Markov, D. Larose – John Wiley & Sons Inc., 2001, – 285-295 p.
[23] Понизовкин, Д.М. Построение оптимального графа связей в системах коллаборативной фильтрации (рус.) / Д.М. Понизовский – "Программные системы: теория и приложения": журнал. - № 4 (8), 2011. - 107-114 с.