- •Реферат
- •Содержание
- •Введение
- •Постановка задачи
- •1. Профилирование пользователей
- •2. Работа с веб-данными
- •2.1 Источники данных
- •2.2 Обработка данных
- •3. Содержимое на основе профиля пользователя
- •3.1 Управление данными
- •3.2 Профилирование пользователя для веб-просмотра
- •3.3 Классификация данных профиля пользователя
- •3.3.1 Индексация и предобработка
- •3.3.2 Извлечение термов
- •3.3.3 Взвешивание термов с использованием статистических мер
- •3.3.4 Перевод текста в векторное представление
- •3.4 Кластеризация данных профиля пользователя
- •4. Нейронные сети
- •4.1 Функции активации
- •4.2 Функция потерь
- •5 Сверточные нейронные сети
- •5.1 Архитектура сверточной нейронной сети
- •5.1.1 Полносвязный слой
- •5.1.2 Сверточный слой
- •5.1.3 Cубдискретизирующий слой
- •5.1.4 Dropout слой
- •5.2 Модели использования сверточной нейронной сети для классификации текстов
- •5.2.1 Посимвольный подход
- •5.2.2 Подход c использованием кодирования слов
- •6 Использование сверточной нейронной сети для профилирования
- •6.1 Алгоритм при векторной репрезентации слов и текстов
- •6.2 Алгоритм при семантической репрезентации слов и текстов
- •6.3 Результаты работы алгоритмов
- •Заключение
- •Библиографический список
- •Приложение
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
Заключение
В данной работе проводилось исследование задачи профилирования пользователей, в том числе и при использование нейронных сетей.
Нейронные сети, зарекомендовавшие себя, как мощный алгоритм для классификации изображений, в последнее время стали активно использоваться и для других задач машинного обучения.
Использование сверточной нейронной сети для профилирования позволит пользователям сети Интернет тратить меньше времени на просмотр информации и больше на ее практическое применение.
Представленный алгоритмы определения профиля пользователя, основанные на векторной и семантической репрезентации текста с использованием сверточной нейронной сети, являются абсолютно новыми методами классификации пользователей. При этом эффективность работы алгоритма с семантической репрезентации гораздо выше, чем при использовании векторной, но они оба работают гораздо эффективнее стандартного метода классификации BagofWords&TFIDFдля обычных нейронных сетей, т.к. используют сверточные нейронные сети в своей основе. Это было достигнуто благодаря использованию сверточных нейронных сетей со всеми их преимуществами по сравнению с полносвязными нейронными сетями. А также в алгоритме семантической репрезентации эффективность выше по сравнению с алгоритмом векторной репрезентации в связи с использованием кластеризации по алгоритмуk-meansи получению не деградирующего при выполнении логических операций вектора всего текста или документа.
Таким образом, анализируя просмотренные пользователем данные, мы можем спрогнозировать и предложить пользователю наиболее интересную для него информацию благодаря правильному кодированию интересующих пользователя слов.
Результаты, достигаемые при реализации данных подходов, позволят:
повысить эффективность поиска и выдачи информации для каждого пользователя сети Интернет благодаря предварительной обработке его предпочтений и предыдущих поисковых запросов;
повысить производительность средств распространения рекламных информационных материалов в сети Интернет и эффективность рекламного и информационного воздействия на пользователей с помощью точного определения желаний пользователя на основе его профиля;
могут быть использованы в качестве методов для борьбы со спамом, а точнее его распознавании при проверке получаемых писем с помощью определения тематики и стиля их написания. Ведь многие спам-письма используют одинаковые шаблоны;
улучшить фильтрацию документов как по автору, поднимаемой теме в тексте, так и по художественному стилю или стилистике написания предложений;
добавить персонализацию информации при автоматическом переводе текстов, выявление смысловых намеков в переводимом тексте и добавлении стилистических и языковых особенностей пользователя-переводчика, тем самым облегчая труд и адаптацию машинного перевода;
помочь в навигации по большим информационным ресурсам со сложной структурой, благодаря разделению сайта по темам (кластерам) со схожим смыслом;
улучшить индексацию поисковых запросов, используя подбор предложений по аналогичным запросом из смежных синонимичных тем;
повысить точность автоматического аннотирования и реферирования текстов, так как при использовании алгоритма тема текста будет определяться гораздо точнее и при этом будут указываться поднимаемые еще в данном документе темы, а также предлагаться смежные темы к уже указанным;
и др.
Таким образом, сфера возможного применения результатов научного исследования весьма широка, что показывает высокую ценность проделанной работы.