- •Реферат
- •Содержание
- •Введение
- •Постановка задачи
- •1. Профилирование пользователей
- •2. Работа с веб-данными
- •2.1 Источники данных
- •2.2 Обработка данных
- •3. Содержимое на основе профиля пользователя
- •3.1 Управление данными
- •3.2 Профилирование пользователя для веб-просмотра
- •3.3 Классификация данных профиля пользователя
- •3.3.1 Индексация и предобработка
- •3.3.2 Извлечение термов
- •3.3.3 Взвешивание термов с использованием статистических мер
- •3.3.4 Перевод текста в векторное представление
- •3.4 Кластеризация данных профиля пользователя
- •4. Нейронные сети
- •4.1 Функции активации
- •4.2 Функция потерь
- •5 Сверточные нейронные сети
- •5.1 Архитектура сверточной нейронной сети
- •5.1.1 Полносвязный слой
- •5.1.2 Сверточный слой
- •5.1.3 Cубдискретизирующий слой
- •5.1.4 Dropout слой
- •5.2 Модели использования сверточной нейронной сети для классификации текстов
- •5.2.1 Посимвольный подход
- •5.2.2 Подход c использованием кодирования слов
- •6 Использование сверточной нейронной сети для профилирования
- •6.1 Алгоритм при векторной репрезентации слов и текстов
- •6.2 Алгоритм при семантической репрезентации слов и текстов
- •6.3 Результаты работы алгоритмов
- •Заключение
- •Библиографический список
- •Приложение
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
Введение
В настоящее время в обществе, компьютеры и интернет широко используется для доступа к различным видам информации. Сейчас недостаточно того, чтобы компьютеры выполняли сложные задачи в нужные сроки и хранили большие объемы информации. С появлением интернета, объем информации увеличился во много раз и ежедневно этот объем информации увеличивается. Сейчас в интернете множество разнообразных ресурсов, начиная от социальных сетей, видео сервисов до новостных лент различной тематики. И современный человек обязан быть в курсе событий, а для этого необходимо ежедневно просматривать большой объем информации. Поэтому можно говорить о такой важной задаче как профилирование пользователей, так как большая часть информации в интернете не представляет интереса для конкретного пользователя, что её просматривает. Это связано с тем, что каждый человек уникален. Таким образом, что интересно одному, будет бессмысленно другому.
Профилирование – разумное ограничение предъявляемой посетителю информации с целью выделения более важного для него содержания [1]. Само профилирование означает процесс персонализации веб-сайтов в соответствии с профилем конкретного пользователя, чтобы достичь наиболее эффективного просмотра веб-страниц, таким образом подавая в первую очередь контент, в котором он предположительно заинтересован и отбрасывая нерелевантный контент.
Задача профилирования – отбор пар «пользователь – данные», путем отсеивания неинтересной конкретному пользователю информации.
К примеру профилирование необходимо для решения следующих задач:
Поиск информации.
При профилировании данная задача решается не обычным поиском, а поиском с учетом взаимосвязей с сложенным профилем пользователя, т.е. ранее введенными поисковыми запросами, посещенными сайтами, геолокацией, совершенными покупками в интернет-магазинах, оставленных комментариях на форумах и т.д. Всё это используется для выдачи наиболее подходящей информации конкретному пользователю.
Распознавание эмоциональной окраски текстов.
Задача заключается в том, чтобы оценить мнение автора по отношению к объектам, например, на основе отзывов об этих объектах. Часто такую задачу необходимо решать для выдачи релевантных рекомендаций.
Разделение сайтов по тематическим каталогам.
Данная задача решается поисковыми системами и предусматривает обработку документов и отнесение их разбиения их на категории, перечень которых может быть заранее задан, а может быть и не указан.
Борьба со спамом.
Спам – это нежелательные рассылки, которые могут приходить на адрес электронной почты. Они могут содержать рекламные предложения или компьютерные вирусы. Задача борьбы со спамом заключается в том, чтобы классифицировать все письма на два класса: спам и не спам.
Персонификация рекламы.
Контекстная реклама является основным источником дохода IT компаний. Она отображается посетителям интернет-страницы, сфера интересов которых потенциально совпадает или пересекается с тематикой рекламируемого товара либо услуги, целевой аудитории, что повышает вероятность их отклика на рекламу. Сфера интересов определяется по тексту интернет-страниц просмотренных пользователем.
Решение данной задачи позволит потребителям услуг тратить меньше времени на поиск, просмотр и усвоение контента и больше на практическое применение. Тем самым увеличивается эффективность работы во многих сферах связанных с масс медиа: информирование о свежих новостях, подбор информации по заданной тематике при поиске, предложение конкретных товаров и услуг, необходимых потребителю. А также при сокращении времени на данные виды деятельности, у пользователей будет больше времени на другие, что эффективно скажется на их работе, и экономике государств в целом.
Целью данной диссертации является поиск и разработка новых и эффективных алгоритмов для задачи профилирования пользователя, используя новейшие исследования в области нейронных сетей и классификации и кластеризации текста.
В данной диссертации для профилирования используются сверточные нейронные сети и рассматриваются алгоритмы векторной и семантической репрезентаций для фильтрации информации.