Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
dissa6.docx
Скачиваний:
47
Добавлен:
20.06.2018
Размер:
906.83 Кб
Скачать

Министерство образования Республики Беларусь

Учреждение образования

Белорусский государственный университет

информатики и радиоэлектроники

УДК____________

Ковалевский

Александр, Михайлович

Алгоритмы профилирования пользователей посредством нейронных сетей

Диссертация

на соискание степени магистра технических наук

по специальности: 1-40 80 02 – Системный анализ, управление и обработка информации

_____________________________

(подпись магистранта)

Научный руководитель

Гуринович Алевтина Борисовна

канд. физ.-мат. н., доцент

_____________________________

(подпись научного руководителя)

Минск 2018

Реферат

АЛГОРИТМЫ ПРОФИЛИРОВАНИЯ ПОЛЬЗОВАТЕЛЯ ПОСРЕДСТВОМ НЕЙРОННЫХ СЕТЕЙ: магистерская диссертация / А. М. Ковалевский – Минск : БГУИР, 2018, – п. з. – 62 с.

Магистерская диссертация на тему «Алгоритмы профилирования пользователя посредством нейронных сетей» рассматривает проблему анализа данных при профилировании пользователей. В данном исследовании рассматривается персонализация данных с помощью нейронных сетей с целью упрощения и оптимизации процесса поиска подходящей информации для каждого пользователя.

Магистерская диссертация представлена в виде пояснительной записки на 56 страницах, состоящей из введения, шести разделов и заключения.

В первом разделе приведено описание понятия семантической паутины, а также профилирования пользователя.

Второй раздел посвящён работе с веб-данными, описанию источников данных и их обработке.

Третий раздел содержит некоторые подходы к автоматическому анализу информации на основе профиля пользователя.

В четвёртом разделе приводится описание понятия нейронной сети и её архитектуры.

Пятый раздел посвящен описанию архитектуры сверточных нейронных сетей.

В шестом описаны разработанные алгоритмы и приведены результаты их работы.

В результате работы над магистерской диссертацией были разработаны два алгоритма для классификации текстов на основе сверточных нейронных сетей для задачи профилирования пользователя.

Результаты, полученные в ходе магистерского исследования, могут использоваться во множественных сферах, таких как фильтрация документов, поиска информации, перевода текстов, таргетировании рекламы, распознавание спама и др.

Содержание

Введение 5

Постановка задачи 8

1. Профилирование пользователей 9

2. Работа с веб-данными 11

2.1 Источники данных 11

2.2 Обработка данных 11

3. Содержимое на основе профиля пользователя 13

3.1 Управление данными 13

3.2 Профилирование пользователя для веб-просмотра 14

3.3 Классификация данных профиля пользователя 14

3.3.1 Индексация и предобработка 15

3.3.2 Извлечение термов 16

3.3.3 Взвешивание термов с использованием статистических мер 18

3.3.4 Перевод текста в векторное представление 19

3.4 Кластеризация данных профиля пользователя 20

4. Нейронные сети 28

4.1 Функции активации 29

4.2 Функция потерь 29

5 Сверточные нейронные сети 31

5.1 Архитектура сверточной нейронной сети 31

5.1.1 Полносвязный слой 32

5.1.2 Сверточный слой 33

5.1.3 Cубдискретизирующий слой 33

5.1.4 Dropout слой 34

5.2 Модели использования сверточной нейронной сети для классификации текстов 34

5.2.1 Посимвольный подход 35

5.2.2 Подход c использованием кодирования слов 36

6 Использование сверточной нейронной сети для профилирования 38

6.1 Алгоритм при векторной репрезентации слов и текстов 38

6.2 Алгоритм при семантической репрезентации слов и текстов 44

6.3 Результаты работы алгоритмов 46

Заключение 50

Библиографический список 52

Приложение 54

Введение

В настоящее время в обществе, компьютеры и интернет широко используется для доступа к различным видам информации. Сейчас недостаточно того, чтобы компьютеры выполняли сложные задачи в нужные сроки и хранили большие объемы информации. С появлением интернета, объем информации увеличился во много раз и ежедневно этот объем информации увеличивается. Сейчас в интернете множество разнообразных ресурсов, начиная от социальных сетей, видео сервисов до новостных лент различной тематики. И современный человек обязан быть в курсе событий, а для этого необходимо ежедневно просматривать большой объем информации. Поэтому можно говорить о такой важной задаче как профилирование пользователей, так как большая часть информации в интернете не представляет интереса для конкретного пользователя, что её просматривает. Это связано с тем, что каждый человек уникален. Таким образом, что интересно одному, будет бессмысленно другому.

Профилирование – разумное ограничение предъявляемой посетителю информации с целью выделения более важного для него содержания [1]. Само профилирование означает процесс персонализации веб-сайтов в соответствии с профилем конкретного пользователя, чтобы достичь наиболее эффективного просмотра веб-страниц, таким образом подавая в первую очередь контент, в котором он предположительно заинтересован и отбрасывая нерелевантный контент.

Задача профилирования – отбор пар «пользователь – данные», путем отсеивания неинтересной конкретному пользователю информации.

К примеру профилирование необходимо для решения следующих задач:

  1. Поиск информации.

При профилировании данная задача решается не обычным поиском, а поиском с учетом взаимосвязей с сложенным профилем пользователя, т.е. ранее введенными поисковыми запросами, посещенными сайтами, геолокацией, совершенными покупками в интернет-магазинах, оставленных комментариях на форумах и т.д. Всё это используется для выдачи наиболее подходящей информации конкретному пользователю.

  1. Распознавание эмоциональной окраски текстов.

Задача заключается в том, чтобы оценить мнение автора по отношению к объектам, например, на основе отзывов об этих объектах. Часто такую задачу необходимо решать для выдачи релевантных рекомендаций.

  1. Разделение сайтов по тематическим каталогам.

Данная задача решается поисковыми системами и предусматривает обработку документов и отнесение их разбиения их на категории, перечень которых может быть заранее задан, а может быть и не указан.

  1. Борьба со спамом.

Спам – это нежелательные рассылки, которые могут приходить на адрес электронной почты. Они могут содержать рекламные предложения или компьютерные вирусы. Задача борьбы со спамом заключается в том, чтобы классифицировать все письма на два класса: спам и не спам.

  1. Персонификация рекламы.

Контекстная реклама является основным источником дохода IT компаний. Она отображается посетителям интернет-страницы, сфера интересов которых потенциально совпадает или пересекается с тематикой рекламируемого товара либо услуги, целевой аудитории, что повышает вероятность их отклика на рекламу. Сфера интересов определяется по тексту интернет-страниц просмотренных пользователем.

Решение данной задачи позволит потребителям услуг тратить меньше времени на поиск, просмотр и усвоение контента и больше на практическое применение. Тем самым увеличивается эффективность работы во многих сферах связанных с масс медиа: информирование о свежих новостях, подбор информации по заданной тематике при поиске, предложение конкретных товаров и услуг, необходимых потребителю. А также при сокращении времени на данные виды деятельности, у пользователей будет больше времени на другие, что эффективно скажется на их работе, и экономике государств в целом.

Целью данной диссертации является поиск и разработка новых и эффективных алгоритмов для задачи профилирования пользователя, используя новейшие исследования в области нейронных сетей, классификации и кластеризации текста.

Теоретическую и методологическую основу магистерской диссертации составили книги, исследования и публикации отечественных и зарубежных авторов.

В данной диссертации для профилирования используются сверточные нейронные сети и рассматриваются алгоритмы векторной и семантической репрезентаций для фильтрации информации.

Диссертация выполнена самостоятельно и проверена в системе «Атиплагиат». Процент оригинальности соответствует норме, установленной кафедрой, уникальность более 80% процентов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]