Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
dissa2.docx
Скачиваний:
57
Добавлен:
12.06.2018
Размер:
896.17 Кб
Скачать

Введение

В настоящее время в обществе, компьютеры и интернет широко используется для доступа к различным видам информации. Сейчас недостаточно того, чтобы компьютеры выполняли сложные задачи в нужные сроки и хранили большие объемы информации. С появлением интернета, объем информации увеличился во много раз и ежедневно этот объем информации увеличивается. Сейчас в интернете множество разнообразных ресурсов, начиная от социальных сетей, видеосервисов до новостных лент различной тематики. И современный человек обязан быть в курсе событий, а для этого необходимо ежедневно просматривать большой объем информации. Поэтому можно говорить о такой важной задаче как профилирование пользователей, так как большая часть информации в интернете не представляет интереса для конкретного пользователя, что её просматривает. Это связано с тем, что каждый человек уникален. Таким образом, что интересно одному, будет бессмысленно другому.

Профилирование – разумное ограничение предъявляемой посетителю информации с целью выделения более важного для него содержания. Само профилирование означает процесс персонализации веб-сайтов в соответствии с профилем конкретного пользователя, чтобы достичь наиболее эффективного просмотра веб-страниц, таким образом подавая в первую очередь контент, в котором он предположительно заинтересован и отбрасывая нерелевантный контент.

Задача профилирования – отбор пар «пользователь – данные», путем отсеивания неинтересной конкретному пользователю информации.

К примеру профилирование необходимо для решения следующих задач:

  1. Поиск информации.

При профилировании данная задача решается не обычным поиском, а поиском с учетом взаимосвязей с сложенным профилем пользователя, т.е. ранее введенными поисковыми запросами, посещенными сайтами, геолокацией, совершенными покупками в интернет-магазинах, оставленных комментариях на форумах и т.д. Всё это используется для выдачи наиболее подходящей информации конкретному пользователю.

  1. Распознавание эмоциональной окраски текстов.

Задача заключается в том, чтобы оценить мнение автора по отношению к объектам, например, на основе отзывов об этих объектах. Часто такую задачу необходимо решать для выдачи релевантных рекомендаций.

  1. Разделение сайтов по тематическим каталогам.

Данная задача решается поисковыми системами и предусматривает обработку документов и отнесение их разбиения их на категории, перечень которых может быть заранее задан, а может быть и не указан.

  1. Борьба со спамом.

Спам – это нежелательные рассылки, которые могут приходить на адрес электронной почты. Они могут содержать рекламные предложения или компьютерные вирусы. Задача борьбы со спамом заключается в том, чтобы классифицировать все письма на два класса: спам и не спам.

  1. Персонификация рекламы.

Контекстная реклама является основным источником дохода IT компаний. Она отображается посетителям интернет-страницы, сфера интересов которых потенциально совпадает или пересекается с тематикой рекламируемого товара либо услуги, целевой аудитории, что повышает вероятность их отклика на рекламу. Сфера интересов определяется по тексту интернет-страниц просмотренных пользователем.

Решение данной задачи позволит потребителям услуг тратить меньше времени на поиск, просмотр и усвоение контента и больше на практическое применение. Тем самым увеличивается эффективность работы во многих сферах связанных с масс медиа: информирование о свежих новостях, подбор информации по заданной тематике при поиске, предложение конкретных товаров и услуг, необходимых потребителю. А также при сокращении времени на данные виды деятельности, у пользователей будет больше времени на другие, что эффективно скажется на их работе, и экономике государств в целом.

Целью данной диссертации является поиск и разработка новых и эффективных алгоритмов для задачи профилирования пользователя, используя новейшие исследования в области нейронных сетей и классификации и кластеризации текста.

В данной диссертации для профилирования используются сверточные нейронные сети и рассматриваются алгоритмы векторной и семантической репрезентаций для фильтрации информации.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]