- •Реферат
- •Содержание
- •Введение
- •Постановка задачи
- •1. Профилирование пользователей
- •2. Работа с веб-данными
- •2.1 Источники данных
- •2.2 Обработка данных
- •3. Содержимое на основе профиля пользователя
- •3.1 Управление данными
- •3.2 Профилирование пользователя для веб-просмотра
- •3.3 Классификация данных профиля пользователя
- •3.3.1 Индексация и предобработка
- •3.3.2 Извлечение термов
- •3.3.3 Взвешивание термов с использованием статистических мер
- •3.3.4 Перевод текста в векторное представление
- •3.4 Кластеризация данных профиля пользователя
- •4. Нейронные сети
- •4.1 Функции активации
- •4.2 Функция потерь
- •5 Сверточные нейронные сети
- •5.1 Архитектура сверточной нейронной сети
- •5.1.1 Полносвязный слой
- •5.1.2 Сверточный слой
- •5.1.3 Cубдискретизирующий слой
- •5.1.4 Dropout слой
- •5.2 Модели использования сверточной нейронной сети для классификации текстов
- •5.2.1 Посимвольный подход
- •5.2.2 Подход c использованием кодирования слов
- •6 Использование сверточной нейронной сети для профилирования
- •6.1 Алгоритм при векторной репрезентации слов и текстов
- •6.2 Алгоритм при семантической репрезентации слов и текстов
- •6.3 Результаты работы алгоритмов
- •Заключение
- •Библиографический список
- •Приложение
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
- •Продолжение Приложения
2.2 Обработка данных
Первым этапом процесса веб-персонализации является фаза предварительной обработки данных. Фаза подготовки данных может быть разделена на две фазы: (I) получение данных из интернета и (II) подготовка данных
Очистка данных. Набор данных необходимо отфильтровать от записей, генерируемых автоматически совместно с загрузкой страницы.
Удаление записей, не отражающих активность пользователя. Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Их поведение сильно отличается от человеческого, и они не представляют интереса с точки зрения анализа использования веб-ресурсов [3].
Определение каждого отдельного пользователя. Большинство порталов в сети Интернет доступны анонимным пользователям. Можно применять информацию о зарегистрированных пользователях, по средствам cookie-файлов для определения предпочтений каждого пользователя.
Идентификация пользовательской сессии. Это означает, что при каждом визите определяется посещенная страница. Также система пытается оценить, когда пользователь покинул веб-сайт. Первая проблема, как правило, побочный эффект посреднических прокси устройств и локальных сетевых шлюзов. Кроме того, многие пользователи могут иметь доступ к одному компьютеру. Вторая проблема возникает, когда провайдер выполняет балансировку нагрузки используя несколько прокси-серверов. Другим средством хорошей идентификации пользователя является назначение пользователям имени пользователей и пароля.
Нахождение полного пути. Множество людей используют кнопку "Назад" для возвращения к ранее просмотренной странице. Если это происходит, то браузер отображает страницу, ранее сохраненную в кэше. Это приводит к "дырам" в журнале веб-сервера. Знания топологии веб-сайта могут быть использованы для восстановления таких пропусков.
Идентификация транзакции. Страницы, которые пользователь посещает в течение сеанса могут быть классифицированы в качестве вспомогательных или содержательных (страниц с контентом) страниц. Вспомогательные страницы используются для навигации, то есть пользователь не заинтересован в содержании, а лишь пытается переходить от одной страницы к другой. Содержательные страницы обеспечивают пользователя полезным содержанием. Процесс генерации транзакции, как правило, пытается определить различие между вспомогательными страницами и страницами содержания, чтобы провести независимо друг от друга так называемые вспомогательные сделки (состоящие из вспомогательных страниц и в том числе первой страницы содержания) и контент-сделки (состоящий только из содержательных страниц) [3].
3. Содержимое на основе профиля пользователя
Большой объем информации приносит ряд проблем пользователю, а также научному сообществу. Представленная информация зачастую является произвольной смесью текста, речи, изображений и видео, объединенной в один документ и распределенной по разным частям глобальной сети. Дополнительной проблемой является разная целевая аудитория и интернет-сообщества, созданные на основе одних и тех же данных. В данном разделе мы рассмотрим некоторые подходы к автоматическому анализу информации на основе профиля пользователя.