2.2 Обработка данных

Первым этапом процесса веб-персонализации является фаза предварительной обработки данных. Фаза подготовки данных может быть разделена на две фазы: (I) получение данных из интернета и (II) подготовка данных

Очистка данных. Набор данных необходимо отфильтровать от записей, генерируемых автоматически совместно с загрузкой страницы.

Удаление записей, не отражающих активность пользователя. Веб-боты в автоматическом режиме просматривают множество различных страниц в сети. Их поведение сильно отличается от человеческого, и они не представляют интереса с точки зрения анализа использования веб-ресурсов [3].

Определение каждого отдельного пользователя. Большинство порталов в сети Интернет доступны анонимным пользователям. Можно применять информацию о зарегистрированных пользователях, по средствам cookie-файлов для определения предпочтений каждого пользователя.

Идентификация пользовательской сессии. Это означает, что при каждом визите определяется посещенная страница. Также система пытается оценить, когда пользователь покинул веб-сайт. Первая проблема, как правило, побочный эффект посреднических прокси устройств и локальных сетевых шлюзов. Кроме того, многие пользователи могут иметь доступ к одному компьютеру. Вторая проблема возникает, когда провайдер выполняет балансировку нагрузки используя несколько прокси-серверов. Другим средством хорошей идентификации пользователя является назначение пользователям имени пользователей и пароля.

Нахождение полного пути. Множество людей используют кнопку "Назад" для возвращения к ранее просмотренной странице. Если это происходит, то браузер отображает страницу, ранее сохраненную в кэше. Это приводит к "дырам" в журнале веб-сервера. Знания топологии веб-сайта могут быть использованы для восстановления таких пропусков.

Идентификация транзакции. Страницы, которые пользователь посещает в течение сеанса могут быть классифицированы в качестве вспомогательных или содержательных (страниц с контентом) страниц. Вспомогательные страницы используются для навигации, то есть пользователь не заинтересован в содержании, а лишь пытается переходить от одной страницы к другой. Содержательные страницы обеспечивают пользователя полезным содержанием. Процесс генерации транзакции, как правило, пытается определить различие между вспомогательными страницами и страницами содержания, чтобы провести независимо друг от друга так называемые вспомогательные сделки (состоящие из вспомогательных страниц и в том числе первой страницы содержания) и контент-сделки (состоящий только из содержательных страниц) [3].

3. Содержимое на основе профиля пользователя

Большой объем информации приносит ряд проблем пользователю, а также научному сообществу. Представленная информация зачастую является произвольной смесью текста, речи, изображений и видео, объединенной в один документ и распределенной по разным частям глобальной сети. Дополнительной проблемой является разная целевая аудитория и интернет-сообщества, созданные на основе одних и тех же данных. В данном разделе мы рассмотрим некоторые подходы к автоматическому анализу информации на основе профиля пользователя.

<<< < Предыдущая 1 23 / 193 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.06.2018790.09 Кб27dissa2 old.docx
#
12.06.2018896.17 Кб57dissa2.docx
#
14.06.2018904.56 Кб40dissa3.docx
#
19.06.2018909.94 Кб21dissa4.docx
#
19.06.2018912.16 Кб22dissa5.docx
#
20.06.2018906.83 Кб47dissa6.docx
#
24.10.2018172.74 Кб0IEred (2).rar99
#
12.06.20181.65 Mб18master2014_1_popkov.pdf
#
05.07.2018274 б2new 1.txt
#
05.06.2018337.84 Кб1osnnaprbfnp2018_2020.pdf
#
12.06.2018747.63 Кб64thesis3 (1).pdf