Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
dissa2 old.docx
Скачиваний:
27
Добавлен:
12.06.2018
Размер:
790.09 Кб
Скачать

3.1 Управление данными

Последние исследования предлагают новые решения, помогая пользователям принять правильное и быстрое решение в выборе информации, в которой он заинтересован. Некоторые из аспектов интеллектуального анализа данных включают в разработку моделей для распознавания текстовых документов на основе слов, фраз, лингвистических и грамматических свойств текста, а также извлечения информации из больших объемов данных.

Представление данных. Одним из первых в управлении данными рассматривается вопрос о представлении данных. Часто используется векторное представление, где все слова из документа берутся в словари, игнорируя порядок слов или структуру текста.

Выбор слов. Одной из характеристик данных, является большое количество различных слов, которые в наборе и образуют текстовый документ. Одним из часто используемых подходов, чтобы уменьшить количество слов, является удаление простых слов, таких как "и", "а", "то" или обрезать редкие слова. Другой способ, это удалить повторяющиеся слова и слова, имеющие общее однокоренное слово. Такими методами являются:

  • Стэмминг – удаление окончаний, приведение слова к основе.

  • Лемматизация – приведение слова к начальной форме.

  • Удаление стоп-слов.

Алгоритмы анализа данных. В области информационного поиска, один из устоявшихся методов классификации документов, является представление каждого документа, используя векторное представление с учетом TF-IDFвеса. Каждый компонент документа рассчитывается как произведение частоты слова (TF) - отношение числа вхождения некоторого слова к общему количеству слов документа и инверсивной частоты (IDF) [16].

3.2 Профилирование пользователя для веб-просмотра

Одной из основных проблем, является перехват сложного содержимого, такого как изображения или видео. Существуют различные системы, которые генерируют профиль пользователя и используют его для помощи в веб-просмотре.

Один из способов помочь пользователю при веб-просмотре является прогнозирование нажатия гиперссылки на основе данных предыдущих пользователем. Предполагается, что интересные пользователю гиперссылки, будут отображены в первую очередь. Проблема определяется как предсказать нажатие гиперссылки из набора веб-документов, посещенных пользователем. Все гиперссылки на посещаемых страницах используются для построения пользовательского профиля. Каждой ссылке назначается один из двух значений класса: положительный (пользователь нажал на ссылку), либо отрицательным (пользователь не нажимает на ссылку). Каждый гиперссылка представлена как своего рода небольшой документ, содержащий подчеркнутые слова, слова во всех вышеуказанных гиперссылках.

Как уже отмечалось, профиль создается для каждого пользователя независимо от других пользователей. Этот профиль может быть дополнительно использован для сравнения пользователей и обмена данными между ними. Этот обмен связан с совместным подходом к профилированию пользователя.

3.3 Классификация профилей пользователя

Автоматическая классификация текста документа является давно известной проблемой, которой занимается множество исследователей. В настоящее время мы имеем дело с постоянно увеличивающимся объемом обрабатываемой и накапливаемой информации, что делает задачу классификации все более актуальной. Использование классификаторов, позволяет ограничить поиск необходимой информации относительно небольшим подмножеством документов.

При решении задач автоматической классификации текстовых документов используются методы информационного поиска и машинного обучения[46]. Документы на естественном языке преобразовываются в удобную для машинной обработки форму индексируются. В процессе индексирования происходит выделение признаков из документа.

Задача методов классификации состоит в том, чтобы наилучшим образом выбрать такие отличительные признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении текста к рубрике. Существует два противоположных подхода к выбору признаков и построению правил: машинное обучение и экспертный метод. Машинное обучение предполагает наличие набора документов, уже поделенных на рубрики, на котором обучается алгоритм. Экспертный метод предполагает, что выделение признаков и составление правил производится экспертами.

Итак, классическая задача классификации может быть разбита на два основных этапа:

1. Предобработка/Индексация – отображение текста документа на его логическое представление, например, вектор весов , который затем подается на вход алгоритму классификации.

2. Классификация/Обучение – этап классификации документа, в нашем случае исходных данных сайтов, или обучения на множестве документов, основанный на логическом представление документа. Важно отметить, что для классификации и обучения может быть использован общий метод предобработки/индексации текстов.

Рисунок 3.1: Основные этапы классификации

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]