Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекция 1-2.ppt
Скачиваний:
50
Добавлен:
03.02.2015
Размер:
5.41 Mб
Скачать

Особенности реализации

Подсистема консолидации исходных данных:

Мульти-агентный подход

Нет ограничений на источники собираемых данных

Универсальный интерфейс для работы с модулями сбора данных

Специализированный формат представления собранных данных

Специализированное отказоустойчивое высоко производительное хранилище данных на файловой системе

Специальная предобработка данных

Анализируемые факты:

Вход/выход в систему, запуск пользовательских и системных процессов, доступ к данным на любых носителях, активность пользователей в приложениях (клавиатура, мышь), входящий/исходящий сетевой трафик

Электронный документооборот

Интеллектуальная система анализа и фильтрации электронной почты масштаба предприятия

Система анализа и много-темной классификации Web трафика

Интеллектуальная систему теневого копирования, рубрикации и аннотирования электронных документов организации

системы анализа и фильтрации электронной почты

Алгоритм классификации (на SVM):

векторная форма представления письма высокая точность эффективность по скорости

персональная модель классификации почты

Предобработка данных:

Снижение размерности исходного пространства (хи-квадрат и PCA)

Уменьшение размера тренировочного набора - кластеризация

Архитектура системы фильтрации

Особенности реализации:

Учет ресурсоемкости алгоритмов на этапе обучения

Распределение и баланс нагрузки

Классификация в режиме реального времени

Возможность масштабирования

Возможность интеграции с различными почтовыми системами

Цели создания систем анализа и фильтрации Интернет-трафика

Блокирование доступа к нелегальной (экстремистской, антисоциальной, террористической и т.п.) информации

Предотвращение использования Интернет-ресурсов в личных целях в рабочее и учебное время

Предотвращение утечки конфиденциальной информации (анализ исходящего трафика)

Существующие системы фильтрации

Традиционный подход («сигнатурные» методы):

Использование при анализе Интернет-трафика специализированных, формируемых экспертами, баз знаний, содержащих информацию об Интернет-ресурсах (URL, IP-адреса, ключевые слова)

Основные недостатки:

Ориентированы на ресурсы со статическим содержанием («черные списки» адресов)

Возможны ошибки при определении тематики

Результаты зависят от качества и оперативности обновления баз знаний

Отсутствует анализа исходящего трафика (нет возможности предотвращения утечки конфиденциальной информации)

Анализ и фильтрация Интернет- трафика на основе методов ИАД

Основная идея:

Классификация потока гипертекстовой информации в режиме реального времени с учетом содержания и структуры ссылок документов с использованием методов извлечения и применения знаний (алгоритмы машинного обучения и интеллектуального анализа данных).

Функционирование:

Администратор формирует тренировочный набор с известными тематиками (примеры гипертексовых документов, либо список Интернет-ресурсов, содержимое которых затем откачивает робот);

На тренировочном наборе методами машинного обучения строится классификатор, который затем используется Интернет-фильтром в режиме реального времени для анализа содержимого трафика.

На настоящий момент времени нет таких промышленных решений!

Преимущества

Классификация в реальном времени статических и динамических интернет ресурсов;

Точность выше, чем у «сигнатурных» методов;

Автономность - независимость от внешних экспертов, поддержка собственной автоматически пополняемой базы знаний адресов;

Адаптируемость - возможность уточнения классификации при поступлении новых примеров;

Расширяемость - возможность добавлять новые категории и гибко настраивать политики фильтрации.

Архитектура системы

Основные результаты

Реализация системы:

Формализованы требования и сценарии взаимодействия

Спроектированы и реализованы базовые компоненты, их функционал, интерфейсы, алгоритмы работы

Разработана онтология представления информации об интернет ресурсах и алгоритмы работы с базой знаний

Разработан новый алгоритм много-темной классификации:

на основе модифицированного для существенно пересекающихся классов метода «попарных сравнений» с помощью набора бинарных классификаторов и отсечением нерелевантных классов

Предложена расширенная векторная модель представления гипертекстовых документов:

включает базовые текстовые и нетекстовые признаки, составные признаки (сгруппированные базовые) определяются с помощью метода поиска частых эпизодов

новый метод учета гиперссылок (не требует загрузки содержимого «окружения»)

Соседние файлы в предмете Интеллектуализация автоматизированных систем