Добавил:

darya13199 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Саратовский Государственный Технический Университет им. Ю.А. Гагарина

Предмет:

Интеллектуализация автоматизированных систем

Файл:

Лекция 1-2.ppt

Скачиваний:

Добавлен:

03.02.2015

Размер:

5.41 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 65 6 > Следующая >>>

Особенности реализации

Подсистема консолидации исходных данных:

–Мульти-агентный подход

–Нет ограничений на источники собираемых данных

–Универсальный интерфейс для работы с модулями сбора данных

–Специализированный формат представления собранных данных

–Специализированное отказоустойчивое высоко производительное хранилище данных на файловой системе

–Специальная предобработка данных

Анализируемые факты:

–Вход/выход в систему, запуск пользовательских и системных процессов, доступ к данным на любых носителях, активность пользователей в приложениях (клавиатура, мышь), входящий/исходящий сетевой трафик

Электронный документооборот

Интеллектуальная система анализа и фильтрации электронной почты масштаба предприятия

Система анализа и много-темной классификации Web трафика

Интеллектуальная систему теневого копирования, рубрикации и аннотирования электронных документов организации

системы анализа и фильтрации электронной почты

Алгоритм классификации (на SVM):

•

векторная форма представления письма высокая точность эффективность по скорости

персональная модель классификации почты

Предобработка данных:

–Снижение размерности исходного пространства (хи-квадрат и PCA)

–Уменьшение размера тренировочного набора - кластеризация

Архитектура системы фильтрации

Особенности реализации:

–Учет ресурсоемкости алгоритмов на этапе обучения

–Распределение и баланс нагрузки

–Классификация в режиме реального времени

–

Возможность масштабирования

Возможность интеграции с различными почтовыми системами

Цели создания систем анализа и фильтрации Интернет-трафика

Блокирование доступа к нелегальной (экстремистской, антисоциальной, террористической и т.п.) информации

Предотвращение использования Интернет-ресурсов в личных целях в рабочее и учебное время

Предотвращение утечки конфиденциальной информации (анализ исходящего трафика)

Существующие системы фильтрации

Традиционный подход («сигнатурные» методы):

–Использование при анализе Интернет-трафика специализированных, формируемых экспертами, баз знаний, содержащих информацию об Интернет-ресурсах (URL, IP-адреса, ключевые слова)

Основные недостатки:

–Ориентированы на ресурсы со статическим содержанием («черные списки» адресов)

–Возможны ошибки при определении тематики

–Результаты зависят от качества и оперативности обновления баз знаний

–Отсутствует анализа исходящего трафика (нет возможности предотвращения утечки конфиденциальной информации)

Анализ и фильтрация Интернет- трафика на основе методов ИАД

Основная идея:

–Классификация потока гипертекстовой информации в режиме реального времени с учетом содержания и структуры ссылок документов с использованием методов извлечения и применения знаний (алгоритмы машинного обучения и интеллектуального анализа данных).

Функционирование:

–Администратор формирует тренировочный набор с известными тематиками (примеры гипертексовых документов, либо список Интернет-ресурсов, содержимое которых затем откачивает робот);

–На тренировочном наборе методами машинного обучения строится классификатор, который затем используется Интернет-фильтром в режиме реального времени для анализа содержимого трафика.

На настоящий момент времени нет таких промышленных решений!

Преимущества

Классификация в реальном времени статических и динамических интернет ресурсов;

Точность выше, чем у «сигнатурных» методов;

Автономность - независимость от внешних экспертов, поддержка собственной автоматически пополняемой базы знаний адресов;

Адаптируемость - возможность уточнения классификации при поступлении новых примеров;

Расширяемость - возможность добавлять новые категории и гибко настраивать политики фильтрации.

Архитектура системы

Основные результаты

Реализация системы:

–Формализованы требования и сценарии взаимодействия

–Спроектированы и реализованы базовые компоненты, их функционал, интерфейсы, алгоритмы работы

–Разработана онтология представления информации об интернет ресурсах и алгоритмы работы с базой знаний

Разработан новый алгоритм много-темной классификации:

–на основе модифицированного для существенно пересекающихся классов метода «попарных сравнений» с помощью набора бинарных классификаторов и отсечением нерелевантных классов

Предложена расширенная векторная модель представления гипертекстовых документов:

–включает базовые текстовые и нетекстовые признаки, составные признаки (сгруппированные базовые) определяются с помощью метода поиска частых эпизодов

–новый метод учета гиперссылок (не требует загрузки содержимого «окружения»)

<<< < Предыдущая 1 2 3 45 / 65 6 > Следующая >>>

Соседние файлы в предмете Интеллектуализация автоматизированных систем

#
03.02.2015411.14 Кб10Выписка из стандарта.doc
#
03.02.2015221.18 Кб57Генетические алгоритмы.ppt
#
03.02.20155.41 Mб50Лекция 1-2.ppt
#
03.02.201568.1 Кб42Лекция 1.doc
#
03.02.201557.86 Кб42Лекция 2.doc
#
03.02.201538.91 Кб37Лекция 3.doc
#
03.02.201590.62 Кб35Лекция 4.doc
#
03.02.20151.5 Mб37Лекция 5.doc