- •Министерство образования и науки Российской Федерации
- •Оглавление
- •2. Поиск данных и документов для подготовки и принятия
- •3. Модели и алгоритмы поиска документов
- •4. Модель запросов лпр в среде распределенных
- •5. Система поддержки принятия решений на основе
- •6. Система информационно-лингвистического обеспечения
- •Введение
- •1. Распределенные системы поддержки
- •Принятия решений
- •1.1. Понятие систем поддержки принятия решений
- •1.2. Типовые архитектуры систем поддержки
- •Принятия решений
- •1.3. Анализ возможностей современных систем
- •Поддержки принятия решений
- •1.3.1. Система поддержки принятия решений парус
- •1.3.2. Система поддержки принятия решений
- •На платформе Oracle
- •2. Поиск данных и документов
- •2.1.2. Метапоисковые системы
- •2.2. Поиск информации о производственных
- •Ситуациях в информационно-управляющих
- •Системах
- •2.3. Поиск документов на основе построения
- •Терминологического базиса
- •2.4. Контекстно-поисковые процедуры на основе
- •Реляционных баз данных
- •3. Модели и алгоритмы поиска
- •3.2. Алгоритмы и модели информационного поиска
- •3.2.1. Алгоритм PageRing
- •3.2.2. Алгоритм Клейнберга и его модификации
- •3.2.3. Латентно-семантический анализ
- •3.2.4. Алгоритмы морфологического анализа текстов
- •3.2.5. Модели ранжирования
- •3.2.6. Модель определения релевантности
- •3.3. Оценка качества поисковых алгоритмов
- •4. Модель запросов лпр в среде
- •Распределенных информационных ресурсов информационно-управляющих систем
- •4.1. Процедуры формирования модели запросов лпр
- •4.2. Характеристики модели запросов лпр
- •4.3. Методология plsa в области
- •Извлечения информации
- •4.3.1. Частотная терминологическая модель запросов лпр
- •4.3.2. Динамический профиль лпр в информационно-управляющих системах
- •4.3.3. Алгоритм непрерывной корректировки профиля лпр
- •4.4. Мультилингвистическая поисковая система
- •Для подготовки и принятия решения в корпоративных
- •Информационно-управляющих системах
- •4.5. Алгоритмы организации работы
- •При обработке информации в системе
- •Поддержки принятия решений
- •4.6. Программная реализация предложенных
- •Алгоритмов
- •5. Система поддержки
- •Принятия решениЙ на основе Информационно-терминологического
- •5.1. Лексико-семантическая база данных
- •Типа WordNet для русского языка
- •5.2. Тезаурус sdk
- •5.3. Тезаурус rco for Oracle
- •5.4. Синтез структуры распределенной системы
- •Поддержки принятия решений на основе тезауруса
- •И его мультилингвистическая модификация
- •6. Система информационно-лингвистического
- •Обеспечения распределенных систем
- •Поддержки принятия решений
- •6.1. Алгоритм работы поисковой подсистемы
- •6.2. Функциональные возможности подсистемы
- •Синтеза структуры распределенной системы
- •Поддержки принятия решений
- •6.3. Программная реализация системы
- •Информационно-лингвистического обеспечения распределенных систем поддержки принятия решений
- •Заключение
- •Библиографические ссылки
- •Мультилингвистические технологии подготовки и принятия решений в распределенных информационно-управляющих системах
- •660014, Г. Красноярск, просп. Им. Газ. «Красноярский рабочий», 31.
4.3.3. Алгоритм непрерывной корректировки профиля лпр
При использовании алгоритма непрерывной корректировки профиля ЛПР предполагается, что существует некоторое хранилище предыдущих запросов пользователя. В текущий момент времени iпользователь вводит новый запрос, который после соответствующей обработки помещаетсяв хранилище запросов. Обновленное (или дополненное) в момент времени iтекущим запросом хранилище запросов будем обозначатьQi.
Запрос перед передачей алгоритму обрабатывается с целью выделения ключевых терминов. Далее производится пересчет взвешенных частот терминов в хранилище запросов Qiс учетом нового запроса. Когда пользователь вводит очередной запрос, ключевым словам (терминам) данногозапроса назначаются наибольшие веса. При поступлении запроса в хранилищезапросов происходит проверка на наличие в этом хранилище терминов, присущих текущему запросу. Если термин встречается впервые, то при его занесении в хранилище вес остается без изменений, если же такой термин уже существует (это означает, что пользователь уже когда-то использовал запрос, включающий данный термин), то производится пересчет весового коэффициента данного термина. В результате происходит нормирование весовых коэффициентов. Категории интересовCiдля включения в текущий профиль извлекаются из хранилища посредством использования методологииPLSA.
Представим пошаговый алгоритм непрерывной корректировки профиля пользователя.
Инициализировать хранилище запросов Qi= {w1i,w2i, …,wki}, гдеwki– термины хранилища запросов,k= 1, …,M.
Выделить набор ключевых терминов текущего запроса.
Скорректировать весовые коэффициенты терминов и произвести их нормировку с учетом нового запроса.
Рассчитать уровень изменчивости i.
Рассчитать условные вероятности классов, используя процедуру TEMследующим образом:
Рассчитать вероятность категории Ciдля заданного класса латентного семантического пространства:
Рассчитать вероятность включения категории Ciдля текущего состояния хранилища запросовQi.
Занести категорию в профиль пользователя. Для этого включить соответствующую тройку (Ci,Wi,i) в профиль.
Если уровень изменчивости i>0(где0– заданная величина), то увеличить текущий вес категорииCiна величину
Wi :Wi= Wi+Wi.
Отсортировать последовательность троек (Ci,Wi,i) в профиле по порядку убывания весаWi.
Сохранить получившийся профиль как текущий.
Эффективность работы алгоритма непрерывной корректировки профиля пользователя была оценена на сравнительно небольших тестовых наборах данных, но и это позволило отразить реальную ситуацию в корпоративных информационно-управляющих системах.
4.4. Мультилингвистическая поисковая система
Для подготовки и принятия решения в корпоративных
Информационно-управляющих системах
Рассмотрим систему поиска мультилингвистической информации для поддержки принятия решений в корпоративных информационно-управляющих системах при помощи методики определения расстояния между отдельными точками метрического пространства производственных ситуаций (рис. 4.4). При этом для нахождения расстояния между двумя произвольными производственными ситуациями S1(t), S2(t) {S(t)} необходимо предварительно определить функции, устанавливающие степень сходства, существующего между соответствующими характеристиками S1(t), S2(t).
Рис. 4.4. Структурная схема реализации мультилингвистической технологии
поиска данных для подготовки и принятия решения в ИУС [54]
Все характеристики разбиты на четыре группы. В первой группе содержится текстовая информация, во второй группе хранится информация в числовой форме, в третьей группе – ориентированные графы, используемые ЛПР в процессе подготовки и принятия решения [16]. При этом граф G1 характеризует взаимосвязи, существующие между параметрами объекта управления, системы управления и среды, влияющими на процесс принятия решения в ситуации S, а граф G2 учитывает взаимосвязи между административными мероприятиями, которые рекомендуется осуществить в сло-жившейся ситуации. В характеристиках четвертой группы хранятся названия производственных ситуаций.
Информационные элементы мультилингвистической поисковой системы содержатся в базе данных реляционного типа в виде совокупности отношений различной структуры. Поиск этих элементов осуществляется по запросу СУБД, сформированному на языке SQL и выдаваемому при обработке каждой производственной ситуации.
После проведения процедур формирования функций сходства для каждой из указанных групп характеристик выбирается метрика, определяющая расстояние между отдельными производственными ситуациями. Функции j = 1, ..., 4 используются в составе метрики ps, задающей расстояние между характеристиками S1(t), S2(t) в пространстве производственных ситуаций. Следует обратить внимание на то, что при t = const метрика ps(S1(t), S2(t)) должна быть действительной числовой функцией, для которой выполняются известные аксиомы метрики. В качестве функции, заведомо обладающей данными свойствами, выбрано евклидово расстояние, определяемое по формуле
На основе предложенной методики определения расстояния между различными производственными ситуациями, возникающими в процессе функционирования объекта управления, реализованы новые алгоритмы оперативного поиска мультилингвистических данных и документов, которые будут представлены далее.