Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_po_IS (1).docx
Скачиваний:
14
Добавлен:
22.09.2019
Размер:
507.31 Кб
Скачать

Количественные характеристики словарей

Эффективность информационного поиска в значительной мере определяется уровнем качества словарей информационно-поискового языка ДИПС. Качество словарей можно характеризовать различными показателями. Наиболее часто для этой цели используются следующие:

  • Количество типов словарей

  • Число лексических единиц словарей

  • Полнота словаря

  • Коэффициент отображения лексики поискового массива

  • Коэффициент динамики роста словаря

  • Средняя длина лексической единицы словаря

  • Среднее число символов в лексической единице словаря

  • Коэффициент динамики роста словаря

  • Ранговое распределение лексических единиц словаря

Полнота словаря

Рассмотрим ИПЯ конкретной АИПС, обслуживающей заданную предметную область. N1 – общее число понятий данной предметной области, которые могут быть построены из лексических единиц ИПЯ (NИПЯ) по правилам их образования в данном ИПЯ. Тогда коэффициент полноты словаря:

На практике используют

Где NО – количество лексических единиц словаря, по которым должен проводится поиск (определяется по общему количеству несовпадающих лексических единиц массивов запросов), NС – количество лексических единиц в словаре.

Эти показания важны при динамическом построении словарей.

Коэффициент отображения лексики

Коэффициент отображения лексики поискового массива определяется как:

Где ND – количество дескрипторов в словаре

Распределение лексических единиц по длине словосочетаний.

Средняя длина словосочетаний, используемых в ИПЯ в качестве лексических единиц, характеризует степень прекоординации ИПЯ, и, тем самым, является важной характеристикой смысловыразительной способности ИПЯ.

Для характеристики ИПЯ с этой точки зрения используют распределение длин словосочетаний

Где Kl – количество максимальных лексических единиц, содержащих l слов;

m – максимальная длина словосочетания в ИПЯ (в числе слов)

Средняя длина ЛЕ

Распределение ЛЕ по количеству символов

Длину лексических единиц ИПЯ можно характеризовать распределением

Где Bi - количество ЛЕ, содержащих i символов,

n - максимальное число символов в ЛЕ.

Среднее число символов в ЛЕ

Динамика роста словаря

Динамика роста словаря характеризуется коэффициентом

Где Sd - количество ЛЕ, введенных в словарь в процессе обработки D документов

Ранговое распределение слов

Пусть – словарь ИПС. Обозначим F(x) – частоту встречаемости слова x во всех текстах массива.

Перенумеруем словарь так, чтобы частота слова F(x) была невозрастающей функцией его номера, т.е. если V={x1, x2, … , xm}, то F(x1) F(x2) … F(xm)

Назовем функцию Ф(n)=F(xn) ранговым распределением слов Ф (n)={F(x1), … , F(xn)}={f1, … , fn}.

Показано, что частота слова n-ранга fn связана с частотой слова 1-ого ранга следующей зависимостью:

Где n – ранг слова,

γ - число определяемое экспериментально

Поисковый аппарат АИПС

Технология функционирования АИПС состоит в переводе сообщений (документов и текстов) и информационных запросов на ИПЯ (формировании поисковых образов документов и запросов), сравнение ПОЗов и ПОДов и выдачи пользователям АИПС сообщений, отвечающих их информационным потребностям.

При переводе сообщений на ИПЯ возможны различные подходы:

  1. Полный перевод сообщений на ИПЯ

  2. Частичный перевод сообщения на ИПЯ (перевод ИПЯ только отдельного сообщения, например, его названия или реферата)

  3. Полный отказ от перевода на ИПЯ и использование в процессе поиска оригинального сообщения или его составляющих(текста, аннотации, заглавия, реферата и т.д.)

Перевод запросов на ИПЯ тоже может быть выполнен в различных вариантах:

  1. Перевод всего информационного запроса на ИПЯ и формирование единого ПОЗа

  2. Перевод отдельных составляющих на ИПЯ и формирование поисковых образов подзапросов.

Поисковое предписание (ПП), т.е. задание АИПС на поиск информации тоже может быть сформулировано по-разному:

  1. Формулировка единого ПП, соответствующего единому ПОЗу

  2. Формулировка нескольких ПП, соответствующих подзапросу

Процедура сравнения ПОЗов (или ПП) и ПОДов и принятия решений о выдаче или невыдаче пользователями АИПС тех или иных сообщений тоже характеризуется большим многообразием. Такое многообразие определяется многими факторами, и, прежде всего, возможностями использования при формировании ПП логических операций И, ИЛИ, НЕ и различных критериев выдачи.

Организация и используемые методы и средства реализации процессов индексирования документов и запросов и проведения собственного поиска оказывают основополагающее влияние на эффективность поиска и, соответственно, эффективность АИПС.

Совокупность методов и средств реализации процесса поиска информации в автоматизированных ИПС назовем аппаратом поиска или поисковым аппаратом.

Поисковый аппарат АИПС включает:

  1. Математический аппарат формализованного представления и поиска информации

  2. Методы и средства структурирования информационных запросов

  3. Критерии выдачи (смыслового соответствия) информации

  4. Стратегии поиска и организации массива.

Фактографические системы

Отличительной особенностью этих подсистем является использование данных, как способа представления фактов, концепций или инструкций. Данные могут быть представлены в виде текста. При этом не ставится задача структурирования этого текста, т.е. если описание факта и имеет структуру, то автоматический поиск этой структуры не является задачей фактографической системы.

Фактографические системы берут свое начало с систем обработки данных. Система обработки данных (СОД) – комплекс взаимосвязанных методов и средств сбора и обработки данных, необходимых для организации управления объектами. СОД основываются на применении ЭВМ и других современных средств информационной техники, поэтому их также называют автоматизированными системами обработки данных.

Развитие фактографических систем связано с развитием технологий хранения и обработки информации.

Из истории развития технологии хранения можно выделить следующие этапы.

Первый этап – хранение данных в том случае использовались файлы последовательного доступа и файлы с произвольным доступом. Отличительной особенностью этого этапа – работа программиста с низкоуровневыми операциями ввода, вывода, поиска и т.д.

Второй этап – использование баз данных. Используются также файлы, хранящие кроме данных еще и структуру данных. Развитие баз данных и систем управления базами данных (СУБД) является одним из основных факторов развития современных фактографических систем.

Появление OLAP – систем и хранилищ данных (Data Warehouse ) связано с появлением технологий работы с многомерными таблицами данных. Вместе с тем, развиваются не только технологии программного уровня, но и технологии аппаратного уровня.

Функциональное развитие автоматизированных систем продолжается с появлением новых концепций обработки и представления информации, использованных в фактографических информационных системах. С появлением концепций информационно-управляющих систем, была добавлена функция, направленная на обеспечение менеджеров необходимыми для принятия управленческих решений отчетами, составленными на основе собранных в процессе данных. Очень часто к информационно-управляющим системам относят системы поддержки принятия решений (СППР), экспертные системы (ЭС) и управленческие информационные системы.

ССПР

Концепция систем поддержки принятия решений (СППР, decision support system - DSS) отражала потребность менеджеров в специализированном инструменте, обеспечивающего интерактивную поддержку процессов принятия уникальных решений.

Современные системы поддержки принятия решения (СППР), возникшее как естественное развитие и продолжение управленческих информационных систем и систем управления базами данных, представляют собой системы, максимально приспособленные к решению задач повседневной управленческой деятельности. Они являются инструментом, призванным оказать помощь лицам, принимающим решения (ЛПР).

Обобщенная архитектура СППР состоит из 5 различных частей:

  1. Система управления данными

  2. Система управления моделями

  3. Машина знаний

  4. Интерфейс пользователя

  5. Пользователь

Система поддержки принятия решений обладает следующими 4мя характеристиками:

  1. Использование и данных, и моделями

  2. Помощь менеджерам в принятии решений для слабоструктурированных и неструктурированных задач

  3. Поддержка, а не замена, выработки решений менеджерами (ЛПР)

  4. Применение с целью улучшение эффективности решений.

В первых системах СППР требовалось хранение больших массивов данных и выполнение с большой скоростью транзакций в распределенных системах. Это направление развития СППР привело к созданию систем оперативной обработки транзакций (OLTP – On-line Transaction Processing)

OLTP-системы проектируются для управления большим потоком транзакций, каждый из которых сопровождался внесением незначительных изменений в оперативные данные предприятий. Данные системы должны иметь инструмент обработки информации (операций, документов) в режиме реального времени. Объем данных может колебаться от нескольких мегабайт до терабайт и пентабайт

В тоже время, такие системы трудно использовать для анализа хранимых данных.

OLTP

В 1993 году Е. Коддом была предложена концепция инструментов, реализующая оперативную аналитическую обработку данных (On-Line Analysis Processing - OLAP)

По Кодду – OLAP-технология – это технология комплексного динамического синтеза, анализа и консолидации больших объемов многомерных данных.

Он же сформулировал 12 принципов OLAP, которые позже были переработаны в так называемый, тест Быстрый Анализ Разделяемой Многомерной Информации или кратко – тест FASMI (Fast Analysis of Shared Multidimensional Information):

Fast (быстрый) – предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 сек) пусть даже ценой менее детального анализа

Analysis (анализ) – возможность осуществления любого логического или статистического анализа характерного для данного приложения и его сохранение в доступном для конечного пользователя виде.

Multidimensional (многомерной) – многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (ключевое требование OLAP),

Information (информации) – возможность обращаться к любой нужной информации независимо от ее объема и места хранения.

В силу принципа «Multidimensional», OLAP ассоциируется с многомерным кубом или гиперкубом.

Гиперкуб является концептуальной логической моделью организации данных, а не физической реализацией их хранения, поскольку храниться такие данные могут и в реляционных таблицах.

Над гиперкубом производятся аналитические OLAP-операции:

  1. Сечение. При выполнении операции сечения формируются подмножества гиперкуба, в котором значение одного или более измерений фиксировано (например, год)

  2. Вращение (rolling). Операция вращения изменяет порядок представления измерений, обеспечивая представление метакуба в более удобной для восприятия форме.

  3. Drill Down/Up – Drill Down (Углубление данных) или Drill Up (Консолидация (обобщение) как отдельных измерений, так и выбранных элементов измерений) - это специальная техника анализа, используемая при изучении данных. Направление консолидации может быть задано как по иерархии отдельных измерений, так и прочим отношением.

  4. Разбиение с повтором (slicing and dicing). Термин, используемый для описания функции сложного анализа данных, выборка данных из многомерного куба с заданными значениями и заданным взаимным расположением измерений. Пользователь при этом обычно использует операции вращения концептуального куба данных и детализации/агрегирования данных.

Физическая организация концептуальной модели возможна в трех вариантах:

  1. MOLAP (Multidimensional OLAP)

  2. ROLAP (Relation OLAP)

  3. HOLAP (Hybrid OLAP)

MOLAP

В MOLAP-модели многомерное представление данных реализуется физически. В специализированных СУБД, основанных на многомерном представлении данных, данные организованны не в форме реляционных таблиц, а в упорядоченных многомерных массивах.

Достоинства:

  1. Высокая производительность, т.к. в случае использования многомерных СУБД поиск и выборка данных осуществляется значительно быстрее, чем при использовании реляционных баз данных

  2. В MOLAP легко встраиваются различные функции, которые трудно реализовать в SQL.

Недостатки MOLAP-модели:

  1. Не позволяют работать с большими массивами данных

  2. Трудности хранения и обработки разреженных данных (данные неизвестны или нулевые)

Область применения:

  1. Объем исходных данных для анализа не слишком велик (не более нескольких гигабайт)

  2. Набор информационных измерений стабилен (поскольку любое изменение в их структуре почти всегда требует полной перестройки гиперкуба)

  3. Время ответа системы на нерегламентированные запросы является наиболее критичным параметром.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]