- •1. Общие понятия ис.
- •Жизненный цикл ис.
- •Пользователи ис делятся на внешних и внутренних.
- •Базы данных.
- •Проектирование бд.
- •Факто-графические системы.
- •2. Ограничения целостности. Виды и реализация.
- •Обеспечение целостности (12 Восстановление данных)
- •3. Сетевая и иерархическая модель данных Сетевая модель
- •Типовые операции с данными:
- •Иерархическая модель.
- •4. Реляционная модель данных
- •Математический аппарат реляционной модели.
- •5. Нормализация отношений
- •6. Инфологическое проектирование
- •7. Даталогическое проектирование (дп)
- •Преобразование в дм для реляционной субд
- •8. Организация диалога
- •9. Функциональное проектирование
- •10. Язык sql
- •11. Защита от несанкционированного доступа
- •13. Организация многопользовательского доступа
- •14. Физическая организация данных
- •15. Методы поиска в бд
- •16. Документальные системы
16. Документальные системы
Данный класс систем является примером специализированных СУБД, предназначенных для решения задач определенного вида ( в данном случае, для обеспечения работы с текстовыми, слабоструктурированными документами ). Специализированные СУБД отражают специфику решаемых задач путем определения соответствующего формата хранения информации и операций работы с нею. В результате СУБД представляют собой по сути дела готовую оболочку для размещения данных определенного характера с возможностью выполнения специфических для таких данных операций.
В документальных системах документы могут храниться в следующих формах:
- в полной форме ( сохраняется полный текст документа, возможно в структурированном виде )
- в частичной форме ( сохраняется сжатое представление содержания документа в виде реферата или резюме )
- в виде ссылки ( сохраняется информация о месте хранения документа в печатном или электронном виде ).
Кроме собственно документов в системе хранится набор связанных с ними реквизитов, таких как автор ( составитель, источник ), время создания ( поступления ), категория и т.д. Могут храниться также служебные данные, позволяющие повысить эффективность обработки документов. В частности, в документальных системах служебные данные предназначаются в первую очередь для ускорения и уточнения поиска.
В соответствии с назначением документальных систем основными операциями, реализуемыми в них, являются ввод, редактирование, удаление документов, а также поиск нужных документов ( в развитых системах и управления потоками документов ). Если первые три операции близки по реализации к общим операциям текстовых редакторов, то операция поиска достаточно специфична в реализации для документальных систем и оказывает влияние на используемую организацию данных.
Основные направления реализации поиска следующие:
1. Поиск по реквизитам.
Собственно содержание документов в поиске не используется. Поиск основывается на требованиях, предъявляемых к реквизитам (пример – заполнение реквизитов поиска в известном семействе систем Консультант-плюс). Это либо задание требуемого значения реквизита, либо задание диапазона, в котором должно находиться значение реквизита. Отдельные требования могут объединяться явно или неявно в общее требование с помощью логических операций И, ИЛИ, НЕ. Такой поиск аналогичен поиску в фактографических системах.
2. Прямой поиск в тексте.
Выполняется путем просмотра текста документа для обнаружения в нем вхождения заданного образца ( слова, словосочетания, части фразы ). При задании образца могут использоваться шаблоны ( типа "*" – произвольное количество символов, "?" - произвольный один символ ). Достоинством поиска является простота реализации, не требующая введения дополнительной служебной информации. Недостаток – низкое быстродействие. Используется как вспомогательный метод поиска в отдельных документах или небольших выборках.
3. Поиск с полным индексом.
Для каждого документа при поступлении ( создании ) формируется полный индекс документа, содержащий в упорядоченном виде все входящие в документ термины ( полное индексирование или "инвентирование" документа ). Кроме слов документа в индексе может храниться дополнительная служебная информация для расширения возможностей поиска ( например, число вхождений термина в документ, указания на синонимы, местонахождение термина в тексте и т.д. ). Достоинством использования полного индексирования является высокая скорость и полнота поиска, недостаток – большие потери памяти на хранение индексов. Для сокращения объема индексов в них не включают малозначащую информацию. Так, несущественными для поиска документов являются, например, элементы из малого числа символов ( 1 – 2 символа ). Для исключения несущественных элементов большей длины может использоваться словарь общеупотребительных терминов или анализ для выбрасывания несущественных частей слов или членов предложения.
4. Поиск с частичным индексом.
Под частичным индексом здесь понимается небольшой набор терминов, достаточно полно описывающий основное содержание и специфику документа. Данные термины называются ключевыми словами или дескрипторами. Поиск по дескрипторам экономичен и имеет очень высокое быстродействие, но результаты сильно зависят от удачности выбора ключевых слов. До недавнего времени поиск с частичным индексом являлся основным методом поиска, в настоящее время постепенно сдает позиции полноиндексному методу, но по-прежнему удерживает значительные позиции.
Рассмотрим организацию дескрипторного поиска подробнее, так как использованные здесь идеи во-многом унаследованы и полноиндексным поиском ( для этого достаточно объединить раздельные индексы документов в единый индекс ). Используются три основных подхода.
а). поиск по поисковым образам документов.
Организация данных и обработки имеет вид.
3апрос Документ
Здесь Т – тезаурус,
МПОД – массив поисковых образов документов,
МА – массив адресов,
МД – массив документов
Тезаурус содержит набор всех дескрипторов, присвоенных хранимым документам. С каждым дескриптором связывается его код ( идентификатор ) и, возможно, дополнительная служебная информация. В строках МПОД хранится код документа и коды дескрипторов данного документа. В массиве адресов кодам документов поставлены в соответствие адреса хранения документов. Сами документы хранятся в МД. Размещение в системе нового документа выполняется следующим образом:
- выделенные каким-либо образом дескрипторы документа проверяются по тезаурусу, при отсутствии в тезаурусе они регистрируются с присвоением уникального кода. Обработанные дескрипторы заменяются на их коды для записи в МПОД (1).
- в МПОД добавляется новая строка, соответствующая вводимому документу с определением уникального кода документа (2)
- документ записывается в МД (3), в МА заносится информация о месте хранения (4).
При поиске документов формируется запрос из набора терминов. Термины запроса проверяются по тезаурусу и заменяются на соответствующие коды (1). Набор кодов сравнивается с ПОД и выбираются подходящие под запрос документы (2,3,4). Достоинство организации: простота реализации. Недостаток – сравнительно низкое быстродействие из-за необходимости сравнивать запрос с каждым из ПОД.
б). поиск по инвертированным спискам.
В структуре данных МПОД заменяется на инвертированный список ИС. ИС содержит коды дескрипторов с подключенными к ним цепочками кодов документов, содержащих эти дескрипторы. В результате, при вводе нового документа нужно добавить код документа ко всем цепочкам, соответствующим дескрипторам документа. При поиске выбираются и сравниваются цепочки, соответствующие терминам запроса, что позволяет избежать полного перебора.
в). поиск по сходству.
В отличие от рассмотренных ранее организаций поиска для отбора документов достаточно не полного, а частичного соответствия документа запросу. Формально для этого документу ставится в соответствие характеристический вектор
ta øø…ø tв ø…ø tс ø…,
отдельные позиции которого соответствуют дескрипторам из тезауруса. Для дескрипторов, отсутствующих в данном документе, в позиции проставляется ø , иначе – вес ti , характеризующий важность дескриптора и число вхождений дескриптора в документ.
Для запроса формируется аналогичный вектор. При поиске вектор запроса сопоставляется с векторами документов. Близость векторов запроса и документа количественно оценивается по принятому коэффициенту сходства, например, коэффициенту Дайса.
Если полученное значение превысило заданное пороговое значение, то документ считается подходящим. Для ускорения поиска документы группируются в кластеры по степени сходства их векторов и вектор запроса сравнивается не с отдельными векторами документов, а с обобщенным вектором кластера.