Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции по Уд.DOC
Скачиваний:
7
Добавлен:
27.10.2018
Размер:
1.11 Mб
Скачать

16. Документальные системы

Данный класс систем является примером специализированных СУБД, предназначенных для решения задач определенного вида ( в данном случае, для обеспечения работы с текстовыми, слабоструктурированными документами ). Специализированные СУБД отражают специфику решаемых задач путем определения соответствующего формата хранения информации и операций работы с нею. В результате СУБД представляют собой по сути дела готовую оболочку для размещения данных определенного характера с возможностью выполнения специфических для таких данных операций.

В документальных системах документы могут храниться в следующих формах:

- в полной форме ( сохраняется полный текст документа, возможно в структурированном виде )

- в частичной форме ( сохраняется сжатое представление содержания документа в виде реферата или резюме )

- в виде ссылки ( сохраняется информация о месте хранения документа в печатном или электронном виде ).

Кроме собственно документов в системе хранится набор связанных с ними реквизитов, таких как автор ( составитель, источник ), время создания ( поступления ), категория и т.д. Могут храниться также служебные данные, позволяющие повысить эффективность обработки документов. В частности, в документальных системах служебные данные предназначаются в первую очередь для ускорения и уточнения поиска.

В соответствии с назначением документальных систем основными операциями, реализуемыми в них, являются ввод, редактирование, удаление документов, а также поиск нужных документов ( в развитых системах и управления потоками документов ). Если первые три операции близки по реализации к общим операциям текстовых редакторов, то операция поиска достаточно специфична в реализации для документальных систем и оказывает влияние на используемую организацию данных.

Основные направления реализации поиска следующие:

1. Поиск по реквизитам.

Собственно содержание документов в поиске не используется. Поиск основывается на требованиях, предъявляемых к реквизитам (пример – заполнение реквизитов поиска в известном семействе систем Консультант-плюс). Это либо задание требуемого значения реквизита, либо задание диапазона, в котором должно находиться значение реквизита. Отдельные требования могут объединяться явно или неявно в общее требование с помощью логических операций И, ИЛИ, НЕ. Такой поиск аналогичен поиску в фактографических системах.

2. Прямой поиск в тексте.

Выполняется путем просмотра текста документа для обнаружения в нем вхождения заданного образца ( слова, словосочетания, части фразы ). При задании образца могут использоваться шаблоны ( типа "*" – произвольное количество символов, "?" - произвольный один символ ). Достоинством поиска является простота реализации, не требующая введения дополнительной служебной информации. Недостаток – низкое быстродействие. Используется как вспомогательный метод поиска в отдельных документах или небольших выборках.

3. Поиск с полным индексом.

Для каждого документа при поступлении ( создании ) формируется полный индекс документа, содержащий в упорядоченном виде все входящие в документ термины ( полное индексирование или "инвентирование" документа ). Кроме слов документа в индексе может храниться дополнительная служебная информация для расширения возможностей поиска ( например, число вхождений термина в документ, указания на синонимы, местонахождение термина в тексте и т.д. ). Достоинством использования полного индексирования является высокая скорость и полнота поиска, недостаток – большие потери памяти на хранение индексов. Для сокращения объема индексов в них не включают малозначащую информацию. Так, несущественными для поиска документов являются, например, элементы из малого числа символов ( 1 – 2 символа ). Для исключения несущественных элементов большей длины может использоваться словарь общеупотребительных терминов или анализ для выбрасывания несущественных частей слов или членов предложения.

4. Поиск с частичным индексом.

Под частичным индексом здесь понимается небольшой набор терминов, достаточно полно описывающий основное содержание и специфику документа. Данные термины называются ключевыми словами или дескрипторами. Поиск по дескрипторам экономичен и имеет очень высокое быстродействие, но результаты сильно зависят от удачности выбора ключевых слов. До недавнего времени поиск с частичным индексом являлся основным методом поиска, в настоящее время постепенно сдает позиции полноиндексному методу, но по-прежнему удерживает значительные позиции.

Рассмотрим организацию дескрипторного поиска подробнее, так как использованные здесь идеи во-многом унаследованы и полноиндексным поиском ( для этого достаточно объединить раздельные индексы документов в единый индекс ). Используются три основных подхода.

а). поиск по поисковым образам документов.

Организация данных и обработки имеет вид.

3апрос Документ

Здесь Т – тезаурус,

МПОД – массив поисковых образов документов,

МА – массив адресов,

МД – массив документов

Тезаурус содержит набор всех дескрипторов, присвоенных хранимым документам. С каждым дескриптором связывается его код ( идентификатор ) и, возможно, дополнительная служебная информация. В строках МПОД хранится код документа и коды дескрипторов данного документа. В массиве адресов кодам документов поставлены в соответствие адреса хранения документов. Сами документы хранятся в МД. Размещение в системе нового документа выполняется следующим образом:

- выделенные каким-либо образом дескрипторы документа проверяются по тезаурусу, при отсутствии в тезаурусе они регистрируются с присвоением уникального кода. Обработанные дескрипторы заменяются на их коды для записи в МПОД (1).

- в МПОД добавляется новая строка, соответствующая вводимому документу с определением уникального кода документа (2)

- документ записывается в МД (3), в МА заносится информация о месте хранения (4).

При поиске документов формируется запрос из набора терминов. Термины запроса проверяются по тезаурусу и заменяются на соответствующие коды (1). Набор кодов сравнивается с ПОД и выбираются подходящие под запрос документы (2,3,4). Достоинство организации: простота реализации. Недостаток – сравнительно низкое быстродействие из-за необходимости сравнивать запрос с каждым из ПОД.

б). поиск по инвертированным спискам.

В структуре данных МПОД заменяется на инвертированный список ИС. ИС содержит коды дескрипторов с подключенными к ним цепочками кодов документов, содержащих эти дескрипторы. В результате, при вводе нового документа нужно добавить код документа ко всем цепочкам, соответствующим дескрипторам документа. При поиске выбираются и сравниваются цепочки, соответствующие терминам запроса, что позволяет избежать полного перебора.

в). поиск по сходству.

В отличие от рассмотренных ранее организаций поиска для отбора документов достаточно не полного, а частичного соответствия документа запросу. Формально для этого документу ставится в соответствие характеристический вектор

ta øø…ø tв ø…ø tс ø…,

отдельные позиции которого соответствуют дескрипторам из тезауруса. Для дескрипторов, отсутствующих в данном документе, в позиции проставляется ø , иначе – вес ti , характеризующий важность дескриптора и число вхождений дескриптора в документ.

Для запроса формируется аналогичный вектор. При поиске вектор запроса сопоставляется с векторами документов. Близость векторов запроса и документа количественно оценивается по принятому коэффициенту сходства, например, коэффициенту Дайса.

Если полученное значение превысило заданное пороговое значение, то документ считается подходящим. Для ускорения поиска документы группируются в кластеры по степени сходства их векторов и вектор запроса сравнивается не с отдельными векторами документов, а с обобщенным вектором кластера.

38