Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Вятский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекции по Уд.DOC

Скачиваний:

Добавлен:

27.10.2018

Размер:

1.11 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 1515

16. Документальные системы

Данный класс систем является примером специализированных СУБД, предназначенных для решения задач определенного вида ( в данном случае, для обеспечения работы с текстовыми, слабоструктурированными документами ). Специализированные СУБД отражают специфику решаемых задач путем определения соответствующего формата хранения информации и операций работы с нею. В результате СУБД представляют собой по сути дела готовую оболочку для размещения данных определенного характера с возможностью выполнения специфических для таких данных операций.

В документальных системах документы могут храниться в следующих формах:

- в полной форме ( сохраняется полный текст документа, возможно в структурированном виде )

- в частичной форме ( сохраняется сжатое представление содержания документа в виде реферата или резюме )

- в виде ссылки ( сохраняется информация о месте хранения документа в печатном или электронном виде ).

Кроме собственно документов в системе хранится набор связанных с ними реквизитов, таких как автор ( составитель, источник ), время создания ( поступления ), категория и т.д. Могут храниться также служебные данные, позволяющие повысить эффективность обработки документов. В частности, в документальных системах служебные данные предназначаются в первую очередь для ускорения и уточнения поиска.

В соответствии с назначением документальных систем основными операциями, реализуемыми в них, являются ввод, редактирование, удаление документов, а также поиск нужных документов ( в развитых системах и управления потоками документов ). Если первые три операции близки по реализации к общим операциям текстовых редакторов, то операция поиска достаточно специфична в реализации для документальных систем и оказывает влияние на используемую организацию данных.

Основные направления реализации поиска следующие:

1. Поиск по реквизитам.

Собственно содержание документов в поиске не используется. Поиск основывается на требованиях, предъявляемых к реквизитам (пример – заполнение реквизитов поиска в известном семействе систем Консультант-плюс). Это либо задание требуемого значения реквизита, либо задание диапазона, в котором должно находиться значение реквизита. Отдельные требования могут объединяться явно или неявно в общее требование с помощью логических операций И, ИЛИ, НЕ. Такой поиск аналогичен поиску в фактографических системах.

2. Прямой поиск в тексте.

Выполняется путем просмотра текста документа для обнаружения в нем вхождения заданного образца ( слова, словосочетания, части фразы ). При задании образца могут использоваться шаблоны ( типа "*" – произвольное количество символов, "?" - произвольный один символ ). Достоинством поиска является простота реализации, не требующая введения дополнительной служебной информации. Недостаток – низкое быстродействие. Используется как вспомогательный метод поиска в отдельных документах или небольших выборках.

3. Поиск с полным индексом.

Для каждого документа при поступлении ( создании ) формируется полный индекс документа, содержащий в упорядоченном виде все входящие в документ термины ( полное индексирование или "инвентирование" документа ). Кроме слов документа в индексе может храниться дополнительная служебная информация для расширения возможностей поиска ( например, число вхождений термина в документ, указания на синонимы, местонахождение термина в тексте и т.д. ). Достоинством использования полного индексирования является высокая скорость и полнота поиска, недостаток – большие потери памяти на хранение индексов. Для сокращения объема индексов в них не включают малозначащую информацию. Так, несущественными для поиска документов являются, например, элементы из малого числа символов ( 1 – 2 символа ). Для исключения несущественных элементов большей длины может использоваться словарь общеупотребительных терминов или анализ для выбрасывания несущественных частей слов или членов предложения.

4. Поиск с частичным индексом.

Под частичным индексом здесь понимается небольшой набор терминов, достаточно полно описывающий основное содержание и специфику документа. Данные термины называются ключевыми словами или дескрипторами. Поиск по дескрипторам экономичен и имеет очень высокое быстродействие, но результаты сильно зависят от удачности выбора ключевых слов. До недавнего времени поиск с частичным индексом являлся основным методом поиска, в настоящее время постепенно сдает позиции полноиндексному методу, но по-прежнему удерживает значительные позиции.

Рассмотрим организацию дескрипторного поиска подробнее, так как использованные здесь идеи во-многом унаследованы и полноиндексным поиском ( для этого достаточно объединить раздельные индексы документов в единый индекс ). Используются три основных подхода.

а). поиск по поисковым образам документов.

Организация данных и обработки имеет вид.

3апрос Документ

Здесь Т – тезаурус,

МПОД – массив поисковых образов документов,

МА – массив адресов,

МД – массив документов

Тезаурус содержит набор всех дескрипторов, присвоенных хранимым документам. С каждым дескриптором связывается его код ( идентификатор ) и, возможно, дополнительная служебная информация. В строках МПОД хранится код документа и коды дескрипторов данного документа. В массиве адресов кодам документов поставлены в соответствие адреса хранения документов. Сами документы хранятся в МД. Размещение в системе нового документа выполняется следующим образом:

- выделенные каким-либо образом дескрипторы документа проверяются по тезаурусу, при отсутствии в тезаурусе они регистрируются с присвоением уникального кода. Обработанные дескрипторы заменяются на их коды для записи в МПОД (1).

- в МПОД добавляется новая строка, соответствующая вводимому документу с определением уникального кода документа (2)

- документ записывается в МД (3), в МА заносится информация о месте хранения (4).

При поиске документов формируется запрос из набора терминов. Термины запроса проверяются по тезаурусу и заменяются на соответствующие коды (1). Набор кодов сравнивается с ПОД и выбираются подходящие под запрос документы (2,3,4). Достоинство организации: простота реализации. Недостаток – сравнительно низкое быстродействие из-за необходимости сравнивать запрос с каждым из ПОД.

б). поиск по инвертированным спискам.

В структуре данных МПОД заменяется на инвертированный список ИС. ИС содержит коды дескрипторов с подключенными к ним цепочками кодов документов, содержащих эти дескрипторы. В результате, при вводе нового документа нужно добавить код документа ко всем цепочкам, соответствующим дескрипторам документа. При поиске выбираются и сравниваются цепочки, соответствующие терминам запроса, что позволяет избежать полного перебора.

в). поиск по сходству.

В отличие от рассмотренных ранее организаций поиска для отбора документов достаточно не полного, а частичного соответствия документа запросу. Формально для этого документу ставится в соответствие характеристический вектор

t_aøø…ø t_в ø…ø t_с ø…,

отдельные позиции которого соответствуют дескрипторам из тезауруса. Для дескрипторов, отсутствующих в данном документе, в позиции проставляется ø , иначе – вес t_i, характеризующий важность дескриптора и число вхождений дескриптора в документ.

Для запроса формируется аналогичный вектор. При поиске вектор запроса сопоставляется с векторами документов. Близость векторов запроса и документа количественно оценивается по принятому коэффициенту сходства, например, коэффициенту Дайса.

Если полученное значение превысило заданное пороговое значение, то документ считается подходящим. Для ускорения поиска документы группируются в кластеры по степени сходства их векторов и вектор запроса сравнивается не с отдельными векторами документов, а с обобщенным вектором кластера.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 1415 / 1515

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.06.2015930.78 Кб81Лекции по схемотехнике.pdf
#
17.08.2019224.77 Кб9Лекции по ТГП_.doc
#
02.06.2015475.61 Кб59Лекции по теории автоматов - 1.pdf
#
02.06.20151.52 Mб107Лекции по теории автоматов - 2.pdf
#
02.06.20154.73 Mб53Лекции по технологиям программирования.pdf
#
27.10.20181.11 Mб7Лекции по Уд.DOC
#
13.09.2019122.99 Кб1Лекции Политология.docx
#
02.06.2015624.27 Кб78Лекции Производство электроэнергии.pdf
#
02.06.2015991.23 Кб75ЛЕКЦИИ Промархитектура.doc
#
07.09.2019586.24 Кб5ЛЕКЦИИ ПСИХИ.doc
#
02.06.2015313.86 Кб30Лекции с 1917 г..doc