Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИТ в экономике.doc
Скачиваний:
3
Добавлен:
19.11.2019
Размер:
799.74 Кб
Скачать

2.3.1.3. Индексация, организация поиска, анализ документов в кэа

При помещении документов в архив, для них строятся индексы, которые затем помогают быстро найти нужные документы. Индексация представляет собой процесс присваивания документу признаков, по которым он затем может быть идентифицирован. Документы представляют собой наборы неструктурированной информации. В результате, задача поиска в КЭА, есть задача поиска в хранилищах неструктурированной информации большого объема.

В настоящее время применяется три основных типа индексации [56, 57,58].

  • Индексация по реквизитам (каждому помещаемому в архив документу соответствует поисковая карточка со значениями реквизитов - дата создания, автор документа, тема документа и так далее). Такая индексация и последующий поиск по реквизитам применяются при обработке большого количества однотипных документов (например, инструкции, приказы, служебные записки).

  • индексация по ключевым словам (слова, соответствующие тематической направленности документа, могут определяться экспертом или автоматически при построении семантической сети документа14);

  • полнотекстовая индексация, которая позволяет найти документ по отдельным словам или фразам, которые в нем встречаются.

Далее более подробно обсудим полнотекстовую индексацию [59]. При построении индекса для последующего контекстно-зависимого поиска (поиска по содержимому документа) используется словарь слов и инвертированный список. Словарь представляет собой упорядоченный по алфавиту список слов, которые встречаются в документах хранилища. Для сокращения словаря, в него включают только слова в нормальной форме 15 и не включают так называемые стоп-слова (предлоги, союзы, наречия). При появлении в хранилище документов с новыми словами словарь дополняется. Каждому новому документу приписывается уникальный номер. Инвертированный список ставит в соответствие каждому слову словаря перечень номеров документов, в которых заданное слово встречается. Индекс также содержит информацию о том, как часто слово встречается в документе, является ли оно элементом заголовка или выделено крупным шрифтом и так далее. Эта информация помогает определить, насколько то или иной документ соответствует запросу. К сожалению, такой индекс может в несколько раз превосходить объем исходного текста, а документ будет найден только если написание слова в запросе точно соответствует его написанию в документе (четкий поиск). Последнее является существенным недостатком, так как при сканировании и последующем автоматическом распознавании текста могут возникнуть ошибки в некоторых словах (например, в заголовке текста). При отсутствии этапа их ручного устранения, документ не будет обнаружен в результате поиска по этим словам, или будет находится в конце результирующего списка документов.

При реализации поиска с помощью таких индексов можно задавать целые фразы и соединять слова в них логическими условиями (типа "и", "или"). В результате поиска находится список документов, которые выстраиваются "по релевантности", то есть по вероятности того, что они соответствуют запросу (признаком соответствия документа запросу может быть частота появления слова в документе, место его появления). В результирующем списке будут документы, в которых заданные слова встречаются в разных падежах, также могут включаться документы с близкими по смыслу словами. Последняя возможность появляется благодаря использованию Тезауруса16.

Контекстно-зависимый поиск может быть выполнен и с использованием технологии нечеткого поиска. В этом случае все слова представляются как последовательность битов. Индекс содержит фрагменты слов с указанием на слов, где эти фрагменты встречаются. В результате поиска вы находите документы, где встречаются слова с заданными фрагментами. Чтобы ограничить размер результирующего списка документов, вы можете указать какой процент букв в словах может не совпадать и указать место этого несовпадения (начало, середина или конец слова).

Технологии четкого и нечеткого контекстно-зависимого поиска позволяют найти списки документов, в которых встречаются фразы, возможно соответствующие их тематике. Слово "возможно" здесь является ключевым. Результирующий список часто очень велик, и в нем трудно найти интересующий нас документ. Предварительный автоматический анализ документов позволяет упростить задачу поиска. В основе такого анализа лежит процедура построения семантической (смысловой) сети документов. В соответствии с определением, данным в [60], "Семантическая сеть - это множество понятий (слов и словосочетаний), связанных между собой". При автоматическом анализе документа анализируются понятия, встречающиеся в документе. Выполняется их статистический анализ. Каждая тема ранжируется в соответствии с частотой ее появления в тексте. Самый высокий ранг 100 присваивается наиболее часто встречающейся основной теме. Такой же анализ выполняется для парных сочетаний тем, которые также ранжируются. В результате, можно автоматически найти подтемы основной темы. Наконец, анализируются и ранжируются предложения, в которых встречаются основные темы. Набор таких предложений с самыми высокими рангами составляет реферат документа. Как видно, эта технология позволяет определять основные темы документов и их подтемы и выполнять автоматически их классификацию. Она также позволяет автоматически формировать рефераты документов, что важно при формировании реферативных Баз данных. Если для документов, хранящихся в Архиве, построены семантические сети, просмотр содержимого таких документов будет более эффективным.

Примером программного продукта, который реализует технологии нечеткого поиска и семантических сетей является RCO for Oracle (Russian Contex Optimizator). Это продукт компании "Гарант-Парк-Интернет" продает компания Softline (http://www.softline.ru/). Он функционирует на основе поисковой системы Oracle Text. RCO for Oracle позволяет выполнять для документов на русском языке: нечеткий поиск, строить для документов семантические сети и затем выполнять быстрый анализ документов, создавать их рефераты на основе семантических сетей, выполнять классификацию документов (http://www.soft1ine.ru/product.asp?catalog%5Fname=5pftLine&category%5F name=&product%5Fid=Software%2D11543&cookie%5Ftest=l).

12Маршрутизация документов - процедура движения документов между служащими в процессе их обработки и реализации бизнес - процессов. Существует свободная маршрутизация, маршрутизация с контролем исполнения и движение по заранее заданному маршруту с контролем исполнения.

13Форматы PDF и HTML. PDF (Portable Document Format) - это формат программ Adobe Acrobat Reader, Adobe Illustrator. Этот формат используется для макетирования печатной продукции и был специально разработан фирмой Adobe для публикации таких документов в Internet с тем, чтобы они выглядели одинаково и на экране монитора и на листе бумаги. Формат HTML (Hypertext Murkup Language) предназначен для формирования документов и отображения их средствами сервиса WWW. В таких документах могут использоваться гиперссылки, мультимедийные возможности.

14Семантическая (смысловая) сеть документа включает слова (темы), которые наиболее часто встречаются в документе и соответствуют основной тематической направленности документа. Каждому такому слову также соответствуют наиболее часто встречающиеся словосочетания. Темы и словосочетания ранжируются, что позволяет выявить основную тему документа. На основе таких сетей реализуется автоматическая классификация документов, их реферирование, выявление смысловых связей в тексте [59]

15Нормальная форма слова - это существительные в именительном падеже и глаголы в неопределенной форме.

16Тезаурус - представляет собой словарь, в котором показаны отношения между словами (синоним, антоним)