Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / документально-поисковые системы.doc
Скачиваний:
69
Добавлен:
26.05.2015
Размер:
156.67 Кб
Скачать

5. Полнотекстовые информационно-поисковые системы

Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой ин­формации. Возникла потребность в программном обеспечении, реали­зующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные си­стемы не могли быть в полной мере использованы в массовой персо­нальной автоматизации. Потребовались средства, которые бы в мак­симальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и за­тратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.

 Полнотекстовые ИС строятся на основе информационно-поиско­вых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

*  хранилище документов;

*  глобальный словарь системы;

*  инвертированный индекс документов;

* интерфейс ввода документов в систему;

* механизм индексирования;

*интерфейс запросов пользователя

* механизм поиска документов;

* механизм извлечения найденных документов.

    Хранилище документов может быть организовано как единая ло­кально сосредоточенная информационная структура в виде специаль­ного файла с текстами документов.

Глобальный словарь системы может быть статическим и динами­ческим.

Статические словари определяются заранее и не зависят от содер­жания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющих­ся в документах хранилища. Изначально такой словарь пуст, но с каж­дым новым документом в него помещаются новые словоформы.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода докумен­ты подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автома­тизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

Существенное влияние на эффективность полнотекстовых ИС ока­зывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. сло­ва, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждого нового до­кумента представляется набором словоформ из глобального словаря,присутствующих в тексте документа, и поступает в виде соответству­ющего двоичного вектора для дополнения индекса системы.

Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по­иска основывается на тех или иных алгоритмах и критериях сравне­ния поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является опреде­ление номеров документов, поисковые образы которых соответствуютпоисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем яв­ляются автоматизированные информационные системы по законода­тельству.

Автоматизированная информационная система по законодатель­ству (АИСЗ) — это программный комплекс, включающий в себя мас­сив правовой информации и инструменты для работы с ним . Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных сис­тем .

1. Справочно-информационные системы общего назначения, ори­ентированные на доступ пользователей к нормативно-правовым актам. К этим системам относятся «Консультант Плюс», «Га­рант», «Кодекс» и др.

2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографи­ческой, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юриди­ческой информации, является система LEXIS (США).

3. Системы информационной поддержки деятельности .правотвор­ческих органов. Спецификой таких систем является необходи­мость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.

4. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов.

 

Основными особенностями АИСЗ являются :

    *необходимость предоставления адресного доступа к полным тек­стам;

*  в информационных языках для поиска в БД по законодательству необходим учет контекстных связей, регламентированных при­лагательных (типа «обязательный», «произвольный» и др.);

* тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются нетолько классификационные индексы, ключевые слова или де­скрипторы (как при обычном индексировании), но и коммента­рии специалистов, ссылки на предшествующие версии, связан­ные документы, решения судов и др.

 

В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охва­тила множество городов России. В настоящее время наиболее распро­странена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

На третьем месте находится достаточно популярный продукт — информационно-поисковая система «Кодекс», которая разработанамалым государственным предприятием «Центр компьютерных разра­боток».

На российском рынке АИСЗ представлены также следующие про­дукты, созданные государственными предприятиями для обеспеченияпотребностей в правовой информации государственных ведомств:

*  «Эталон» (НЦПИ при Министерстве юстиции РФ);

*  «Система» (НТЦ «Система» при ФАПСИ).

Кроме того, на российском рынке представлены такие системы, как :

*  «ЮСИС» (фирма «Инталекс»);

*  «Референт» (ЗАО «Референт-Сервис»);

*  «Ваше право» и «Юрисконсульт» (фирма «Информационные системы и технологии»);

*   «1С: Кодекс», «1С: Гарант», «1С: Эталон» (компания «1С»).

Информационные банки РФ включают следующие уровни данных:

*   федеральное законодательство; * местное законодательство;

* ненормативные материалы (консультации экспертов, бланки де­ловых документов, проспекты эмиссии ценных бумаг коммерческих банков и т. п.).

При юридической обработке (индексировании) используется Об­щеправовой классификатор отраслей законодательства, утвержден­ный указом президента РФ № 2171 от 16 декабря 1993 года.

Существуют два источника получения правовой информации раз­работчиком для включения в систему: официальная рассылка подпи­савшего ведомства и опубликование в периодической печати.

Официальная рассылка — основной источник информации для си­стем «Консультант Плюс», «Гарант» и «Кодекс». Следует заметить,что государственные органы выступают не только в качестве источни­ков информации, но и сами являются пользователями систем, т. е. пря­мо заинтересованы в оперативном и достоверном пополнении инфор­мационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания.

Сеть «Консультант Плюс» имеет прямые договоры об обмене ин­формацией с основными федеральными органами (среди них — Ад­министрация Президента РФ, Министерство финансов РФ, Цен­тральный банк РФ, Федеральная налоговая служба и др.), а также сместными органами власти. Благодаря аналогичным договорам, нор­мативные акты достаточно оперативно попадают и в систему «Гарант» .

Юридическая база «Кодекс» ведется при содействии юридического комитета мэрии Санкт-Петербурга. Документы для данной системыпоступают в «Центр компьютерных разработок» на основе договоров не напрямую с органами власти, а с их представительствами в Санкт-Петербурге .

Публикации в печатных изданиях. Выделяют три группы таких ис­точников. К первой относятся все издания, в которых публикациянормативных актов считается официальной: «Бюллетень междуна­родных договоров», «Вестник ЦБ РФ», «Российская газета», «Россий­ские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Фи­нансовая газета» и т. д. Наконец, в третью группу входят издания, пуб­ликация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом в среде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др.

Основными параметрами, позволяющими определить качество со­держания информационной базы, являются :

*  полнота информации;

*  достоверность информации;

* оперативность обновления информации.

Параметры, характеризующие качество программной оболочки:

*  поисковые возможности системы;

*  средства актуализации информации;

*  дополнительные сервисные функции.

Оценка полноты, достоверности и оперативности обновления ин­формации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий. Ее цель — систематизация документов для повышения эффективности их дальнейшего использования. Юриди­ческая обработка обычно состоит из следующих основных этапов:

*  классификация документов;

*  выявление взаимосвязей между различными документами;

*  составление примечаний к документу.

Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным.Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структу­ра, содержащая все понятия, используемые для описания документов, входящих в информационную базу.

Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый из которых имеет свои до­стоинства и недостатки :

* работа с удаленной базой;

* работа с локальной базой.

При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на серве­ре разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное пре­имущество работы с такими версиями заключается в том, что пользо­ватель всегда имеет доступ к самым последним данным ].

Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации черезИнтернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком это­го варианта по сравнению с предыдущим является более продолжи­тельный период актуализации информации.

Контрольные вопросы

1. В чем заключались предпосылки появления и распространения ДИС?

2. Дайте понятие ДИС. Какие различают группы ДИС?

3. Охарактеризуйте функционирование ДИС на основе индексирования.

4. Дайте понятие информационно-поискового языка. Назовите эле­менты ИПЯ.

5. Назовите виды ИПЯ.

6. Охарактеризуйте системы перечислительной, систематизированной, фасетной классификации.

7. Назовите дескрипторные информационно-поисковые языки. Дайте понятие дескриптора.

8. Охарактеризуйте структуру информационно-поискового тезау­руса.

9. Дайте классификацию ИПЯ.

10.Охарактеризуйте подходы к автоматическому индексированию.

11.Охарактеризуйте полнотекстовые информационно-поисковые си­стемы.

12.Дайте понятие автоматизированной информационной системы по законодательству.

13.Перечислите особенности и качественные характеристики АИСЗ.

14.Назовите источники пополнения документальной базы АИСЗ.

15.В чем заключается сущность юридической обработки докумен­тов, помещаемых в базу АИСЗ?