Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Уфимский Государственный Авиационный Технический Университет

Предмет:

Автоматизированные информационные системы

Файл:

Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс.doc

Скачиваний:

372

Добавлен:

02.05.2014

Размер:

4.3 Mб

Скачать

☆

<<< < Предыдущая 35 36 37 38 39 40 41 42 43 44 45 4647 / 6447 48 49 50 51 52 53 54 55 56 57 58 59 > Следующая >>>

6.3. Полнотекстовые информационно-поисковые системы

Процессы массовой компьютеризации и информатизации деятельности предприятий, организаций в конце 80-х и в 90-х годах привели к накоплению огромных массивов неструктурированной текстовой компьютерной информации, с одной стороны, и доступности (всеобщей распространенности и персо-нальности) вычислительной техники, с другой стороны. Возникла потребность в программном инструментарии, который бы обеспечивал эффективный поиск нужных текстовых данных.

Семантические подходы к автоматизации такого рода задач (информационно-поисковые каталоги, фасетные и тезаурусные системы) не могли быть в полной мере использованы в массовой персональной автоматизации, т. е. на рабочем месте отдельного пользователя или для небольшой рабочей группы, так как требовали серьезной предварительной проработки соответствующей предметной области.* Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении, получении и агрегировании текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий необходимых документов.

* В этом отношении примечательным является следующее замечание — файловые системы ОС ПК предусматривают создание произвольной схемы логических дисков, каталогов, подкаталогов и т.п., которые по логике должны отображать структуру предметной области сведений пользователя ПК и, тем самым, в упрощенном утрированном виде решать задачи систематизации размещения документов-файлов для быстрого и эффективного их нахождения. Однако в большинстве случаев пользователями такая адекватная их потребностям система каталогов не создается из-за недостаточной их квалификации или нетривиальности самой структуры предметной области и данные зачастую размещаются довольно хаотично.

В результате на рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД.

6.3.1. Информационно-технологическая структура полнотекстовых ипс

Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа.Их информационно-технологическая структура представлена на рис. 6.9 и включает следующие элементы:

• хранилище (базу) документов;

• глобальный словарь системы;

• индекс документов инвертированного типа;

• интерфейс ввода (постановки на учет) документов в систему;

• механизм (машину) индексирования;

• интерфейс запросов пользователя;

• механизм поиска документов (поисковую машину);

• механизм извлечения (доставки) найденных документов.

Хранилище документовможет быть организовано как единаялокально сосредоточенная информационная структурав виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.

Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых документов распределеныи размещаются в тех узлах и элементах информационной инфраструктуры, которые соответствуют технологии создания и обработки документов (документообороту). Вместе с тем все они учтеныв полнотекстовой ИПС (т.е. проиндексированы по содержанию и зафиксированы по месторасположению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документооборота или распределенного характера систем (например, система WWWсети Интернет), но недостатком имеет необходимость постоянного отслеживания и учета возможных перемещений документов.

Рис. 6.9. Информационно-технологическая структура полнотекстовых ИПС

Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы.Глобальные словари могут быть статическими и динамическими.

Статические словарине зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т. д.).

Динамические словариопределяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономичен и обеспечивает некоторую настройку словарной базы на предметную область документов.

Элементы глобального словаря выступают в качестве дескрипторовИПЯ системы. Поступающие черезинтерфейс ввода/выводадокументы подвергаются операциииндексирования по глобальному словарю.Механизм индексированияв полнотекстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название — «полнотекстовые ИПС».

Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС,является наличие либо отсутствие морфологического разбора при индексировании документов и запросов.Морфологический разборпозволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т. е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т. п.). Такой процесс основывается нанормализацииглобального словаря системы, объединяющей в одну словоформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова(стоп-слова) —предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. В большинстве случаев морфологический разбор осуществляется в системах со статическим глобальным словарем. Для русского языка в качестве такого нормализованного глобального словаря используется составленный в 1968 году академиком И. К. Зализняком морфологический словарь русского языка. Он позволяет распознать и соответственно нормализовать более 3 млн. словоформ.

В результате индексирования ПОД каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется и поисковый образ документа, т. е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯполнотекстовой ИПС через соответствующий интерфейс запросоввыражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступают на поисковую машину. Механизм поискаосновывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют или близки поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и доставляетсоответствующие документы пользователю.

Таким образом, программное обеспечение полнотекстовых ИПС обеспечивает полный технологический цикл ввода, обработки, поиска и получения документов. В практическом плане ИПС могут поставляться как готовый информационный продукт, т. е. с уже сформированной базой документов и интерфейсом поиска и доступа к ним.* В других случаях поставляется программная среда, позволяющая такую базу создать и сформировать тем самым документальную информационно-поисковую систему. Такие программные средства иногда называют полнотекстовыми СУБД.

* Такими информационными продуктами, основанными в том числе и на полнотекстовых технологиях, являются многочисленные юридические информационно-справочные системы — «Кодекс», «Гарант», «Консультант плюс» и др.

<<< < Предыдущая 35 36 37 38 39 40 41 42 43 44 45 4647 / 6447 48 49 50 51 52 53 54 55 56 57 58 59 > Следующая >>>

Соседние файлы в предмете Автоматизированные информационные системы

#
02.05.2014180.74 Кб113Автоматизированные информационные системы [контрольная].doc
#
02.05.20144.37 Mб369Автоматизированные системы обработки информации и управления [методичка].doc
#
02.05.20144.3 Mб372Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс.doc
#
02.05.20142.12 Mб82Инженерное проектирование.doc
#
02.05.2014276.99 Кб76Курсовая работа - Разработка СУ для двухстепенного (двухзвенного) манипуляционного робота.doc
#
02.05.2014707.24 Кб69Методичка по лабораторной работе №1.pdf
#
02.05.2014143.87 Кб73Общие сведения о стратегическом управлении.doc
#
02.05.2014163.84 Кб59Шпоры по АСОИ [Виссарионов].doc