- •Документальные информационные системы дис
- •1. Характеристики информационно-поисковых систем
- •2. Виды документальных информационных систем
- •3. Классификационные информационно-поисковые языки
- •4. Дескрипторные информационно-поисковые языки
- •5. Системы индексирования
- •6. Полнотекстовые информационно-поисковые системы
- •Прикладные информационные технологии управления Организация и информационные системы
- •1. Взаимосвязь организаций и информационных систем
- •2. Уровни управления и информационные системы
- •3. Функциональное применение информационных систем
- •4. Технология применения электронного документооборота
- •5. Интеграция систем на предприятии
- •. Информационные технологии в государственном управлении
- •1. Направления информатизации государственного управления
- •2. Информатизация Совета Федерации
- •3. Информатизация Государственной Думы
- •4. Информационные технологии управления бюджетной системой
- •5. Информационные технологии управления налоговой системой
- •6. Федеральная целевая программа «Электронная Россия (2002-2010 годы)»
- •. Информационные технологии муниципального управления
- •1. Системное представление управляемой территории
- •2. Понятие муниципальной информационной системы
- •3. Экономическая эффективность территориальных информационных систем управления
- •. Информационные технологии менеджмента
- •1. Информационные технологии стратегического менеджмента
- •2. Информационные технологии логистического управления
- •3. Информационные технологии в финансовом менеджменте
- •3.1. Информационные технологии финансового менеджмента как подсистемы комплексных систем управления
- •3.2. Системы искусственного интеллекта
- •Официальные сайты органов государственной власти российская федерация
- •Республика татарстан
5. Системы индексирования
Система индексирования - это совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.
Рассмотрим классификацию систем индексирования.
1. По степени автоматизации процесса индексирования выделяют системы:
-
ручного индексирования;
-
автоматического индексирования;
-
автоматизированного индексирования.
2. По степени контролируемости различают системы:
-
без словаря;
-
с жестким словарем;
-
со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
-
с последовательным просмотром текста (отбираются все полнозначные слова);
-
с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре);
-
со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления) и другие.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе тезауруса. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
6. Полнотекстовые информационно-поисковые системы
Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий. В результате на рынке программных продуктов появились полнотекстовые информационные системы.
Полнотекстовые информационные системы строятся на основе информационно-поисковых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых информационные системы включает:
-
хранилище документов;
-
глобальный словарь системы;
-
инвертированный индекс документов;
-
интерфейс ввода документов в систему;
-
механизм индексирования;
-
интерфейс запросов пользователя;
-
механизм поиска документов;
-
механизм извлечения найденных документов.
Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла с текстами документов.
Глобальный словарь системы может быть статическим и динамическим. Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище. Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие документы подвергаются операции индексирования по глобальному словарю.
В результате индексирования поисковый образ каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа. Индекс отражает весь текст документа. При удалении документа из системы удаляется и поисковый образ документа.
Результатом поиска является определение номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.
Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству («Консультант Плюс», «Гарант»).