2.2.1.3. Интеллектуальные хранилища и цифровые библиотеки
Интеллектуальные хранилища отличаются от обычных полнотекстовых хранилищ наличием некоторых интеллектуальных функций. Так же как и полнотекстовые хранилища, они имеют удаленный доступ и поисковую систему.
Рассмотрим интеллектуальное хранилища на примере образовательной библиотеки с удаленным доступом и ассоциативной навигацией. Ее архитектурапредставлена ниже.
В ее состав входит
- серверная;
- клиентская часть;
- упрощенный вебовский интерфейс, доступный с любого компьютера.
На сервере расположено собственно хранилище – база текстовых данных, включающая две независимых части: (1) неизменяемую часть (учебники стандартных курсов); и (2) изменяемую часть – персональную библиотеку (пополняемую текстовую выборку – дополнительную литературу по любой тематике).
Кроме того, на сервере находятся: (1) аналитический модуль, позволяющий сформировать семантическую сеть текста, (2) база знаний – база ассоциативных (семантических) сетей текстов, а также (3) рубрикатор – средства навигации, в том числе, каталог, который позволяет осуществлять ручную навигацию по хранилищу на верхних уровнях классификационного представления, и ассоциативную навигацию – на нижнем уровне, где все тексты свалены в кучу. Помимо этого есть еще (4) средства для автоматической классификации текстов, позволяющие отнести текст к одной из имеющихся рубрик, и (5) средства для автоматической кластеризации текстов, позволяющие разбить текстовую выборку на тематические классы.
Наконец, хранилище снабжено интерфейсом, реализующим удаленный доступ к базе текстов, включающим: (6) клиент, позволяющий осуществлять полный удаленный доступ к хранилищу, (7) упрощенный интерфейс – допускающий лишь частичный удаленный доступ к нему, а также (8) графический интерфейс, в том числе: интерфейс семантических представлений и интерфейс управления библиотекой.
Функциональность библиотеки включает в свой состав:
хранение учебника, включая тренировочные задания и тестовую часть;
хранение дополнительной литературы в гипертекстовом представлении;
загрузку и редактирование учебника пользователем;
использование учебника пользователем;
загрузку пользователем дополнительной литературы;
формирование ассоциативной сети текстовой выборки;
ассоциативный доступ к дополнительной литературе;
доступ к дополнительной литературе с использованием рубрикатора;
удаленный доступ.
Так Образовательная библиотека Ресурсного центра гимназии № 1306 как электронный репозитарий с удаленным доступом и ассоциативной навигацией выглядит следующим образом.
Автоматическая обработка документа в библиотеке включает следующие этапы:
- создание сети текста;
- создание реферата текста;
- Классификация текста (определение рубрики, к которой относится текст).
Однородная семантическая (ассоциативная) сеть состоит из ключевых понятий – вершин сети – связанных между собой ассоциативными связями.
Формирование сети осуществляется в несколько шагов:
1. сегментация на смысловые фрагменты;
2. удаление стоп-слов, рабочих слов и общеупотребимых слов;
3. морфологический анализ
4. построение частотного портрета
5. перенормировка.
Ответ на запрос пользователя выдается в библиотеке разными способами:
- с помощью ручной навигации по каталогу;
- демонстрацией сети рубрики с возможностью добавления понятий сети к запросу с целью его уточнения;
- выдачей тематических рефератов по текстам документов, которые релевантны запросу.
Классификация осуществляется сравнением сети текста с сетями рубрик, которые формируются на основе анализа текстов, содержащихся в рубрике. Смысловое пересечение текстов вычисляется как пересечение их семантических сетей.
Построение реферата осуществляется выявлением предложений текста, имеющих наибольший смысловой вес.
Классы ЕЯ систем |
Уровни представления информации (функции) | ||||||
Акустико-фонети-ческий |
Морфоло-гический |
Лекси-ческий |
Синтакси-ческий |
Модель мира |
Прагма-тический |
Сравнение (классификация) | |
Вопросно-ответные системы | |||||||
Интеллектуальные хранилища |
- |
+ |
+ |
- |
(+) |
- |
+ |