Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Konspekt.rtf
Скачиваний:
282
Добавлен:
19.08.2013
Размер:
4.05 Mб
Скачать

21.2. Логическая и физическая структура бд ипс irbis

Логическую структуру БД документальной ИПС IRBIS составляет совокупность массива документов и структурированных справочников, обеспечивающих эффективность поиска.

Массив документов представляет собой последовательность логически непрерывных записей произвольной длины – документов. Уникальным идентификатором (первичным ключом) документа считается его уникальный номер в последовательности, который присваивается документу при загрузке и далее не меняется. Физический доступ к отдельному документу обеспечивается иерархическим индексом первичного ключа. Логика доступа к данным представлена на слайде 6.

Поисковые справочники представляют собой индексы вторичных ключей, организованные в форме инвертированных списков. На слайде 7 представлены структуры данных, реализующие логику построения индексов.

С физической организацией информации в ИПС IRBIS связана следующая иерархия понятий (слайд 8).

База данных — некоторый объем файлового физического пространства для размещения данных, принадлежащих одной логической базе.

Файлы БД. Каждая база данных состоит не менее чем из двух типов файлов –файлов данных и файлов инвертированных структур. Отдельный файл может принадлежать только одной базе данных.

Экстент. Пространство для хранения данных в БД выделяется блоками (экстентами) по 8 следующих друг за другом страниц размером 8Кбайт. Экстент является единицей выделения пространства.

Страница. Файлы делятся на страницы размером по 8 Кбайт каждая. Логический номер страницы складывается из номера файла и номера страницы в файле (в простейшем случае логический номер равен номеру страницы в файле). В рамках БД файлы нумеруются, начиная с 1, и так же нумеруются страницы в рамках файла.

Словарные инвертированные структуры БД хранятся в отдельной области и представлены тремя типами страниц (слайд 9):

  • индексные страницы;

  • страницы текстового представления словарных структур;

  • страницы инвертированных списков.

Страницы. На странице всегда хранится однородная информация. Все страницы имеют заголовок, в котором хранится общая информация, используемая ядром ИПС для работы со страницами всех типов (слайд 10):

  • тип страницы;

  • идентификатор (номер) страницы;

  • идентификатор (номер) следующей страницы;

  • идентификатор (номер) предыдущей страницы;

  • число вхождений, размещенных на странице;

  • длина фиксированной части вхождения.

Распределение пространства после заголовка зависит от типа страницы.

Индексные страницы (слайд 11). Индексные страницы содержат указатели на страницы текстового представления словарных структур. Каждая индексная страница содержит подзаголовок, хранящий следующую информацию:

  • число вхождений (указателей), размещенных на странице;

  • номер первой страницы инвертированных списков для множества страниц текстового представления словарных структур, описываемых индексной страницей.

За подзаголовком следуют указатели фиксированной длины, идентифицирующие отдельные страницы текстового представления словарных структур. В составе указателя следующая информация:

  • метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);

  • буква (символ), с которой начинается первое слово на странице;

  • идентификатор (номер страницы).

Страницы текстового представления словарных структур (слайд 12). После фиксированного заголовка на странице следует подзаголовок, представляющий хранящийся на текущей странице фрагмент общего словаря. В состав подзаголовка входят:

  • метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);

  • номер первой страницы инвертированных списков;

  • количество страниц инвертированных списков (для всех словарных структур, размещенных на текущей странице);

  • размер свободного пространства;

  • начало первого слова на странице (первые 4 буквы);

  • начало последнего слова на странице (первые 4 буквы).

За подзаголовком следует карта размещения словарных структур, где для каждого отдельного вхождения фиксируются:

  • длина слова (текстового выражения словарной структуры);

  • количество документов (или длина инвертированного списка для словарной структуры);

  • идентификатор страницы инвертированных списков, содержащей инвертированный список словарной структуры (по крайней мере, его начало);

  • смещение начала инвертированного списка от начала списка страницы в целом.

Отдельный элемент карты размещения словарных структур располагается на пространстве страницы параллельно с самим текстовым выражением словарной структуры (длина текстового выражения при этом не должна превышать размера страницы за вычетом заголовочных областей). Размещение текстового выражения осуществляется по правилам лексикографической упорядоченности в рамках помеченного подмножества общего словаря и физически реализуется на странице снизу вверх. Тем самым свободное пространство на странице всегда представляет собой непрерывную область.

Страницы инвертированных списков (слайд 13). После фиксированного заголовка на странице следует подзаголовок, представляющий фрагмент инвертированных списков для некоторого подмножества словарных структур общего словаря. В состав подзаголовка входят:

  • метка сегмента (для представления общего словаря в виде объединения непересекающихся подмножеств);

  • номер первой страницы текстового представления словарных структур (для текущей страницы инвертированных списков);

  • количество страниц текстового представления словарных структур (которым соответствует текущая страница инвертированных списков);

  • размер свободного пространства.

За подзаголовком размещаются идентификаторы (физические номера) документов инвертированного списка. Под каждый номер отводится область фиксированного размера (этот размер указывается в поле «длина фиксированной части вхождения» общего заголовка страницы).

Соседние файлы в предмете Базы данных