Лекция №6 Структуры баз данных
http://bourabai.ru/dbt/dbms/index.htm
Рассмотрим вкратце обобщенные логическую и физическую структуры БД.
Логическая структура бд
Логическая структура (рис. 1.19) предполагает следующие уровни рассмотрения БД:
• база данных (database) — включает одну или несколько подбаз (файлов, таблиц, массивов), каждая из которых состоит из агрегатов данных (записей, документов)— record. Запись идентифицируется внутренним номером.
-
запись (документ) — совокупность разнотипных и разноструктурных данных, описывающих (относящихся к) объект реального мира, элемент предметной области АИС. Запись состоит из полей (field);
-
поле — именованный элементарный или составной фрагмент записи (документа), содержащий информацию об определенном аспекте (аспектах) элемента (элементов) предметной области.
Возможны следующие структуры полей (рис. 1.19, табл. 1.14.):
-
элементарные — имеют фиксированную или ограниченную длину и не содержат входящих в них структур данных;
-
составные (групповые) — образуются как агрегаты элементарных и также имеют фиксированную и ограниченную длину (реже — переменную или неопределенную, что связано с количеством вхождений элемента в агрегат);
-
текстовые — поля переменной (неопределенной) длины и сложной внутренней структуры (обычно это иерархическая последовательность типа РАЗДЕЛ — ПОДРАЗДЕЛ — ПРЕДЛОЖЕНИЕ - СЛОВО);
-
бинарные — данные, интерпретируемые как поля, однако обычно физически не входящие в состав записей БД. Необходимо отметить, что поля данного типа (BLOB — Binary Large Object) фактически являются данными, до обработки которых рассматриваемая конкретная СУБД еще «не доросла» и поэтому работа с ними возлагается на пользователя (прикладные программы). В частности, в системах Foxpro и Clipper большие текстовые (так называемых MEMO) поля также не обрабатываются системой и фактически оказываются в статусе BLOB.
Физическая структура бд
Данный тип структуры в общем случае имеет вид, приведенный на рис. 1.20, и включает следующие компоненты:
-
файл (файлы) исходных (первичных) данных (текстов, бинарных данных) — содержит собственно объекты, подлежащие поиску, обработке и пр.;
файл (файлы) вторичной (справочной) информации (регистрационные карты, библиографические реестры и пр.) — содержит описания исходных элементов (объектов). Важным видом справочных файлов являются классификаторы, кодификаторы, тезаурусы, обеспечивающие полноту и компактность представления информации в БД;
-
индекс — файл (файлы), связывающий адрес (номер) объекта с его содержанием (значением атрибута объекта), обычно состоит из инверсного списка и частотного словаря, который облегчает составление запросов на поиск и повышает обозримость БД;
-
словарь данных — файл, содержащий составленное с необходимой степенью подробности описание состава БД, документов, записей, агрегатов данных, их имена, типы и структуры, способы интерпретации и обработки.
Изменение содержания БД может осуществляться как в режиме много пользователя (диалоговый ввод или коррекция записи документов по полям) — обычный для СУБД и редкий для АИПC, так и в режиме администратора БД (обычный для АИПС и редкий для СУБД), при этом происходит массовый ввод или загрузка записей/документов.
-
При любом виде добавления документа/записи для каждого поля осуществляется анализ, обработка и согласованное помещение документа и его фрагментов в соответствующие физические файлы БД. В конкретных случаях
возможна неполная комплектность приведенной физической схемы:
• в фактографических (табличных) БД вторичный файл может являться основным накопителем информации, а текстовые и бинарные данные — фигурировать в качестве необязательного приложения;
-
в справочно-библиографических БД текстовые данные могут находиться во вторичном файле, а первичный — отсутствовать;
-
в БД с полнотекстовым поиском может отсутствовать вторичный файл, а индексирование (построение частотных словарей и инверсных списков) проводится по первичному файлу (страницы или абзацы полных текстов);
-
может отсутствовать частотный словарь или инверсный список.
Надо отметить также вариативность физической реализации и взаимосвязи лингвистического и информационного обеспечения АИС:
-
словарь данных может физически входить в информационные файлы (первичный или вторичный);
-
классификаторы, кодификаторы, тезаурусы могут быть оформлены как физическими файлами (файлами ОС), так и входить в состав БД в виде отдельных таблиц (файлов БД, массивов и пр.) на логическом уровне и т. п.