Лабораторная работа № 1
ИЗУЧЕНИЕ МЕТОДОЛОГИИ ER («СУЩНОСТЬ-СВЯЗЬ»)
И СРЕДСТВ МОДЕЛИРОВАНИЯ ДАННЫХ
С ИСПОЛЬЗОВАНИЕМ CASE-СРЕДСТВА ERWIN
1. Цель работы
Изучить методологию ER. Научиться проектировать структуру БД с использованием методологии ER и CASE средства Open ModelSphere.
2. Теоретические сведения
2.1. Основные понятия методологии «сущность-связь»
Разработка базы данных основана на методе проектирования с по-
мощью диаграммы «сущность-связь» (E/R - диаграмма).
E/R-диаграмма – это графическое представление предметов и отно- шений между ними. Ее цель – точно представить на логическом уровне данные, которые необходимо хранить и обрабатывать.
Атрибуты. Атрибуты представляют данные об объектах, которые необходимо хранить. Атрибуты представляются именами существитель- ными, которые описывают характеристики сущностей.
Сущность – это множество экземпляров реальных или абстрактных объектов, обладающих атрибутами или характеристиками. Имя сущности отображает тип объекта (обычно имя существительное).
Связь – это некоторая ассоциация между двумя и более сущностями, которая показывает взаимосвязь между ними. Характеризуется типами связей (1:1, 1:n, n:m). Если экземпляр сущности-потомка однозначно опре- деляется своей связью с сущностью-родителем, то связь называется иден- тифицирующей, в противном случае - неидентифицирующей. Связь может дополнительно определяться с помощью указания степени или мощности (количества экземпляров сущности-потомка, которое может существовать для каждого экземпляра сущности-родителя). Могут быть выражены сле- дующие мощности связей:
каждый экземпляр сущности-родителя может иметь ноль, один или бо-
лее связанных с ним экземпляров сущности-потомка;
каждый экземпляр сущности-родителя должен иметь не менее одного связанного с ним экземпляра сущности-потомка;
каждый экземпляр сущности-родителя должен иметь не более одного связанного с ним экземпляра сущности-потомка;
каждый экземпляр сущности-родителя связан с некоторым фиксиро-
ванным числом экземпляров сущности-потомка.
Логическая модель данных – то описание, диаграмма, изображение или модель предметной области, в ней показаны только объекты (сущности), которыми должна оперировать разрабатываемая система, и связи между ними. Она разрабатывается на начальном этапе проектирования базы данных.
Физическая модель данных описывает данные средствами кон- кретной СУБД. Отношения, разработанные на стадии формирования логи- ческой модели данных, преобразуются в таблицы, атрибуты становятся столбцами таблиц, для ключевых атрибутов создаются уникальные индексы, связи реализуются с помощью механизма внешних ключей, домены (набор допустимых значений атрибута) преображаются в типы данных, принятые в конкретной СУБД.18
2.2. Понятие нормализации
Нормализация является операцией перемещения атрибутов в подхо- дящие сущности в соответствие с требованиями нормальных форм. Нор- мализация данных означает проектирование структур данных таким обра- зом, чтобы удалить избыточность и ограничить несвязанные структуры.
Нормализация таблиц – это формальный аппарат ограничений на формирование таблиц, описывающий разбиение таблиц на две или более части и обеспечивающий применение лучших методов добавления, изме- нения и удаления данных. Можно также сказать, что нормализация – это процесс представления данных в виде простых двумерных таблиц, кото- рый позволяет устранить дублирование этих данных и обеспечивает не- противоречивость хранимой в базе информации. Цель нормализации – по- лучение проекта БД, в котором любая часть логически законченной ин- формации хранится в одном месте, т.е. исключается избыточность инфор- мации. Основа нормализации – аппарат нормализации отношений и приве- дение отношений к нормальным формам.
Всего существует шесть форм нормальных отношений. Но, как пра- вило, необходимо и достаточно привести БД к третьей нормальной форме, чтобы исключить указанные аномалии при работе с БД. Таблица считается нормализованной на определенном уровне, когда она удовлетворяет усло- виям, накладываемым соответствующей формой нормализации.
Формы нормализации:
первая нормальная форма (First Normal Form – 1NF);
вторая нормальная форма (Second Normal Form – 2NF);
третья нормальная форма (Third Normal Form – 3NF);
нормальная форма Бойса-Кодда (Boice-Codd Normal Form – BCNF);
четвертая нормальная форма (Fourth Normal Form – 4NF);
пятая нормальная форма, или нормальная форма проекции-
соединения (Fifth Normal Form – 5NF или PJ/NF);
Теория нормализации основывается на наличии той или иной зави-
симости между атрибутами отношения.
2.3. Виды зависимостей между отношениями
Для устранения указанных аномалий (а на самом деле для правильно- го проектирования модели данных) применяется метод нормализации от- ношений. Нормализация основана на понятии функциональной зависимо- сти атрибутов отношения.
Пусть R - отношение. Множество атрибутов Y функционально за- висимо от множества атрибутов X (X функционально определяет Y) то- гда и только тогда, когда для любых кортежей r1,r2R из того, что r1X=r2X следует, что и r1Y=r2Y. Другими словами во всех кортежах, имеющих одинаковые значения атрибутов X, значения атрибутов Y также совпадают в отношении R. Символически функциональная зависимость записывается XY.
Замечание. Если атрибуты X составляют потенциальный ключ отно-
шения R, то любой атрибут отношения R функционально зависит от X.
Пример. В отношении «Университет» можно привести следующие примеры функциональных зависимостей:
{Cafedra}Phone
{Disp_Name} Type
Замечание. Приведенные функциональные зависимости не выведены из внешнего вида отношений, представленных в табл. 4. Эти зависимости отражают взаимосвязи, обнаруженные между объектами предметной об- ласти, и являются дополнительными ограничениями, определяемыми предметной областью. Таким образом, функциональная зависимость – се- мантическое понятие. Она возникает, когда по значениям одних данных в предметной области можно определить значения других данных. Напри- мер, зная табельный номер сотрудника, можно определить его фамилию, по номеру отдела можно определить телефон. Функциональная зависи- мость задает дополнительные ограничения на данные, которые могут хра- ниться в отношениях. Для корректности базы данных (адекватности пред- метной области) необходимо при выполнении операций модификации ба- зы данных проверять все ограничения, определенные функциональными зависимостями.
На самом деле, функциональную зависимость между атрибутами A и B в обычном понятии можно выразить еще и так: атрибут A функциональ- но зависим от B тогда, когда каждому значению A в любой момент соот- ветствует единственное значение B из всех возможных.
Пусть К – ключ, А1, A2, ..., An – некоторые атрибуты в отношении R. Пусть А1, A2, ..., AnК (т.е. имеем составной ключ). Полной функцио- нальной зависимостью неключевых атрибутов B1, B2,… Bm называется такая зависимость, при которой каждый B1, B2,… Bm функционально за- висит от K (т.е. от всей совокупности атрибутов ключа), но не находится в функциональной зависимости ни от какой части составного ключа.
20
Пример. В отношении «Университет» можно привести следующие примеры полных функциональных зависимостей:
{Cafefra, Disp_Name, Type}FIO
Транзитивная зависимость наблюдается в том случае, если один из двух неключевых атрибутов функционально зависит от ключа, а другой неключевой атрибут зависит только от первого.
Нетранзитивная зависимость имеется в том случае, если ни один из неключевых атрибутов функционально не зависит от любого другого неключевого атрибута.
Многозначная зависимость имеется тогда, когда атрибут A одно- значно определяет атрибут B в том случае, если для каждого значения ат- рибута A существует хорошо определенное множество соответствующих значений атрибута B.
Первая нормальная форма (1НФ) – это обычное отношение. Со- гласно данному определению отношений, любое отношение автоматиче- ски уже находится в 1НФ. Свойства отношений (свойства 1НФ) в этом случае будут следующими:
– в отношении нет одинаковых кортежей;
– кортежи не упорядочены;
– атрибуты не упорядочены и различаются по наименованию;
– все значения атрибутов атомарны.
Если предположить, что все атрибуты предметной области «Универ-
ситет» размещены в одной таблице, то она будет находящегося в 1НФ.
Отношение R находится во второй нормальной форме (2НФ) тогда и только тогда, когда оно находится в 1НФ и все ее поля, не входящие в первичный ключ, связаны полной функциональной зависимостью с пер- вичным ключом. Т.е. любое неключевое поле однозначно идентифициру- ется полым набором ключевых полей.
Замечание. Если потенциальный ключ отношения является простым,
то отношение автоматически находится во 2НФ.
Таблица, находящаяся во 2НФ должна удовлетворять следующим требованиям: таблица должна содержать данные об одном типе объектов; каждая таблица должна содержать одно поле, или несколько полей, обра- зующих уникальный идентификатор или первичный ключ для каждой строки; все, не входящие в первичный ключ поля, должны однозначно оп- ределяться этим ключом.
Если в таблице есть хотя бы одно поле, не зависящее от первичного
21
ключа, то в первичный ключ необходимо включить дополнительные столбцы. Если таких нет, то добавить его. Если таблица не находится во
2НФ, то нужно выполнить ее декомпозицию.
Для нашего примера результатом декомпозиции будет: