Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

DataBase_lecture1

.pdf
Скачиваний:
37
Добавлен:
12.02.2016
Размер:
1.29 Mб
Скачать

Тема 2. Інформація і дані

A. Теоретичні відомості

Інформація – це категорія, за допомогою якої подаються знання або відомості про наявність чи відсутність, а також кількісні та якісні характеристики різного роду предметів, об’єктів, процесів, явищ, подій, тощо, що мають місце в реальному світі. Поняття, відомості про які описуються через інформацію, називаються джерелом інформації і можуть мати , як матеріальне (предмет, процес, об’єкт) так і нематеріальне вираження (висловлювання, думка, настрій, почуття). Інформація за своєю природою є об’єктивною і не залежить від того чи певні значення сприйняті, відображені, збережені, тощо. Для опрацювання і застосування у розв’язанні певного кола задач інформація має бути подана у формі придатній до цього.

Дані – це формалізована і структурована інформація.

Формалізація інформації – зображення її у вибраній системі умовних позначень. Структурування інформації – впорядкування її за певними принципами.

Процес структурування передбачає визначення одиниць даних, способів і порядку їх поєднання між собою та утворення більш крупних елементів даних з дрібніших.

Комп’ютерні дані – це дані подані у формі придатній до опрацювання в середовищі комп’ютерних систем. Дані володіють такими властивостями:

синтаксис – визначає правила зображення даних у вибраній системі позначень; призначення синтаксису – забезпечити позначення однакових понять однаковим чином для їх подальшого застосування;

семантика – визначає зміст даних і визначається через їх інтерпретацію, яка встановлює відповідність між умовними позначеннями та реальними поняттями; будь які дії над даними мають виконуватися із врахуванням змісту і давати змістовний результат;

структура – визначає способи утворення одиниць даних та порядок їх поєднання і взаємодії; структура забезпечує можливість формального опрацювання даних засобами комп’ютерних систем і технологій.

Дані в комп’ютерних системах фігурують у двох видах: з одного боку, дані – це послідовність кодів, записаних на носієві у певний спосіб, з іншого – це подана у певний спосіб інформація, яка забезпечує збереження, передавання та прирощення знань. Тому задачі опрацювання даних в комп'ютерних системах поділяються на два рівні:

рівень зберігання даних на носіях комп'ютерного середовища (фізичний рівень) – на цьому рівні дані фігурують без врахування змісту, тому пр. їх опрацювання враховується лише синтаксис та структура;

рівень опрацювання та застосування даних у розв'язанні прикладних задач.(логічний рівень) – на цьому рівні зміст даних є невід'ємною складовою, тому при роботі х даними на цьому рівні враховується їх синтаксис, структура і семантика.

На кожному з цих рівнів визначаються свої підходи до впорядкування даних і, відповідно, способи опису структури. Тому, при створенні певних наборів чи множин даних прийнято розрізняти їх фізичну та логічну структури.

Фізична структура визначає способи утворення одиниць даних та поєднання їх між собою на рівні зберігання даних на носіях комп'ютерної системи і не залежить від їх змісту та призначення.

Логічна структура передбачає визначення одиниць даних, способів встановлення зв'язків між ними та утворення груп і множин даних на рівні їх сприйняття та застосування і обов'язково враховує зміст та специфіку застосування.

Розподіл задач і процесів опрацювання даних в комп'ютерних системах на логічний та фізичний рівні забезпечує

незалежність способів зберігання та способів сприйняття і застосування даних, що, в свою чергу, означає можливість зберігання різних даних однаковим чином, або однакових даних різними методами

застосування різних технологічних засобів для розв'язанні задач фізичного та логічного рівня (проблеми зберігання даних вирішуються розробниками систем та технологій управління базами даних, проблеми застосування даних у розв'язанні задач певної галузі застосування – розробниками прикладних систем).

Принцип незалежності фізичної та логічної структур є основоположним принципом побудови та застосування баз даних. Предметом вивчення курсу організації баз даних є дослідження і вивчення закономірностей, принципів, процесів та проблем, які реалізуються на логічному рівні.

B. Приклади

Приклад 2.1. Прикладами формалізації інформації можуть бути мова, письмо, піктограми, умовні сигнали, коди, звуки, зображення, тощо.

Приклад 2.2. Приклади структурування інформації:

поділ мови на слова, поєднання слів у речення, речень у фрази, тексти і т.д.;

подання даних у вигляді таблиць з розподілом на стовпчики, рядки, та значення, які знаходяться на перетині рядків та стовпчиків;

зображення тексту, зображень, піктограм у фрагментах вікна виводу Web-сторінки.

Приклад 2.3. Прикладом правил синтаксису є вимоги до зображення чисел у десятковій системі числення:

для запису чисел застосовуються лише арабські цифри 0,1,2,3,4,5,6,7,8,9;

число може мати лише одну десяткову точку (кому);

знак числа записується перед числом і може бути зображений як "+" або "-".

Таким чином значення

456

3.1415926

+11,25

-0.987654321

є синтаксично правильними, а зображення типу

12.34.56.78

123+456.89

67 .76 - 45

12А13М

не відповідають визначеним правилам синтаксису і не можуть вважатися числами.

Приклад 2.4. Дані володіють семантикою лише у випадку, коли з умовним позначенням пов'язується конкретне поняття (виконується їх інтерпретація). Так, в залежності від інтерпретації, значення може позначати такі величини як оцінка, вага, відстань, ціна, тощо; значення Мельник або Токар можуть позначати як професію, так і прізвище особи; 01.09.2000 р. – інтерпретуватись як дата народження, початок навчання, чи день придбання певного товару.

Розділ 2. Моделі баз даних

Основні підходи до обробки інформації в автоматизованих ІС

Одним з головних питань розроблення програмного забезпечення ІС є питання про співвіднесення програм і даних, тому що вирішення цього питання, в остаточному підсумку, визначає вибір алгоритмів обробки інформації, апаратних засобів і технологічної платформи. Фундаментальним принципом у вирішенні питання про співвіднесення програм і даних є концепція незалежності прикладних програм від даних, і неважливо, яка обробка даних передбачається: централізована або розподілена. Суть цієї концепції полягає не стільки у відділенні програм від даних, скільки у розгляді їх як самостійних взаємодіючих об'єктів.

Однією з останніх модифікацій цього принципу є концепція незалежності прикладних програм від даних разом із процедурами їхньої обробки (об’єктно-орієнтований підхід у програмуванні), що дозволяє вирішити ряд питань обробки даних, пов'язаних з інтерпретацією семантичного змісту даних. Формування концепції БД і створення на її основі методу баз даних для вирішення завдань обробки інформації відбулося у 1962 році. До середини 60-х років минулого століття основною концепцією побудови програмного забезпечення були концепція файлової системи і так званий позадачний метод. Наприкінці 80-х років минулого століття була запропонована концепція об’єктно-орієнтованих баз даних й об’єктно-орієнтований підхід розроблення програм на основі обробки подій. На рис. 2.1 наведені основні ознаки для кожної з зазначених вище концепцій. На рис. 2.2 проведене зіставлення основних методів обробки даних. Основний зміст позадачного методу зводиться до декомпозиції програми зі своїми окремими блоками даних та алгоритмами; методу баз даних – до наявних окремих описів логічної структури даних та єдиної точки зору щодо процедури обробки даних; об'єктноорієнтованого методу – полягає в тому, що програми розглядаються як сукупність об'єктів, між якими відбувається обмін інформацією.

Об'єкту притаманні такі властивості:

інкапсуляція – об'єкти наділяються структурою й мають певне поводження (набором операцій). Операції над об'єктами становлять його методи. Структура об'єкта захована від користувача, що маніпулює об'єктом через його операції. Об'єкт розглядається як абстракція реального світу Для того щоб об'єкт виконав деяку дію, йому потрібно надіслати повідомлення. Об'єкт взаємодіє з іншими об'єктами через події;

спадкування – являє собою механізм, що дозволяє робити одні об'єкти з інших, при цьому властивості батьківського об'єкта зберігаються у нащадка;

поліморфізм – різні об'єкти можуть одержувати однакові повідомлення, але реагувати на них по-різному відповідно до реалізації своїх однойменних методів.

Рис. 2.1.Основні концепції обробки інформації

Рис. 2.2. Основні проблеми методів обробки інформації

Бази даних і системи керування базами даних

Базу даних у загальному випадку можна визначити як уніфіковану сукупність збережених і відтворених даних, що використовуються у рамках організації (Engles R.A., 1972 р.). Однак поняття БД не ґрунтується в цей час на єдиній концепції, скоріше це ціле сімейство пов'язаних між собою понять з ПО, програмного й апаратного забезпечення, аналізу й моделювання даних і додатків. Існує кілька визначень БД. База даних (за Дж. Мартіном) є сукупністю взаємозалежних даних, які спільно використовуються декількома додатками й зберігаються з мінімальною регульованою надлишковістю. Дані запам'ятовуються таким чином, щоб вони у міру можливості не залежали від програм. Для обробки даних застосовується загальний керуючий метод доступу. Якщо БД не перетинаються за структурою, то говорять про систему баз даних. База даних (відповідно до матеріалів комітету КОДАСІЛ) складається зі всіх екземплярів записів, екземплярів наборів записів і областей, які контролюються конкретною схемою. Під схемою можна розуміти карту всієї логічної структури БД.

Для розроблювача ІС істотним моментом при використанні концепції баз даних (БД) є та обставина, що дані стають певним чином організовані, здобувають якусь упорядкованість і внутрішню структуру, а також те, що є деякий набір уніфікованих операцій обробки даних і декларативних засобів подання даних. До таких операцій варто віднести операції "Вставити" (Insert), "Додати" (Add), "Видалити" (Delete) і ряд інших. До декларативних засобів подання даних варто віднести мови визначення даних. Тобто використання даної концепції при створенні ІС припускає наявність мови визначення даних і мови маніпулювання даними, а також правил побудови інтерфейсів програм (додатків)із БД і користувачем. Такий розподіл засобів маніпулювання даними і їхнього подання є деякою мірою умовним. Мова визначення даних служить для опису логічної структури (схеми) БД, а в деяких випадках і способів зберігання й доступу до даних. Мова маніпулювання даними надає алгоритмічні засоби побудови додатків для обробки елементів даних, які зберігаються в БД.

У разі застосування концепції БД для створення ІС природно виникає питання, - а хто або що повинне все це підтримувати? Таким чином, постає питання про Систему керування базою даних (СКБД). СКБД є складними програмними системами, що працюють на різних

операційних платформах. Саме СКБД повинна надати засоби визначення й маніпулювання даними, зробивши дані незалежними від прикладних програм, що їх використовують. До основних функцій СКБД слід віднести:

забезпечення мовних засобів опису та маніпуляції даними;

забезпечення підтримки логічної моделі даних;

забезпечення взаємодії логічної та фізичної структур даних;

забезпечення захисту та цілісності даних;

забезпечення підтримки БД в актуальному стані.

Системою керування базами даних (Data-base Management System) називається сукупність програмних засобів, необхідних для використання БД і подання розробникам і користувачам безлічі різних подань даних.

Поняття про моделі даних

Подання інформації за допомогою даних вимагає уніфікованого підходу до поняття даних як незалежного об'єкта моделювання. Тому для розробника ІС вибір відповідної моделі даних є однією з найважливіших проблем. Вибір моделі даних спричиняє вибір засобів аналізу ПО як області реального світу, що підлягає вивченню й обробці. Модель даних обмежує можливість вибору СКБД, тому що, як правило, окремо взята модель підтримує певну модель даних. Таким чином, поняття моделі даних є одним з фундаментальних понять інформатики, від якого багато в чому залежать механізми реалізації ІС як програмноапаратного комплексу.

Модель даних (Data Model) є логічною структурою даних, що становить притаманні цим даним властивості, незалежні від апаратного й програмного забезпечення й не пов'язані з функціонуванням комп'ютера.

Можна розглянути кілька аспектів моделювання в обробці даних:

інформаційне моделювання:

концептуальне моделювання (моделювання семантики ПО);

логічне моделювання даних;

фізичне моделювання:

створення моделей доступу до даних;

оптимізація фізичної організації даних в апаратному середовищі.

На рис. 2.3. ілюструється загальний зміст поняття моделі даних на цей час.

Рис. 2.3. Поняття про інформаційну модель даних

Основні типи моделей й їхня еквівалентність

Наявність у СКБД певної структури даних приводить до поняття баз структурованих даних, тобто дані в таких БД повинні бути представлені як сукупність взаємозалежних елементів. Варто мати на увазі, що для кожного типу БД використовуються відповідні моделі даних. У цей час для баз структурованих даних розрізняють три основні типи логічних моделей даних залежно від характеру підтримуваних ними зв'язків між елементами даних - мережну, ієрархічну й реляційну. Ознаками класифікації у цих моделях є: ступінь твердості (фіксації) зв'язку, математичне подання структури моделі і припустимих типів даних (див. таблицю 2.1). Рис. 2.4 ілюструє особливості кожної моделі даних. При зіставленні моделей варто пам'ятати, що всі вони теоретично еквівалентні. Еквівалентність моделей полягає в тому, що вони можуть бути зведені одна до одної шляхом формальних перетворень.

Таблиця 2.1.Загальні характеристики моделей даних

Рис. 2.4. Основні типи моделей даних

Тема 3. Архітектура баз даних

A. Теоретичні відомості

База даних – сукупність взаємопов’язаних даних об’єднаних спільним застосуванням, середовищем зберігання та технологією опрацювання. Проблеми баз даних за змістом, способами та засобами розв’язання поділяють на рівні: задач зберігання даних, задачі опрацювання та застосування даних, задачі відображення та сприйняття даних. Способи та принципи побудови структур даних реалізуються у вигляді моделі даних. Модель даних M

може бути зображена у вигляді пари M=<D,O> , де D – множина правил опису даних, O – множина операцій над даними. Загальний опис функціональних складових частин бази даних та їх поєднання і взаємодії називається архітектурою баз даних. Першими спробами впорядкування архітектурних принципів побудови баз даних були ініціативи організації

CODASYL (Conference on Data System Languages). В 1965 р. за участю уряду США та представників бізнесових кіл було сформовано робочу групу з проблем баз даних DBTG (Data Base Task Group). Результати роботи цієї групи, опубліковані в 1971 р. поклали початок концепції архітектури баз даних, яка отримала назву DBTG – моделі або CODASYL

– моделі. Згідно з принципами CODASYL архітектура баз даних передбачає такі компоненти:

схема – глобальний опис логічної структури бази даних та всіх її компонентів;

підсхема – визначення частини бази даних з погляду кінцевого користувача чи проблеми;

мова керування даними – інструмент опису даних, їх властивостей та дій над ними.

В свою чергу, мова керування даними поєднує такі категорії засобів:

мова опису схем – дозволяє створювати узагальнений опис структури бази даних (Data Definition Language - DDL);

мова опису підсхем – засіб користувача для формулювання вимог на доступ до деякої підмножини бази даних (User DDL);

мова маніпулювання даними – засіб доступу до даних та їх перетворення (Data Manipulation Language - DML).

Архітектура CODASYL застосовувалась в якості стандарту побудови систем баз даних протягом тривалого часу і за її принципами було розроблено низку засобів та технологій управління базами даних.(DBTG, IDS, IDMS та інших). Однак такий підхід володіє певними недоліками, а саме:

достатньо високий ступінь залежності між даними та прикладними програмами;

складність процедур навігації в структурах даних та виконання запитів;

залежність складності процедур опрацювання баз даних від їх масштабів та обсягів;

відсутність теоретичного обґрунтування;

дворівнева архітектура виключає фізичний рівень опрацювання даних.

Подальшим розвитком концепції CODASYL стала архітектура баз даних, розроблена Комітетом планування норм і стандартів (Standards Planning and Requirements Committee - SPARC) Національного інституту стандартів США (ANSI). У 1975 р. вона була зареєстрована в якості стандарту під індексом ANSI/X3/SPARC. Стандарт визначає три рівні в архітектурі баз даних, на кожному з яких описується своя модель, що відображає особливості сприйняття та задач опрацювання даних, характерні для цього рівня. Зовнішній рівень - передбачає опис підмножин даних із застосуванням понять і термінів, якими оперують користувачі прикладної інформаційної системи. Концептуальний рівень – рівень задач розробника та адміністратора баз даних, на якому описуються елементи структури бази даних, зв'язки між ними із врахуванням їх семантики. Внутрішній рівень – рівень системного

програмування та адміністрування, на цьому рівні розв'язуються проблеми зберігання даних та доступу до них без специфікації змісту.

Зовнішній та концептуальний рівень об'єднують єдиним узагальнюючим терміном "логічний", внутрішній називають фізичним. На кожному з рівнів застосовуються різні принципи та методи опису структур даних. Принцип незалежності структур, визначених на різних рівнях є основоположним принципом побудови баз даних. Концептуальна модель – описує способи утворення одиниць даних та встановлення зв’язків між з точки зору розробника баз даних. В цій моделі інтегруються потреби та погляди всіх користувачів прикладної системи, але при цьому вона не є механічною сумою користувацьких поглядів. Концептуальна модель передбачає два етапи реалізації: інфологічний та даталогічний. Інфологічна модель – будується без врахування засобів і технологій реалізації проекту. Даталогічна модель – опис структури в термінах конкретної СУБД чи технології, які вибираються для реалізації бази даних на основі інфологічної моделі. Фізична модель – визначає одиниці середовища зберігання даних, способи їх взаємодії, та розміщення на носіях комп’ютерної системи.

Рис. 3.1 Архітектура бази даних ANSI/X3/SPARC

B. Приклади

Приклад 3.1. Рівень зовнішніх поглядів користувачів.

Зображення даних на зовнішньому рівні складається з множини значень, що застосовується користувачем для розв'язання його визначеного кола проблем, зокрема:

з точки зору деканату кожен такий об'єкт як студент характеризується номером залікової книжки, прізвищем, іменем, шифром групи, спеціальністю, оцінками, отриманими за складанні іспитів та заліків з певних предметів;

з погляду бухгалтерії той самий студент описується такими показниками як прізвище та ім'я, група, курс, ідентифікаційний номер, наявність та розмір стипендії за поточний семестр;

з точки зору процесів, які відбуваються у бібліотеці, враховуються прізвище та ім'я, номер абонемента, група, курс, факультет, домашня адреса, телефон, наявність книг в користуванні, заборгованості з повернення книг.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]