Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курс лекцій_Інформатика_Одинець.doc
Скачиваний:
14
Добавлен:
22.04.2019
Размер:
20.88 Mб
Скачать
      1. Поняття про xml-мову структурованого зберігання інформації

XML (Extensible Markup Language) - це розширювана мова розмітки гіпертексту, розроблена на базі HTML як формат універсального представлення даних в глобальних мережах. Цей формат дозволяє обмінюватися даними через Інтернет в єдиному вигляді між абсолютно різними додатками. XML розширює можливості HTML, оскільки дозволяє створювати додаткові елементи, за допомогою яких можна описувати і визначати нові дані, об'єкти і властивості, відділяючи дані від їх представлення у вигляді HTML, завдяки чому вдається подолати обмеження HTML в можливості опису нестандартних об'єктів. XML офіційно прийнятий концорциумом W3C (World Wide Web Consortium), який займається стандартами, що відносяться до World Wide Web.

Тепер поговоримо про структуру документа XML. Річ у тому, що такий документ може складатися не з одного файлу XML, а з декількох файлів різних типів. Це можуть бути файли наступних типів:

  • Web-сторінка для перегляду одержаного документа (у форматі HTML або ASP);

  • файл XSL, що містить опис структури зовнішнього представлення документа;

  • файл XML, що включає дані, що є джерелом для заповнення документа;

  • файл XSD, що містить опис структури даних, звичайно його називають схемою даних.

Це обумовлено логічним розділенням документа XML на окремі частини: дані (XML), структуру даних (XSD) і представлення даних (HTML або ASP, XSL).

Підкреслимо, що всі ці файли разом утворюють єдиний документ Web, який можна переглянути за допомогою браузера . Вони лише описують різні його частини. Проте файл XML (можливо, разом з файлом XSD) може бути використаний незалежно від інших частин такого представлення Web-документа додатками, що розпізнають цей формат даних. Файл у форматі HTML або ASP містить лише сценарій, який активізується при завантаженні сторінки і завантажує дані на сторінку з джерела у форматі XML.

Відділення самих даних від їх представлення (у форматі HTML) і поміщення їх в окремий файл у форматі XML відкриває можливість іншим додатком, що сприймають цей спеціально розроблений універсальний формат, одержувати і обробляти дані (незалежно від їх представлення) з такого документа. Наприклад, дозволяє імпортувати дані у форматі XML в базу даних. Ще відділення даних від їх представлення дозволяє різним додаткам застосовувати різноманітні способи для відображення одних і тих же даних XML за допомогою декількох різних файлів представлення даних.

Файл XSD називається схемою XML. Його зміст задовольняє стандарту XML Schema standard (XSD), офіційно прийнятому концорциумом W3C. Файл схеми XML описує структуру даних в універсальному вигляді, включаючи інформацію про назви елементів, типи даних, комбінаціях елементів, про атрибути елементів. Схема XML визначає модель представлення даних у форматі XML: задає правила для тегів і тексту. Використання схеми XML гарантує правильне сприйняття даних у форматі XML іншими додатками і правильне перетворення цих даних в інші формати даних.

Файл XML містить опис даних, але не містить опис того, як вони повинні бути відображені в програмі перегляду. Ця інформація може надаватись окремо, наприклад у файлах CSS на мові опису стилів Cascading Style Sheet. Проте це не дуже зручно, оскільки розробнику доводиться вивчати ще і мову CSS на додаток до XML, до того ж CSS надає недостатньо засобів для контролю над виведенням даних. В сучасних додатках частіше застосовується гнучкіший засіб для опису зовнішнього представлення даних XML - мова XSL (Extensible Stylesheet Language). Він дозволяє точно вибрати дані, які вимагається відобразити, задати порядок розташування елементів даних, модифікувати і додати додаткову інформацію. Крім того, ця мова схожа на XML: в XSL використовуються XML-подібні теги і HTML для створення шаблону специфічного стилю виведення даних. Зауважимо, що для відображення даних XML в Internet Explorer 5 або вище необов'язково приєднувати файли CSS або XSL, оскільки ця програма перегляду має власний опис стилю, що застосовується за умовчанням.

XML являє собою простий і в той же час потужний та гнучкий текстовий формат опису документів. У форматі XML можна зберігати дані практично будь-якого ступеня структуризації і будь-якого призначення. XML-документ за своєю структурою є деревом. Перехід на специфікації XML дозволяє описувати структуру даних без прив'язки до форми їх відображення, визначати форму подання даних незалежно від конкретного змісту, створювати метадані та керувати доступом до даних тощо.

XML був розроблений XML Working Group (групою раніше відомої як SGML Editorial Review Board), сформованої під керівництвом World Wide Web Consortium (W3C) в 1996 році.

Цілі створення XML:

  1. XML буде широко поширений в Internet.

  2. XML підтримуватиме великий діапазон додатків.

  3. XML буде сумісний з SGML.

  1. Він буде легким для написання програм, що обробляють документи XML.

  1. Кількість властивостей по вибору (optional) в XML буде зведена до абсолютного мінімуму, в ідеалі — до нуля.

  2. Документи XML повинні бути розбірливими і ясними за змістом.

  3. Дизайн XML повинен виконуватися швидко.

  4. Дизайн XML повинен бути формальним і коротким.

  5. Документи XML повинні легко створюватися.

  6. Стислість в розмітці XML має мінімальне значення.

XML має багато загального з мовою розмітки HTML, але вони різні по своєму призначенню. HTML, як і XML, є підмножиною SGML, але призначений тільки для відображення інформації в браузере. XML же призначений для структурованого зберігання інформації і не містить ніяких конструкцій для відображення цих даних.

XML по своєму синтаксису дуже схожий на HTML, за винятком того, що в XML можна придумувати власні теги.

По аналогії з HTML, усередині XML-тегов можна використовувати атрибути. Кожний тег в XML повинен мати відповідний закриваючий тег (в HTML це не є обов'язковим). Кожний XML-документ починається з рядка декларації, наприклад:

<?xml version='1.0' encoding='UTF-16' standalone='yes' ?>

Цей рядок вказує на версію мови XML (атрибут version), кодування тексту в документі (атрибут encoding) і показує, існує документ сам по собі чи залежить від інших файлів (атрибут standalone).

Приведемо приклад XML-документа.

Нехай у нас є лист. Інформацію, що міститься в ньому, можна зберегти в наступному вигляді:

<?xml version='1.О' encoding='KOI8-R'

standalone='yes' ?> <note title="Лист">

<tо>Майборода Олена</to>

<body>Привіт, Олена!

Як у тебе справи?

У мене все добре.

Давай зустрінемось у неділю.</body>

<fгоm>Петро Байдачний</from> </note>

Зберігши цей файл, наприклад, як olena.xml, ми можемо переслати його, переглянути за допомогою браузера або використати в програмі. За допомогою XML можна створити документ для опису будь-якої інформації. Для того, щоб інші розробники могли створювати документи на цій же XML-мові (тобто, використовуючи ті ж теги) і щоб можна було перевірити правильність створеного документа (його відповідність вибраній XML-мові), потрібно формально описати XML-мову, що використовується. Це робиться за допомогою механізмів DTD (Document Type Definition — Визначення типу документа) або Schemas (Схеми), які дають можливість створювати шаблони для нових типів документів. Для експериментів в домашніх умовах створювати DTD-описи необов'язково. Важливо розуміти, що XML насправді зовсім не мова, а стандарт для створення мов, що відповідають критеріям XML.

Між XML-документами можуть бути встановлені посилання, один документ може включати інший, тобто структура документа може бути скільки завгодно складною.

Зауважимо, що для відображення даних XML в Internet Explorer 5 або вище необов'язково приєднувати файли CSS або XSL, оскільки ця програма-браузер має власний опис стилю, що застосовується за замовчуванням.

      1. Веб-документ як реалізація структурованого документу засобами мови HTML

Основний спосіб збереження і передачі документів у Інтернет є HTML. Дані у форматі HTML нагадують звичайні текстові файли за винятком того, що деякі символи в них (так звані теги (tag)) інтерпретуються як розмітка. Розмітка надає документу деяку, визначену тегами, структуру: глави, розділи, абзаци, списки, малюнки, таблиці, колонтитули, індекси, зміст тощо. Всередині кожного блоку можна змінювати шрифт, розмір символів, колір тексту, виділяти текст курсивом та/або робити його напівжирним. Головною особливістю HTML є спроможність використовувати гіперзв'язки (links), завдяки яким можливі посилання та переходи з поточної веб-сторінки на інші документи, як локальні (документи поточного сервера), так і такі, що знаходяться на серверах в найвіддаленіших регіонах земного шару. Мова HTML, також забезпечує впровадження в документи зображень, звука, відео і т.д. Перегляд HTML-документу здійснюється за допомогою веб-оглядача (таких програм як Internet Explorer, Netscape та ін.).

Мова розмітки HTML документів - це набір спеціальних інструкцій, називаних тегами, призначених для формування в документах якоїсь структури і визначення відношень між різноманітними елементами цієї структури. Теги мови, або, як їх іноді називають, управляючі дескриптори, у таких документах кодуються, виділяються щодо основного вмісту документа і служать у якості інструкцій для броузера.

У ранню пору свого розвитку мова HTML підносилася як засіб масштабованого форматування документів, яку можна було б використовувати для обміну інформацією практично на будь-якій платформі. У основі HTML лежить украй проста ідея: ви визначаєте нескладну мову, що описує структуру документа, і чекаєте, коли компанії розроблять програмні засоби, спроможні подавати такі документи в різноманітних операційних середовищах з урахуванням обраних користувачем параметрів. За допомогою HTML можна було б створювати матеріали, що допускають представлення в будь-якому візуальному або звуковому форматі.

Проте поступово ставало ясно, що ця ідея, незважаючи на свою простоту, йде врозріз з узвичаєною практикою видавничих систем. Традиційний механізм підготування публікацій передбачає, що графічні дизайнери і компоновщики повинні брати до уваги специфічні особливості презентаційного середовища, включаючи розмір листа, якість друку, палітру кольорів і т.п. Виявилося, що переключитися з такого методу на більш простий, при якому автор відповідає лише за вміст і логічну структуру документа, перекладаючи презентаційні обов'язки на користувацькі програми, досить важко.

У файлі HTML у його вихідному виді теги форматування перемішані зі звичайним текстом. Головною особливістю розмітки HTML є, звичайно, можливість вставки посилань на зовнішні документи або на внутрішні розділи того ж самого документа.

HTML процвітав не тільки як адаптована мова розмітки, але й у якості проміжного програмного забезпечення. Завдяки своїй дешевизні і поширеності браузери Web являють собою відмінних клієнтів; за посередництвом HTML вони можуть спілкуватися з найрізноманітнішими серверами.

Спростивши SGML для використання з Web, група запропонувала XML (рекомендація W3C по статусу на лютий 1998 року). XML – підмножина SGML, причому любий дійсний документ XML є дійсним документом SGML. І, як і SGML, XML - це метамова, що визначає інші мови розмітки для специфічних цілей. Наприклад, мова синхронізованої інтеграції мультимедіа (Synchronized Multimedia Integration Language, SMIL) базується на XML.