УП ВСС
.pdfПерспективными задачами этой организации и, соответственно, перспективами WWW являются:
–обеспечение универсального доступа каждого пользователя к технологиям и ресурсам WWW с учетом различий людей
вкультуре, образовании, способностях, материальных возможностях, а также с учетом их физических ограничений;
–разработка программного обеспечения, позволяющего взаимодействовать с WWW на смысловом или семантическом уровне.
–создание инфраструктуры (доверия), обеспечивающей необходимый уровень информационной защиты и приватности для решения правовых, экономических и социальных проблем информационного общества.
Одной из главных задач W3C является стандартизация web-технологий посредством разработки спецификаций в виде «Рекомендаций», описывающих основы технологии WWW.
Понятия гипертекст и гипертекстовая ссылка является
ключевыми в технологии WWW.
Термин гипертекст1 был введен американцем Тедом Нельсоном в 1965 году для описания документов, имеющих нелинейную структуру изложения содержимого текста, в противоположность линейной структуре традиционных источников информации (книг, фильмов и речи).
Одним из наиболее полных определений гипертекста является следующее. Гипертекст – технология нелинейного, ветвящегося и взаимосвязанного представления документа, позволяющая пользователю знакомиться с содержимым документа в последовательности, которую он сам выбирает.
Простейший пример идеи гипертекста, как технологии нелинейного представления текста документа, реализован на этой странице.
Говоря о гипертексте, автор вводит сноску, текст которой расположен в конце страницы. В данном случае содержание сноски, сделанной автором, дается определение понятия гипермедиа близкого по смыслу к понятию гипертекст.
Читатель, по замыслу автора, просматривая третий абзац и, увидев сноску, может перейти сразу к тексту сноски, не прочитывая весь текст на данной странице.
1 Позднее появился термин гипермедиа близкий по смыслу к гипертексту, но подчеркивающий наличие в гипертексте нетекстовых компонентов, таких как анимация, звук и видео.
111
Вэтом и заключается сущность нелинейного представления информации. В данном случае информация была бы представлена линейно, если бы текст сноски следовал за пятым абзацем предыдущей страницы.
Вполноценных гипертекстовых документах, а тем более Internet, информационные связи гораздо сложнее, поскольку WWW связывает информацию, содержащуюся не только в разных документах (файлах), а и в документах, находящихся на разных узлах вычислительной сети.
Гипертекстовая ссылка – активная часть гипертекстового документа, которая помимо смысловой нагрузки содержит путь (адрес) к другому документу или ресурсу доступного гиперпространства. При выборе гипертекстовой ссылки в электронном документе осуществляется переход по адресу гипертекстовой ссылки.
Гипертекстовые документы представляют собой текстовые документы в стандарте ASCII или Unicode, содержащие коман-
ды специального языка – HTML (HyperText Markup Language –
язык гипертекстовой разметки).
Команды HTML, которые называются тэгами, позволяют структурировать документ, выделяя в нем логически различающиеся части текста (заголовки разных уровней, абзацы, перечисления и т.д.). Специальные тэги используются для описания гипертекстовых ссылок.
Внедрение команд форматирования в текст позволяет клиентской программе для просмотра web-станиц – webбраузеру – наилучшим образом отображать данный гипертекстовый документ на экране каждого пользователя. Таким образом, гипертекстовый документ, созданный с использованием языка HTML, не содержит жесткого форматирования как, например, документы ряда офисных приложений.
На рис. 1.32 показан фрагмент гипертекстового документа в виде html-файла.
112
Рис. 1.32. Фрагмент html-файла
При загрузке этого документа из сети Internet программа просмотра web-страниц выполняет встроенные в данный текстовый файл команды языка HTML. При отображении html-файла на экране с помощью web-браузера теги не показываются.
Таким образом, команды языка HTML, внедренные в текстовый документ, определяют облик web-страницы.
Язык HTML позволяет также включать в документы иллюстративную графику, которая может быть отображена программами просмотра, основанными на использовании графического интерфейса пользователя.
Документ, на который указывает гипертекстовая ссылка, может находиться как на том же www-сервере, что и исходный документ, так и на любом другом узле в сети Internet.
Областью документа, используемой в качестве ссылки, может служить слово, группа слов, графическое изображение или даже заданный фрагмент изображения. Кроме этого, программы просмотра web-страниц позволяют работать с файлами мультимедиа, содержащими видео и звук, посредством использования программ поддержки мультимедиа, установленных на локальном компьютере.
113
Служба World Wide Web построена с использованием рас- |
||||||||
пространенной «клиент-серверной» архитектуры (рис. 1.33) |
||||||||
взаимодействия сетевого программного обеспечения [1]. |
||||||||
|
Пользователь |
|
|
Web-сервер |
|
|||
|
Web-браузер |
Протокол HTTP |
|
Web-cервер |
||||
|
|
(клиент) |
|
|||||
|
|
|
|
|
|
|
||
Прикладные |
Прикладные |
Шлюз |
html-файлы |
html-формы |
||||
программы |
программы |
|
|
|
||||
мультимедиа |
сетевых служб |
|
|
|
||||
|
|
|
|
|||||
Звук |
Видео |
Аним. |
WAIS SMTP TELNET |
FTP |
|
|
Программы-шлюзы |
|
|
|
|
|
|
Прикладные |
|||
|
|
|
|
|
доступа к другим |
|||
|
|
|
|
|
программы |
службам сети |
||
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
WAIS SMTP |
TELNET FTP др. |
|
|
|
Рис. 1.33. Архитектура WWW |
|
Как показано на рис. 1.33 взаимодействие между клиентской и серверной частями службы WWW осуществляется по прикладному протоколу HTTP.
Функции клиентской части службы реализуются webбраузером, который обеспечивает интерфейс пользователя, а также доступ практически ко всем информационным ресурсам
Internet.
Задачи серверной части службы решает сервер, функционирующий в соответствии с протоколом HTTP – web-сервер. Основная задача web-сервера заключается в обработке запросов пользователей, поступающих из сети на транспортный порт 80. В качестве транспортного протокола для передачи данных по сети служба WWW использует протокол TCP. Получив очередной запрос, web-сервер в зависимости от его содержания предоставляет пользователю доступ к базе данных документов
вформате html, html-формам, а также посредством универсального шлюза к различным прикладным программам и служ-
бам сети Internet.
База данных HTML-документов – это текстовые файлы
вформате HTML и связанные с ними графические, мультимедийные и другие ресурсы (например, Java-скрипты и др.).
114
Программы-шлюзы – это программы, обеспечивающие взаимодействие сервера с серверами других протоколов, на-
пример ftp, telnet и др.
Прикладные программы – это программы, принимающие данные от сервера и выполняющие с ними действия, определенные в запросе пользователя: получение текущей даты, доступ к локальным базам данных, вызов приложений и др.
После краткого обзора возможностей службы WWW и ее архитектуры, рассмотрим базовые технологические решения, положенные в ее основу, которые сделали эту службу наиболее универсальной, наиболее удобной для пользователя и, как следствие, наиболее популярной в современной сети Internet.
Вистории Internet Тима Бернерса-Ли не случайно считают «отцом» технологии WWW. Это обусловлено тем, что он не только высказал идею создания единого гипертекстового пространства для объединения множества информационных ресурсов вычислительной сети, но и непосредственно приступил к
еереализации.
Врезультате исследований, проводимых в рамках проекта «Гипертекст» в CERN, были предложены три из четырех наиболее важных элементов WWW:
1.HTML (HyperText Markup Language – язык гипертек-
стовой разметки).
2.URL (Uniform Resource Locator – универсальный спо-
соб адресации ресурсов).
3.HTTP (HyperText Transfer Protocol – протокол обмена гипертекстом).
Несколько позднее разработчики NCSA во главе с Марком Андреессеном разработали еще одну фундаментальную технологию, ставшую четвертым базовым элементом WWW.
4.CGI (Common Gateway Interface − универсальный ин-
терфейс шлюзов).
С точки зрения программиста html-документ представляет собой набор вложенных элементов, называемых контейнерами, в которых размещается: текст; графика; гипертекстовые ссылки; инструкции управления отображением.
Каждый контейнер начинается последовательностью:
<имя_элемента список_атрибутов>
изаканчиваетсяпоследовательностью (примерынарис. 1.32):
</имя_элемента>.
115
Первая последовательность называется тэгом начала элемента, а вторая – тэгом конца элемента1. Инструкции управления отображением также являются тэгами - тэгами начала2.
Каждый html-документ начинается со строки декларации версии HTML <!DOCTYPE>, которая обычно выглядит так:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2
Final//RU">
Эта строка информирует браузер о версии языка HTML (в приводимом примере – версия 3.2).
После объявления версии и типа документа необходимо обозначить его начало и конец. Это делается с помощью тэгаконтейнера <HTML>. Необходимо запомнить, что любой htmlдокумент открывается тэгом <HTML> и им же закрывается.
Следующими обязательными контейнерами являются <HEAD> и <BODY>, которые описывают заголовок документа и тело документа, соответственно.
Обобщенная структура простейшего html-документа показана на рис. 1.34, из которого видно, что html-документ состоит из двух основных блоков – «Заголовка» и «Тела документа»3.
Заголовок содержит «техническую» информацию о документе, хотя, чаще всего, используется только для обозначения его названия.
Тело документа содержит отображаемую браузером информацию.
Декларация документа
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//RU">
<HTML>
<HEAD>
Заголовок Название документа и техническая информация,
например, информация для индексации поисковыми серверами
</HEAD>
1В описании тэга конца элемента обязательно присутствует символ «/».
2В процессе эволюции языка HTML для ряда элементов потребность в тэгах конца элемента утратилась, поэтому такие элементы превратились в элементы управления отображением.
3Одной из наиболее распространенных ошибок является размещение заголовка в теле документа или, наоборот, что совершенно недопустимо. Сначала необходимо закрыть заголовок </HEAD>, затем только открыть «Тело документа».
116
<BODY>
Тело документа Текст, графика, видео, анимация и др.
</BODY>
</HTML>
Рис. 1.34. Структура html-документа
Графические изображения встраиваются для отображения в браузере тэгом <IMG> в следующем формате:
<IMG SRC=адрес_графического файла ALIGN=атрибут_вырав-нивания BORDER=ширина_рамки HSPACE=горизонтальный_от-ступ VSPACE=вертикальный отступ>.
Гипертекстовые ссылки встраиваются в html-документ элементом <А>. Полная форма записи этого тэга имеет следующий вид:
<A HREF=адрес_ресурса TARGET=имя_окна> идентификатор ссылки </A>.
Вторым составным элементом технологии WWW является
URL (Uniform Resource Locator) – универсальный способ адресации ресурсов1.
URL является подвидом более широкой спецификации, принятой в качестве стандарта Internet, и описанной в RFC 1630 (автор Тим Бернерс-Ли) – URI (Universal Resource Identifiers –
универсальный идентификатор ресурсов).
URI определяет способ записи (кодирования) адресов различных информационных ресурсов при обращении к ним из страниц WWW. Разработка URI была первоочередной задачей для разработчиков WWW, т.к. предполагалось объединение в единую информационную среду средств, использующих различные способы идентификации информационных ресурсов.
Место применения URI – гипертекстовые ссылки, которые записываются в тэге <A HREF=URI>. Встраиваемые графические объекты также адресуются по спецификации URI в соответствующем тэге.
В соответствии с RFC 1630 URL – это реализация схемы URI применительно к адресации сетевых ресурсов по прикладным протоколам, т.е. разновидность URI для WWW2.
1Далее будем использовать название – универсальный адрес.
2В RFC 1630 введено также понятие URN (Uniform Resource Name) – универсальная форма адресации по имени.
117
Универсальный адрес URL используется в гипертекстовых ссылках (тэг <A HREF=URI>) при внедрении графических объектов (тэг <IMG SRC=URI>) и обеспечивает доступ к распределенным ресурсам сети. Универсальность URL заключается в том, что, во-первых, URL можно использовать для адресации различных типов сетевых ресурсов, а не только гипертекстовых документов и, во-вторых, URL позволяет адресовать различные типы ресурсов не только в пределах одного узла сети, но и в пределах всей сети Internet. Без преувеличения можно сказать, что без URL вся мощь HTML оказывается бесполезной.
Универсальный адрес состоит из трех частей [3]:
1.Метод доступа к сетевому ресурсу, чаще всего обозначается именем прикладного протокола службы, которой принадлежит данный ресурс – method;
2.Сетевой адрес узла вычислительной сети, на котором хранится адресуемый ресурс (сетевым адресом может быть доменное имя или IP-адрес) – host.domain;
3.Полный путь к файлу на адресуемом узле вычислительной сети – path.
Сучетом этого полный формат универсального адреса URL имеет следующий вид:
method://host.domain[:port]/path/filename.
Параметр port – номер порта сервера – число, которое необходимо указывать, если сервер, предоставляющий доступ к ресурсам, имеет отличающийся от стандартного номер порта. Если сервер обрабатывает запросы с использованием номеров портов «по умолчанию» (т.е. стандарт), то данный параметр URL можно опустить. Стандартными номерами портов являют-
ся: 21 – FTP; 23 – Telnet; 70 – Gopher; 80 – HTTP и др.
Благодаря такой спецификации и обеспечивается универсальность URL, позволяющая адресовать как гипертекстовые документы, так и другие ресурсы, например, E-mail, и др.
Всего в RFC 1630 рассмотрено 8 схем адресации ресурсов Internet. Рассмотрим наиболее распространенную схему.
Схема HTTP. Это основная схема для WWW, позволяющая адресовать гипертекстовые документы, т.е. html-файлы.
Это наиболее распространенный вид URL, применяемый в документах WWW. Вслед за методом схемы (http) следует путь, состоящий из доменного адреса машины и полного адреса htmlдокумента в файловой системе web-сервера.
118
http:// |
www.urgi.ru |
/Ekfacultet/mirs/ |
zaniatie_1.html |
метод |
доменное имя |
путь к файлу |
имя файла |
доступа |
узла |
на сервере |
|
В качестве адреса машины допускается использовать и IP адреса, например:
http:// |
194.22.11.33 |
/Ekfacultet/mirs/ |
zaniatie_1.html |
метод |
IP-адрес |
путь к файлу |
имя файла |
доступа |
узла |
на сервере |
|
Следующим важным элементом технологии WWW является протокол передачи гипертекста – HTTP (HyperText Transfer Protocol).
HTTP – это прикладной протокол, обеспечивающий необходимую скорость передачи данных, требующуюся для распределенных информационных систем гипермедиа. HTTP используется в технологии WWW с 1990 года. Протокол HTTP основывается на парадигме запросов/ответов в рамках «клиентсерверной» архитектуры.
Процесс обмена данными по протоколу HTTP реализуется в четыре этапа. На первом этапе программа-клиент устанавливает TCP-соединение по стандартному порту HTTP (80) на сервере, далее клиент формирует и передает серверу запрос. Сервер передает клиенту ответ, после которого либо сервер, либо клиент закрываю соединение.
После установления соединения клиент передает серверу запрос в следующем формате:
Первая строка |
Метод запроса |
URL |
Версия протокола |
Вторая строка |
Управляющая |
информация заголовка |
|
Третья строка |
Данные, передаваемые серверу |
Метод запроса – это HTTP-команда, определяющая цель запроса клиента. Для протокола HTTP определены три основных метода: GET, HEAD и POST. Определены и другие методы, но они не так широко поддерживаются серверами, как три перечисленных (при задании имен методов учитывается регистр, поэтому GET и get различаются).
Метод GET – это запрос информации, расположенной на сервере по указанному URL.
Метод HEAD аналогичен методу GET, за исключением того, что сервер не передает в ответ на запрос сам файл. Метод
119
HEAD запрашивает только информацию заголовка требуемого файла или ресурса.
Метод POST используется для передачи серверу данных в запросе клиента. Эти данные направляются в программу обработки данных, к которой сервер имеет доступ (например, в CGIсценарий). Метод может использоваться во многих приложениях. Например, метод POST используется для работы с базами данных.
Сервер в ответ на запрос клиента возвращает сообщение в следующем формате:
Первая строка |
Версия протокола |
Код состояния запроса |
Вторая строка |
Управляющая |
информация заголовка |
Третья строка |
Данные, передаваемые клиенту |
В первой строке (Код состояния запроса) ответа HTTPсервера содержится информация о том, был запрос клиента успешным или нет, а также данные о причинах завершения запроса (успех или отказ). Эта информация обозначается трехразрядным кодом ответа сервера и сопровождается описательным сообщением.
Последняя базовая составляющая технологии WWW –
спецификация CGI (Common Gateway Interface –
универсальный интерфейс шлюзов). CGI является стандар-
том, обеспечивающим интерфейс (взаимодействие) внешней прикладной программы с информационным сервером, функционирующим по протоколу HTTP.
Спецификация CGI описывает правила создания специальных CGI-скриптов. Особый вид CGI-скрипта – программашлюз, используемая для интерактивного обмена данными с другими распределенными ресурсами и приложениями.
Задачей программы-шлюза является непосредственное взаимодействие в качестве клиента с третьей (вызываемой) программой. Например, если пользователь обращается к ftpсерверу, то шлюз играет роль клиента ftp, который инициирует соединение с ftp-сервером, формирует запрос и, получив ответ, передает его web-серверу. Аналогично происходит взаимодействие с другими программами и сервисами.
4.5. Информационная служба E-mail
Электронная почта – одна из важнейших информационных служб современной сети Internet. Сущность электронной
120