114
.pdfСеть Internet
Существуют домены, разделенные по тематическим признакам. Такие домены имеют трехбуквенное сокращенное название. Например, учебные заведения — edit, правительственные учреждения — gov, коммерческие организации — cот.
Окончательный план расширения системы присвоения имен ресурсов в Internet был объявлен комитетом IAHC (International Ad Hoc Committee). Согласно новым решениям, к доменам высшего уровня, включающим сегодня com, net, org, прибавятся:
+firm — для деловых ресурсов Сети;
+store — для торговли;
+web — для организаций, имеющих отношение к регулированию деятельности в WWW;
+arts — для ресурсов гуманитарного образования;
+rec — игры и развлечения;
+info — предоставление информационных услуг;
+пот — для индивидуальных ресурсов. Компьютерное имя включает, как минимум, два уров-
ня доменов. Каждый уровень отделяется от другого точкой. Слева от домена верхнего уровня располагаются другие имена. Все имена, находящиеся слева, — поддомены для общего домена.
Электронная почта
Электронная почта
Электронная почта похожа на обычную почту. С ее помощью письмо — текст, снабженный стандартным заголовком (конвертом), — доставляется по указанному адресу, который определяет местонахождение сервера и имя адресата, который имеет почтовый ящик на этом сервере, с тем, чтобы адресат мог его достать и прочесть в удобное время.
Для создания электронной почты в сети TCP/IP используется не так уж много протоколов: SMTP (Simple Mail Transfer Protocol — простой протокол передачи почты), POP (Post Office Protocol — протокол почтового отделения) и MIME (Multipurpose Internet Mail Extensions — многоцелевые расширения почты Интернет). Конечно, это далеко не полный перечень протоколов электронной почты. К примеру, существует экспериментальный интерактивный почтовый протокол (IMAP — Interactive Mail Access Protocol), определенный в стандарте RFC 1176 и созданный для того, чтобы заменить POP. В число его возможностей входит поиск текста на удаленной системе и синтаксический анализ сообщений, а этого как раз и нет в POP.
Согласно схеме почтового обмена взаимодействие между участниками этого обмена строится по классической схеме «клиент—сервер». При этом схему можно подразделить на несколько этапов. Первый — взаимодействие по протоколу SMTP между почтовым клиентом (Internet Mail, Netscape Messager, Eudora, Outlook Express и т.п.)
ипочтовым транспортным агентом (sendmail, smail, ntmail
ит.п.); второй — взаимодействие между транспортными агентами в процессе доставки почты получателю, результатом которого является доставка почтового сообщения в почтовый ящик пользователя; и третий — выборка сообщения из почтового ящика пользователя почтовым клиентом в почтовый ящик пользователя по протоколу РОРЗ или IMAP
Электронная почта
ПротоколэлектроннойпочтыSMTP
Главной целью протокола Simple Mail Transfer Protocol
(SMTP, RFC-821, -822) является надежная и эффективная доставка электронных почтовых сообщений. SMTP — это независимая субсистема, требующая только надежного канала связи. Средой для SMTP может служить отдельная локальная сеть, система сетей или вся сеть Internet.
Протокол SMTP базируется на следующей модели коммуникаций: в ответ на запрос пользователя почтовая прог- рамма-отправитель устанавливает двухстороннюю связь с программой-приемником (TCP, порт 25). Получателем может быть конечный или промежуточный адресат. SMTP-команды генерируются отправителем и посылаются получателю. Для каждой команды должен быть получен отклик.
Когда канал организован, отправитель посылает команду MAIL, идентифицируя себя. Если получатель готов к приему сообщения, он посылает положительный отклик. Далее отправитель посылает команду RCPT, идентифицируя получателя почтового сообщения. Если получатель может принять сообщение для оконечного адресата, он снова выдает положительный отклик. В противном случае он отвергает получение сообщения для данного адресата, но не вообще почтовой посылки. Взаимодействие с почтовым сервером возможно и в диалоговом режиме.
После ввода команды Data пользователь вводит текст сообщения и как знак окончания ставит точку в пустой строке. Если письмо дошло до адресата, то выходит соответствующее сообщение. В противном случае выходит сообщение о том, что ящика адресата не существует, а на адрес отправителя приходит обратное письмо с текстом отправляемого сообщения.
Прямая доставка позволяет SMTP пересылать почту, не полагаясь на промежуточные хосты. Недостаток прямой доставки состоит в том, что на обоих концах должны непрерывно поддерживать работу с почтой. Это не каса-
233
Электронная почта
ется почтовых Интернет-серверов, поскольку они постоянно включены и настроены на непрерывную отправкуприем сообщений. Для считывания сообщений с таких серверов на компьютеры пользователей применяется протокол POP.
Но не в каждой сети используется TCP/IP и SMTP. Чтобы предоставить пользователям услуги электронной почты в таких случаях, применяют так называемые почтовые шлюзы, которые дают возможность абоненту отправлять сообщения в сети, не работающие с протоколами TCP/IP (Fido, Goldnet, AT50).
ПротоколэлектроннойпочтыPOP (Post Office Protocol)
Протокол обмена почтовой информацией POP предназначен для разбора почты из почтовых ящиков пользователей на их рабочие места при помощи программ-кли- ентов. Если по протоколу SMTP пользователи отправляют корреспонденцию через Internet, то по протоколу POP пользователи получают корреспонденцию из своих почтовых ящиков на почтовом сервере.
Широкое распространение получили две версии POP — РОР2 и РОРЗ. Протокол POP2 определен в стандарте RFC 937 и использует порт 109. РОРЗ определен в RFC 1725 и использует порт 110. Это несовместимые протоколы, в которых применяются разные команды, но они выполняют одинаковые функции. В настоящее время чаще всего используется протокол РОРЗ.
РОРЗ-сервис, как правило, устанавливается на 110-й TCP-порт сервера, который будет находиться в режиме ожидания входящего соединения. Когда клиент хочет воспользоваться РОРЗ-сервисом, он просто устанавливает TCP-соединение с портом 110 этого хоста. После установления соединения сервис РОРЗ отправляет подсоединившемуся клиенту приветственное сообщение. После этого клиент и сервер начинают обмен командами и данными. По окончании обмена РОРЗ-канал закрывается.
234
Электронная почта
РОРЗ-сессия состоит из нескольких частей. Как только открывается TCP-соединение и РОРЗ-сервер отправляет приветствие, сессия должна быть зарегистрирована —
состояние аутентификации (AUTHORIZATION state). Клиент должен зарегистрироваться в РОРЗ-сервере, т.е. ввести свой идентификатор и пароль.
После этого сервер предоставляет клиенту его почтовый ящик и открывает для данного клиента транзак- цию—состояниеначала транзакцииобмена(TRANSACTION state). На этой стадии клиент может считать и удалить почту своего почтового ящика.
После того как клиент заканчивает работу (передает команду QUIT), сессия переходит в состояние UPDATE — завершение транзакции. В этом состоянии РОРЗ-сервер закрывает транзакцию данного клиента и закрывает ТСРсоединение.
В случае получения неизвестной, неиспользуемой или неправильной команды, РОРЗ-сервер должен ответить отрицательным состоянием индикатора.
РОРЗ-сервер может использовать в своей работе таймер контроля времени соединения. Этот таймер отсчитывает время «бездействия» («idle») клиента в сессии от последней переданной команды. Если время сессии истекло, сервер закрывает TCP-соединение, не переходя в состояние UPDATE.
Структураадресаэлектроннойпочты
Рассмотрим адрес mikalov@mailru.com. Он состоит из адреса машины и имени адресата, которое отделено знаком «@».
Слева от @ стоит имя адресата, точнее, имя файлапочтового ящика на сервере, с которого он забирает письма. Обычно пользователь называет свой почтовый ящик тем же именем, под которым он зарегистрирован в системе. Чаще всего это имя (например, tanya), фамилия (например, belugina), или инициалы,
Часть справа от @ называется доменом и описывает местонахождение этого почтового ящика (сервер).
235
Технология World Wide Web (WWW)
Технология World Wide Web (WWW)
История Всемирной паутины (World Wide Web) или просто WWW началась в марте 1989 г., когда Тим Бер- нерс-Ли, сотрудник Европейской лаборатории физики элементарных частиц в Женеве, распространил предложение разработать «гипертекстовую систему» для возможности легкого обмена информацией между различными группами физиков.
WWW, в отличие от существующих к тому времени протоколов Интернет, таких как FTP, Telnet, WAIS, дала возможность представлять информацию в естественной форме с текстом, графикой, звуком и прочими атрибутами. Фактически же WWW — это распределенная система, основанная на использовании гипертекста, впервые предложенного в 70-х гг. Тедом Нельсоном.
Основныекомпонентытехнологии World Wide Web
К 1989 г. гипертекст представлял новую технологию, которая имела относительно большое число реализаций, с одной стороны, а с другой стороны, делались попытки построить формальные модели гипертекстовых систем. Идея Бернерс-Ли заключалась в том, чтобы применить гипертекстовую модель к информационным ресурсам, распределенным в сети, и сделать это максимально простым способом. Он заложил три краеугольных камня системы из четырех существующих ныне, разработав:
+язык гипертекстовой разметки документов HTML (HyperText Markup Language);
+универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);
+протокол обмена гипертекстовой информацией HTTP
(HyperText Transfer Protocol).
Позже к этим трем компонентам был добавлен четвертый:
+универсальный интерфейс шлюзов CGI (Common Gateway Interface).
237
Технология World Wide Web (WWW)
Идея HTML — пример удачного решения проблемы построения гипертекстовой системы при помощи специального средства управления отображением. На разработку языка гипертекстовой разметки существенное влияние оказали два фактора: исследования в области интерфейсов гипертекстовых систем и желание обеспечить простой и быстрый способ создания гипертекстовой базы данных, распределенной на сети.
HTML — простой язык разметки, который позволяет помечать фрагменты текста и задавать ссылки на другие документы, выделять заголовки нескольких уровней, разбивать текст на абзацы, центрировать их и т.п. В HTML гипертекстовые ссылки встроены в тело документа и хранятся как его часть. Часто в системах применяют специальные форматы хранения данных для повышения эффективности доступа. В WWW документы — это обычные ASCII-файлы, которые можно подготовить в любом текстовом редакторе.
Вторым краеугольным камнем WWW стала универсальная форма адресации информационных ресурсов.
Universal Resource Identification (URI) представляет собой довольно стройную систему, учитывающую опыт адресации и идентификации e-mail, Gopher, WAIS, telnet, ftp и т.п. Но реально из всего, что описано в URI, для организации баз данных в WWW требуется только Universal Resource Locator (URL). Без наличия этой спецификации вся мощь HTML оказалась бы бесполезной. URL используется в гипертекстовых ссылках и обеспечивает доступ к распределенным ресурсам сети. В URL можно адресовать как другие гипертекстовые документы формата HTML, так и ресурсы e-mail, telnet, ftp, Gopher, WAIS.
Третий краеугольный камень — протокол обмена данными в World Wide Web — HyperText Transfer Protocol.
Данный протокол предназначен для обмена гипертекстовыми документами и учитывает специфику такого обмена. Так, в процессе взаимодействия клиент может получить новый адрес ресурса на сети (relocation), запросить встроенную графику, принять и передать параметры и т.п.
238
Технология World Wide Web (WWW)
Управление в HTTP реализовано в виде ASCII-команд. Реально разработчик гипертекстовой базы данных сталкивается с элементами протокола только при использовании внешних расчетных программ или при доступе к внешним относительно WWW информационным ресурсам, например базам данных.
Последняя составляющая технологии WWW — спецификация Common Gateway Interface. CGI была специально разработана для расширения возможностей WWW за счет подключения всевозможного внешнего программного обеспечения. Такой подход логично продолжал принцип публичности и простоты разработки и наращивания возможностей WWW.
АрхитектураWWW-технологии
WWW построена по хорошо известной схеме «клиент— сервер». Программа-клиент выполняет функции интерфейса пользователя и обеспечивает доступ практически ко всем информационным ресурсам Internet. Фактически, клиент — это интерпретатор HTML. И как типичный интерпретатор, клиент в зависимости от команд (разметки) выполняет различные функции.
В круг этих функций входит не только размещение текста на экране, но и обмен информацией с сервером по мере анализа полученного HTML-текста, что наиболее наглядно происходит при отображении встроенных в текст графических образов. При анализе URL-спецификации или по командам сервера клиент запускает дополнительные внешние программы для работы с документами в форматах, отличных от HTML, например GIF, JPEG, MPEG, Postscript и т.п.
Другую часть программного комплекса WWW составляют сервер протокола HTTP, базы данных документов в формате HTML, управляемые сервером, и программное обеспечение, разработанное в стандарте спецификации CGI.
239
Язык гипертекстовой разметки Web-документов HTML
Языкгипертекстовойразметки Web-документов HTML
Язык HTML существует в нескольких вариантах и продолжает развиваться, но конструкции HTML, вероятнее всего, будут использоваться и в дальнейшем.
HTML был ратифицирован World Wide Web Consortium. Он поддерживается несколькими широко распространенными браузерами, и, возможно, станет основой почти всего имеющего отношение к Web-программного обеспечения.
Структура HTML документа
Символы, заключенные в угловые скобки о, являются HTML-командами, по которым браузер распознает, как следует преобразовать части текста, заключенные между этими командами.
Документ в целом должен быть отмечен как документ в формате HTML. Для этого он должен начинаться командой <HTML> и заканчиваться командой </HTML>.
Документ HTML состоит из 2 частей:
+заголовка (Head);
+собственно документа (Body).
Для выделения заголовка следует ввести: <HEAD> Заголовок документа <HEAD>.
Каждый WWW-документ имеет название, которое вводится в титульной строке браузера. Для ввода титульной строки в заголовок документа следует воспользоваться следующими командами: <HEAD> <TITLE> TITLE List </TITLE> </HEAD>.
Необходимо отметить, что титульная строка должна быть на английском языке в латинской кодировке, так как она отображается в специальных полях браузера.
Для записи основного текста следует ввести: <BODY> Основной текст </BODY>.
Таким образом, общая схема документа в формате HTML выглядит следующим образом:
240