Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Курс лекций Информационные технологии в ИТСС

.pdf
Скачиваний:
121
Добавлен:
13.02.2015
Размер:
4.52 Mб
Скачать

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Страницы веб-узлов обычно структурируют одним из следующих трех способов: линейным, древовидным или произвольно.

Линейный веб-узел (Linear Web Site) подобен обычной книге: вы начинаете с первой (главной) страницы, затем переходите ко второй, третьей, четвертой и так далее (Рис. 14.2). Такие сайты удобны тем, что в них трудно «заблудиться» — вы всегда можете легко вернуться не только к предыдущей и следующей страницам, но и, если это предусмотрено создателями сайта, к любой другой. Такой способ представления информации часто используют, чтобы последовательно провести читателя по целой серии связанных друг с другом материалов или статей.

Рис. 14.2 Линейный веб-узел

Веб-узел с древовидной структу-

рой (Tree Web Site) организован по-

добно «генеалогическому древу». Вы начинаете с главной страницы, а затем можете выбрать один из нескольких разделов сайта (Рис. 14.3). Такая структура характерна для Веб-узлов многопрофильных организаций, для Интернет-магазинов, торгующих разнообразными товарами, и пр.

Рис. 14.3 Веб-узел с древовидной структурой

Веб-узел с произвольной структурой

(Random Web Site) практически не имеет четкой организации и часто представляет собой хаотичный массив информации, соединенной перекрестными ссылками. Вы можете переходить со страницы на страницу, но отыскать, в каком месте сайта вы сейчас находитесь, или вернуться на главную страницу будет не так-то просто (Рис. 14.4).

Рис. 14.4 Веб-узел с произвольной структурой

Теперь, после того как мы создали Веб-узел, его нужно разместить в Интернете. Для этого можно воспользоваться хостингом. Хостинѓ (англ. hosting) — услуга по предоставлению дискового пространства для физического размещения информации на сервере, постоянно находящемся в сети Интернет. Хостингом так же называется услуга по размещению оборудования клиента на территории провайдера с обеспечением подключения его к каналам связи с высокой пропускной способностью.

161

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Обычно под понятием услуги хостинга подразумевают как минимум услугу размещения файлов сайта на сервере, на котором запущено программное обеспечение, необходимое для обработки запросов к этим файлам – Веб-сервер.

Хостинг баз данных, размещение файлов, хостинг электронной почты, услуги DNS могут предоставляться отдельно как самостоятельная услуга, либо входить в основную услугу.

14.2.1Идеология HTML

HTML – это отнюдь не язык оформления документов. Это, в первую очередь, средство их разметки. Ваша первоочередная задача – разметить текст, описать с помощью тегов его структуру, сказав: "Это – параграф, это – цитата, это – список, а это – раздел".

В HTML для того чтобы, например, создать заголовок абзаца, недостаточно выделить слово жирным шрифтом. Нужно с помощью соответствующего HTML-кода сказать, что это слово – заголовок, возложив задачу оформления на плечи браузера.

Зачем это делается?

Дело в том, что документы HTML предназначены не только для отображения на экране. Вся прелесть HTML заключается в возможности его отправки практически на любое устройство вывода.

Представьте, что будет с обычным текстом при попытке, скажем, прочитать его вслух с помощью карманного голосового компьютера. Куда денется оформление? Наверняка исчезнет – ведь голос машины не в состоянии отобразить слово подчеркнутым, увеличенным или курсивным шрифтом. Но если вместо оформления документа будет описана его структура, то текст заголовков будет произнесен правильно (например, с изменением интонации), между абзацами компьютер выдержит паузу, а цитаты прочитает другим голосом.

А теперь представьте, что ваш документ просматривается на крохотном двустрочном дисплее наручных часов или сотовом телефоне. Если вы указали разметку документа, описали начало и конец параграфов, заголовки, формулы и адреса, то будьте спокойны: устройство подаст и оформит его в наиболее приемлемой форме.

Просмотр веб-страниц производится с помощью специальных программ веббраузеров. Браузеры обеспечивают взаимодействие с веб-серверами по протоколу HTTP (напомню, это прикладной протокол стека TCP/IP) и, получив данные в формате HTML, правильно отображают их на экране (а также воспроизводят, если это музыкальный или видеофайл, или запускают на исполнение, если это программа или

скрипт).

14.2.2Структура HTML-документа

Для того, чтобы текстовый файл превратился в HTML-файл, поменять его расширение с ".txt" на ".html" недостаточно. Надо соблюсти "правило первой строки":

162

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Каждый HTML-документ, отвечающий спецификации HTML какой-либо версии, обязан начинаться со строки декларации версии HTML !DOCTYPE, которая обычно выглядит так:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN">

Эта строка поможет браузеру определить, как правильно интерпретировать данный документ. В данном случае мы говорим браузеру, что HTML соответствует международной спецификации версии 4.01.

После объявления версии и типа документа необходимо обозначить его начало и конец. Это делается с помощью тега-контейнера <HTML>. Необходимо отметить, что любой HTML-документ открывается тегом <HTML> и им же закрывается.

Затем, между тегами <HTML> и </HTML> следует разместить заголовок и тело документа. Вот как должен выглядеть ваш базовый HTML-файл перед началом работы:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"> <HTML>

<HEAD>

<TITLE>Заголовок документа</TITLE> </HEAD>

<BODY>

<!-- Текст документа

</BODY>

</HTML>

Из рисунка 14.5 видно, что документ состоит из двух основных блоков – "заголовка" и "тела документа". Заголовок определяется с помощью элемента HEAD, а тело –

элементом BODY.

Заголовок содержит "техническую" информацию о документе. В теле документа находится все то, что отображается на странице: текст, картинки, таблицы.

Рис. 14.5

14.3Поисковые системы

Поисковая система — веб-узел, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернетмагазинах, а также информацию в группах новостей Usenet.

163

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Как правило, основной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы.

Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата, так и графического или мультимедийного. Пока наиболее распространённым является именно поиск по текстовым документам. Такими документами могут быть web-страницы, документы в формате doc, rtf, txt и др.

Поиск по изображениям, видео или звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, Яндекс.Картинки ищут не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям.

14.3.1Поисковые роботы

Одним из ключевых элементов поисковой системы является поисковый робот («вебпаук» или краулер) — программа, являющаяся составной частью поисковой системы и предназначенная для обхода страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он считывает содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, к которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются поисковыми алгоритмами.

14.3.2Поисковые алгоритмы

Поисковый алгоритм — алгоритм, который позволяет поисковой системе в ответ на запрос пользователя выдавать релевантные, т.е. максимально соответствующие запросу, результаты. Для этого поисковые алгоритмы анализируют расположение и частоту упоминания ключевых слов на странице. С этой целью они ищут ключевые слова, в первую очередь, в HTML-теге «title», имея в виду, что если страница так озаглавлена, в ней наиболее вероятно нахождение полезной информации. Поисковики также ищут ключевые слова в начале страницы, где бывает обычно название, или в первых нескольких абзацах текста. Все это позволяет оценить ценность сайтов и их содержимого для пользователя и в соответствии с некоторыми критериями проранжировать (дать оценку) в результатах поиска.

Поисковые алгоритмы, как любые другие, поддаются изучению и, следовательно, их работу можно использовать в своих интересах, чем и занимаются специалисты по поисковой оптимизации. Однако чтобы защитить интересы пользователей и предоставлять им релевантные данные, разработчики регулярно обновляют свои поисковые алгоритмы. Каждая поисковая система использует собственные алгоритмы, и по этой причине, вводя запрос в разных поисковиках, вы получаете разные сайты. Успешная поисковая система никогда не стоит на месте, поскольку ее разработчики понимают,

164

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

что оптимизаторы кропотливо изучают ее алгоритмы и высчитывают факторы воздействия на них в свою пользу.

Таким образом, для поисковой системы становится невозможным отличить действительно качественный документ, от страницы созданной специально под заданную поисковую фразу или даже страницы, сгенерированной роботом и вообще не несущей полезной информации. Поэтому одним из ключевых факторов при ранжировании страниц является анализ внешних ссылок на каждую оцениваемую страницу. Это единственный фактор, который неподконтролен автору сайта.

Логично предположить, что чем больше внешних ссылок имеется на сайт, тем больший интерес этот сайт представляет для посетителей. Если владельцы других сайтов в сети поставили ссылку на оцениваемый ресурс, значит, они считают этот ресурс достаточно качественным. Следуя этому критерию, поисковая система также может решить, какой вес придать тому или иному документу.

Таким образом, существует два основных фактора, по которым страницы, имеющиеся в базе поисковика, будут отсортированы при выдаче. Это релевантность (то есть, насколько рассматриваемая страница связана с темой запроса) и число и качество внешних ссылок. Последний фактор также получил названия ссылочная цитируемость, ссылочная популярность или индекс цитирования.

14.3.3Критерии качества работы поисковых систем

Основными критериями качества работы поисковой машины являются:

полнота базы;

релевантность, т.е. степень соответствия запроса и найденного;

учёт морфологии языка;

ранжирование;

скорость поиска;

наглядность

Полнота представляет собой отношение количества найденных по запросу документов к общему числу документов в Интернете, удовлетворяющих данному запросу. Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание "Красная площадь", а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7. Чем полнее поиск, тем больше вероятность, что пользователь сможет найти нужный ему документ.

Полнота поиска в большой мере зависит от работы системы сбора и обработки информации. В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой, что достигается за счет параллельного исполнения задачи произвольным количеством машин.

Релевантность определяется как степень соответствия найденных документов запросу пользователя. Например, если по запросу "Красная площадь" находится 150 документов, в 70 из них содержится словосочетание "Красная площадь", а в остальных просто присутствуют эти слова, например: "красная баба кричала на всю площадь", то точность поиска считается равной 70/150 (~0,5). Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше "мусора" среди них встречается.

165

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

На повышение точности в поисковой машине существенно влияет учёт морфологии языка, в частности распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Например, существительное "бор": хвойный лес, стальное сверло или химический элемент; существительное русская "печь" и глагол "печь" пирожки; прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов.

Омонимы не только увеличивают размер индексной базы, но и отрицательно сказываются на релевантности. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом.

Огромную роль в повышении релевантности поиска играет ранжирование. Пользователь очень редко просматривает больше трех страниц с результатами поиска. Поэтому субъективно он оценивает точность по "верхним" документам. Даже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем.

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, в день к поисковой машине Яндекс приходит около 50 миллионов запросов. Такая загруженность требует сокращения времени обработки отдельного запроса. Схематично обработка поискового запроса Google изображена на рисунке 14.6.

Наглядность представления результатов очень важна для поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного. Для этого используется:

группировка по сайтам - чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя.

показ имени сайта.

цитата помогает определить, насколько полезную информацию содержит найденный документ.

сохраненная копия - иногда единственный способ получить доступ к содержимому найденного документа, который по разным причинам может быть недоступен.

166

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Рис. 14.6

Крупнейшая поисковая система Google, по данным 2008 года, насчитывала около 2 миллионов серверов, расположенных в 40 дата-центрах по всему миру, рис.14.7.

Рис. 14.7

Рис. 14.8

Популярные в России поисковые машины:

Яндекс (46,3 %), рис 14.8.

Google.ru (34,4 %)

167

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Mail.ru (8,9 %)

Rambler (3,3 %)

Bing (0,9 %)

QIP.ru (0,6 %)

Nigma (0,5 %)

Yahoo! (0,2 %)

Gogo.ru (<0,1 %)

Aport (<0,1 %)

Из перечисленных поисковых систем не все имеют собственный поисковый алгоритм

— так Mail.ru и QIP.ru используют поисковый механизм Яндекса, а Nigma сочетает в себе как свой алгоритм, так и сборную выдачу от других поисковиков.

Мощности дата-центров постоянно растут, так Google разработала концепцию размещения серверных стоек в специальных контейнерах, по 1000 серверов в одном контейнере, рис 14.9. В дата-центре устанавливаются 50 таких контейнеров, подводится мощное электропитание, как для среднего города, водяное охлаждение и высокоскоростные Интернет-каналы рис. 14.10.

Рис. 14.9

Уже разрабатываются проекты датацентров, вмещающих до одного миллиона серверов, рис.14.11. На территории 2,5 гектара расположатся 400 контейнеров. Доставляемые на грузовиках-траках, эти контейнеры подключаются к основной инфраструктуре дата-центра, обеспечивающей каналы связи, электропитание и водоснабжение.

Рис. 14.10

Каждый контейнер, содержит 2500 серверов. Система теплообмена основана на водяном охлаждении, которое требует меньше энергии, чем традиционные чиллеры и более эффективно. Тепло от контейнеров отводит вода, исключая потребность в обычном, воздушном кондиционировании. Две электроподстанции общей мощностью в 300 МВт обеспечивают потребности дата-центра в энергии. При этом 200 МВт будет потребляться ИТ-оборудованием, а оставшиеся 100 МВт предусмотрены на нужды инфраструктуры. Для резервного электропитания служат батареи аккумуляторов и генераторы.

168

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

Рис. 14.11

14.4Вопросы для самоконтроля

1.Как работает DNS?

2.Зачем нужны доменные имена?

3.Какая организация ответственна за регистрацию доменов верхнего уровня?

4.В чем отличие Всемирной паутины от Интернета?

5.Для чего предназначена служба WWW?

6.В чем отличие HTML от HTTP?

7.Назовите отличия основных структур Веб-узлов.

8.Для чего предназначен HTML?

9.Что такое тело HTML-документа?

10.Из каких компонентов состоят поисковые системы?

11.Что такое релевантность?

12.Каким образом поисковые системы ранжируют документы?

13.Как поисковые алгоритмы учитывают значимость документов, Веб-страниц?

169

ГОУ СПО «Самарский государственный профессионально-педагогический колледж»

14.Каким образом поисковые системы обеспечивают высокую скорость поиска информации?

15.Для чего необходим учет морфологии языка?

16.Какие факторы влияют на полноту поисковой базы?

17.Каким образом повышается наглядность представления найденных результатов?

170

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]