Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции / Шпоры_ИнфТвПр.docx
Скачиваний:
54
Добавлен:
28.12.2014
Размер:
1.35 Mб
Скачать
  1. Организация обмена информацией в Интернет: адресация, протокол обмена.

Взаимодействие клиент-сервер происходит по определенным правилам, или, как говорят иначе, по протоколу. Что касается протоколов, то в Интернете используются несколько типов протоколов, появлявшихся с течением времени и связанных с развитием компьютерных технологий.

При обмене данных в сети Интернет необходимо обеспечить соединение клиента и сервера. Но знать только IP адрес компьютера еще недостаточно, т.к. в конечном счете обмениваются информацией не компьютеры сами по себе, а приложения, работающие на них. А на компьютере может одновременно работать сразу несколько приложений (например почтовый сервер, веб-сервер  и пр.).

Для доставки обычного бумажного письма недостаточно знать только адрес дома — необходимо еще знать номер квартиры. Также и каждое программное приложение имеет подобный номер, именуемый номером порта. Большинство серверных приложений имеют стандартные номера, например: почтовый сервис привязан к порту с номером 25 (еще говорят: «слушает» порт, принимает на него сообщения), веб-сервис привязан к порту 80, FTP - к порту 21 и так далее

В Интернет используется семейство протоколов TCP/IP (Transmission Control Protocol/Internet Protocol, протокол управления передачей /протокол Интернета) – являющийся стандартом для передачи данных между сетями, в том числе в Интернете.

Протокол TCP (протокол управления передачей) разбивает информацию на порции (пакеты) и нумерует их. Затем протокол IP (протокол Интернета) добавляет к каждой порции служебную информацию с адресами отправителя и получателя и обеспечивает доставку всех пакетов.

Благодаря такому способу передачи информации, в Интернете, как и в обычной почте, нет понятия "занято" – каждый компьютер может одновременно принимать пакеты от большого количества других компьютеров. В этом случае нет необходимости устанавливать отдельный канал связи межу двумя компьютерами.

Для каждого из ресурсов Интернета существует свой протокол. Протоколы ресурсов Интернета называются прикладными протоколами, все они используют TCP/IP в качестве протокола транспортного уровня.

К ним относятся текстовый протокол telnet, файловый протокол ftp, протокол телеконференций Usenet, протокол баз данных wais, протокол gopher и др.

TCP/IP — это название набора сетевых протоколов. На самом деле передаваемый пакет проходит несколько уровней. (Как на почте: сначала вы пишете письмо, потом помещаете в конверт с адресом, затем на почте на нем ставится штамп и т.д.).

IPпротокол — это протокол так называемого сетевого уровня. Задача этого уровня — доставкаIP-пакетов от компьютера отправителя к компьютеру получателю. Помимо собственно данных, пакеты этого уровня имеютIP-адрес отправителя иIP-адрес получателя. Номера портов на сетевом уровне не используются. Какому порту, т.е. приложению адресован этот пакет, был ли этот пакет доставлен или был потерян, на этом уровне неизвестно — это не его задача, это задача транспортного уровня.

TCP и UDP— это протоколы так называемого транспортного уровня. Транспортный уровень находится над сетевым. На этом уровне к пакету добавляется порт отправителя и порт получателя.

TCP — это протокол с установлением соединения и с гарантированной доставкой пакетов. Протокол TCP (протокол управления передачей) разбивает информацию на порции (пакеты) и нумерует их. Затем протокол IP (протокол Интернета) добавляет к каждой порции служебную информацию с адресами отправителя и получателя и обеспечивает доставку всех пакетов.

Можно интерпретировать работу ТСР так. Сначала производится обмен специальными пакетами для установления соединения, происходит что-то вроде рукопожатия (Привет. -Привет. -Поболтаем? -Давай.). Далее по этому соединению туда и обратно посылаются пакеты (идет беседа), причем с проверкой, дошел ли пакет до получателя. Если пакет не дошел, то он посылается повторно («повтори, не расслышал»).

UDP — это протокол без установления соединения и с негарантированной доставкой пакетов. (Типа: крикнул что-нибудь, а услышат тебя или нет — неважно).

Над транспортным уровнем находится прикладной уровень. На этом уровне работают такие протоколы, как HTTP и FTP  и пр. Например, HTTP и FTP — используют надежный протокол TCP, а DNS-сервер работает через ненадежный протокол UDP.

Благодаря такому способу передачи информации, в Интернете, как и в обычной почте, нет понятия "занято" – каждый компьютер может одновременно принимать пакеты от большого количества других компьютеров.

В этом случае нет необходимости устанавливать отдельный канал связи межу двумя компьютерами.

Протокол, принятый в WWW, называется HyperText Transfer Protocol, сокращенно – HTTP. Указанием на него в адресе ресурса является обозначение http (англ. Hyper Text Transfer Protocol гипертекстовый протокол передачи данных). HTTP (HyperText Transfer Protocol, протокол передачи гипертекста) – протокол, который использует Web-клиент для получения Web-страницы с Web-сервера.

Этот протокол для передачи гипертекста в Сети был предложен швейцарским физиком Тимом Бернерсом-Ли (Tim Berners-Lee) в 1989 году.

  1. Основные сервисы (службы интернета), их классификация.

Самым популярным ресурсом Интернета является всемирная паутина или WWW, которая представляет собой огромное количество (свыше миллиарда) мультимедийных документов, отличительной особенностью которых кроме прекрасного внешнего вида является возможность ссылаться друг на друга. Это означает присутствие в текущем документе ссылки, реализующей переход на любой документ WWW, который физически может быть размещен на другом компьютере сети Интернет. WWW (World Wide Web, всемирная паутина) – совокупность взаимосвязанных гипермедийных документов.

Следующим ресурсом сети является FTP, который является хранилищем и системой пересылки всевозможных файлов. FTP (File Transfer Protocol, протокол передачи файлов) – хранилище и система пересылки всевозможных файлов.

Старейшим ресурсом Интернета является E-mail (электронная почта). E-mail (электронная почта) – система пересылки электронных писем. Существует даже специальное, более дешевое почтовое подключение к Интернету, обеспечивающее подключение только к e-mail.

Для ведения дискуссий в сети предназначена глобальная распределенная система под названием Группы новостей. Группы новостей – глобальная распределенная система для обмена сообщениями и ведения дискуссий. Одной из самых популярных систем подобного рода являются группы новостей Usenet.

Служба telnet позволяет вам подключиться к удаленному компьютеру и работать с его ресурсами. Telnet – сервис для удаленного управления компьютерами. Однако чаще всего такие компьютеры работают под управлением того или иного варианта операционной системы Unix (Юникс), поэтому в настоящее время эта служба используется прежде всего системными администраторами.

Наконец, в Интернете есть система IRC (Chat), реализующая живое общение пользователей в реальном режиме времени посредством ввода текста с клавиатуры. IRC (Chat) – служба для живого общения пользователей Интернета в реальном режиме времени посредством ввода текста с клавиатуры.

При подключении локальной сети к глобальной важную роль приобретает обеспечение безопасности данных. Для обеспечения сетевой безопасности между локальной и глобальной сетью устанавливают специальный компьютер или программу (брандмауэр), ограничивающую доступ в локальную сеть извне и несанкционированный выход за пределы локальной сети.

В Интернете существуют следующие режимы работы:

On-line – режим работы, означающий непосредственное подключение к сети на все время запроса, поиска, обработки, получения и просмотра информации.

В таком режиме работают большинство служб Интернета, например, WWW.

Off-line – режим работы, подразумевающий подключение к сети только на время отправки запроса или получения информации по запросу режим работы. В таком режиме работает, например, электронная почта.

  1. Информационные ресурсы интернет. Всемирная паутина WWW. Классификация сайтов.

Можно рассматривать WWW как единое распределенное информационное пространство, состоящее из сотен миллионов гипермедийных документов.

Понятие гипермедиа означает объединение двух понятий: мультимедиа и гипертекст.

Мультимедиа – документ включает в себя не только текст, но и двух- и трехмерную графику, видео и звук.

Информация в WWW представляется в виде документов, каждый из которых может содержать как внутренние перекрестные ссылки, так и ссылки на другие документы, хранящиеся на том же самом или на любом другом сервере.

Гипертекст – множество отдельных документов (страниц), которые имеют ссылки друг на друга. Гипертекстовая ссылка – выделенная часть документа, реализующая переход к другому документу. Реализуется в виде подчеркнутого текста, кнопки или картинки.

Таким образом, все пространство WWW состоит из документов, называемых Web-страницами.

Web-страница – документ в WWW, содержащий:

  • форматированный текст;

  • мультимедийные объекты (графика, звук, музыка, видеоклипы);

  • ссылки на любой файл или на другую Web-страницу;

  • активные компоненты, способные выполнять работу на компьютере клиента по заложенной в них программе.

Пожалуй, в рамках одной единственной страницы трудно изложить информацию даже об отдельной личности, поэтому, как правило, информацию представляют в виде набора из нескольких десятков или сотен, связанных вместе единой темой, общим стилем оформления и взаимными гипертекстовыми ссылками. Такой набор называется Web-site или Web-узел.

Web-site (Web-узел, Web-сайт) – группа Web-страниц, связанных вместе единой темой, общим стилем оформления и взаимными гипертекстовыми ссылками.

Каждый Web-узел имеет свою стартовую страницу, которая называется начальной или домашней или Home Page.

Home Page – начальная (домашняя) страница какого-либо Web-узла.

Обычный Web-узел отправляет запрошенный документ только по обращению клиента. В WWW существуют Web-узлы, способные самостоятельно передавать обновленную информацию при условии регистрации и подписки клиента.

Web-канал – Web-узел, способный автоматически в заданное время передавать обновленную информацию на компьютер зарегистрированного клиента.

Рассмотрим, как реализована технология клиент/сервер применительно к всемирной паутине. Для полной характеристики ресурса нужна связка клиент-сервер-прикладной протокол. Многочисленные Web-узлы и Web-страницы хранятся на огромном множестве так называемых WWW-серверов, то есть компьютеров, на которых установлено специальное программное обеспечение.

Web-сервер – программа, позволяющая хранить и пересылать Web-страницы. Пользователи, имеющие доступ к сети, получают эту информацию при помощи программ-клиентов для просмотра Web-документов, которые получили специфическое название Web-браузеры (броузеры, обозреватели).

Web-browser (браузер) – программа-клиент для навигации в WWW и просмотра Web-страниц.

При этом браузер посылает по компьютерной сети запрос Web-серверу, хранящему файл с необходимым документом. В ответ на запрос сервер высылает программе просмотра требуемый файл или сообщение об отказе, если файл по тем или иным причинам недоступен. Взаимодействие клиент-сервер происходит по определенным правилам, или, как говорят иначе, по прикладному протоколу. Протокол, принятый в WWW, называется HyperText Transfer Protocol, сокращенно – HTTP.

HTTP (HyperText Transfer Protocol, протокол передачи гипертекста) – протокол, который использует Web-клиент для получения Web-страницы с Web-сервера. Этот протокол для передачи гипертекста в Сети был предложен швейцарским физиком Тимом Бернерсом-Ли (Tim Berners-Lee) в 1989 году.

Пользователь на своем компьютере запускает программу-клиент для всемирной паутины (браузер) и вводит запрос к серверу в виде адреса конкретной размещенной на нем Web-страницы. Запрос, преобразованный с помощью протокола HTTP, передается серверу,который высылает желаемый документ по протоколу HTTP. Получив Web-страницу, браузер показывает ее пользователю.

WWW-документ может содержать стилизованный и форматированный текст, графику и гиперсвязи с различными ресурсами Internet. Чтобы реализовать все эти возможности, был разработан специальный язык, названный HyperText Markup Language (HTML), то есть, Язык Разметки Гипертекста.

HTML (HyperText Markup Language, язык разметки гипертекста) –специальный язык описания WWW-документов. Описание Web-страницы на HTMLпредставляет собой набор инструкций, интерпретируемый программой-браузером.

Документ, написанный на HTML, представляет собой текстовый файл,содержащий собственно текст, несущий информацию читателю, и теги разметки (markuptags). Последние представляют собой определенные стандартом HTML последовательности символов, являющиеся инструкциями для программы просмотра; согласно этим инструкциям программа располагает текст на экране, включает в него рисунки, хранящиеся в отдельных графических файлах, и формирует гиперсвязи с другими документами или ресурсами Internet. Таким образом, файл на языке HTML приобретает облик Web-документа только тогда, когда он интерпретируется браузером.

Всем пользователям компьютера хорошо знакомо понятие полного имени файла на локальном компьютере, которое включает в себя краткое имя файла с расширением и полный путь к файлу, начиная с имени устройства. Таким образом, мы однозначно идентифицируем файл в пределах данного компьютера.

Каждый файл в Интернете также имеет свой уникальный адрес. Он называется URL. URL (Universal Resource Locator, универсальный указатель ресурсов) – адрес любого файла в Интернете. Кроме адреса компьютера содержится указание о протоколе, по которому нужно обращаться к файлу, какую программу-сервер на сервере запустить и к какому конкретному файлу следует обратиться.

Общий вид URL:

протокол://адрес_сервера:порт/имя_каталога/имя_файла

Рассмотрим примеры URL:

http://www.microsoft.com – обращение по протоколу HTTP к начальной (домашней) странице Web-сервера коммерческой фирмы Microsoft в США. Здесь самый левый домен в адресе www сразу указывает на тип информации.

ftp://www.comp.ru/business/index.html – адрес файла index.html, расположенного в каталоге business на сервере www.comp.ru в России, к которому нужно обращаться по протоколу передачи файлов ftp.

  1. Основные возможности браузеров. Просмотр и сохранение информации.

Веб-обозрева́тель, бра́узер (от английского Web browser; вариант броузер — устаревшая форма) - программное обеспечение для просмотра веб-сайтов, то есть для запроса веб - страниц преимущественно из сети), их обработки, вывода и перехода от одной страницы к другой.

Ныне браузер — комплексное приложение для обработки и вывода разных составляющих веб-страницы и для предоставления интерфеса между веб-сайтом и его посетителем. Практически все популярные браузеры распространяются бесплатно или «в комплекте» с другими приложениями:

в 1996 году был разработан Internet Explorer, браузер корпорации Microsoft;

Mozilla Firefox (бесплатно, свободное ПО);

Safari (бесплатно для Microsoft Windows);

Opera (бесплатно начиная с версии 8.50;

Google Chrome (бесплатно).

В настоящее время Протокол HTTP, язык разметки гипертекстов HTML, браузеры и веб-серверы беспрестанно совершенствуются, открывая перед своими пользователями все новые и новые возможности.

Сначала пользователь в специальном адресном поле, которое называется Адрес или Location, вводит адрес (URL) ресурса, к которому хочет получить доступ.

Если все в порядке, адрес правильный, сервер работает и требуемый файл на нем имеется, вам через некоторое время в зависимости от качества вашего подключения доставят страницу и браузер постарается ее отобразить в главном окне.

Далее все определяется содержимым Web-документа. Содержащиеся в полученной веб-странице текстовые гиперссылки, как правило, выделяются другим цветом и подчеркиваются.

Ссылки, указывающие на ресурсы, которые пользователь еще не просматривал, и ссылки на уже посещенные ресурсы обычно имеют разный цвет. В качестве гиперссылки могут служить рисунки и всевозможные кнопки. Отличительной особенностью ссылки является превращение курсора мыши в указующий перст при наведении на гиперссылку. При этом в строке состояния браузера появится адрес, на который указывает ссылка.

Это замечательно, поскольку по адресу можно сразу сориентироваться, находится ли ресурс на том же сервере или нет, а также определить действие по выбору гиперссылки. Если это ссылка на Web-страницу, она будет загружена вместо текущей. Таким образом, выбирая щелчком мыши заинтересовавшие вас ссылки, вы совершаете навигацию или путешествие по всемирной паутине.

При этом браузер на всякий случай сохраняет файлы с просмотренных страниц в специально отведенном на диске локального компьютера месте, называемом дисковым кэшем. Именно по этой причине у вас есть возможность быстрого перехода между посещенными в данном сеансе станицами с помощью кнопок Назад (Back) или Вперед (Forward), имеющимися в наличии у любого браузера.

В общем случае гиперссылки могут указывать на документы разных типов. Если ссылка указывает на html-документ, он будет загружен в текущем окне браузера. Если ваш браузер не способен отображать файлы определенного типа, например, архивные файлы в формате *.ZIP, при щелчке на ссылку вида http://www.it.belsut.gomel.by/~kit/kit_lab1.zip запускается мастер загрузки файла, предлагающий открыть файл или сохранить его на локальном диске. Поскольку открытие означает возможный запуск файла, если он является исполняемым, надежнее выбрать сохранение файла на диске. После указания папки, в которой сохранять файл, начнется процесс загрузки, который идет параллельно работе других приложений.

Браузер может работать не только с Web-серверами, но и с серверами сервиса FTP. Поэтому при выборе ссылки вида ftp://ftp.it.belsut.gomel.by в текущем окне откроется содержимое папки FTP-архива файлов. Как правило, вместе с браузером на компьютер обычно устанавливается программа-клиент для пользования электронной почтой и чтения новостей. Поэтому, если ссылка выглядит как mailto:Webmaster@it.belsut.gomel.by, при ее выборе запускается прописанный в браузере почтовый клиент, и Вы сможете написать электронное письмо по указанному в ссылке адресу.

При выборе ссылки вида news://it.belsut.gomel.by запускается программа-клиент для чтения новостей с предложением загрузить список групп новостей, поддерживаемых сервером.

Если загруженная Web-страница отображается неправильно или не полностью, и его перезагрузка (с помощью кнопки Обновить) не помогает, то один из возможных источников проблем – несовместимость загружаемого вами документа с типом или версией браузера, которым вы пользуетесь.

Сохранение информации

Как уже известно, Web-страница – это, документ, написанный на языке HTML, который просто интерпретируется браузером. При попытке посмотреть исходный текст Web-страницы, вы увидите набор команд (тегов), указывающих либо на способ отображения текста, либо содержащие ссылки на внешние мультимедийные файлы. Именно поэтому до недавнего времени стандартной командой Файл / Сохранить как... нельзя было сохранить полностью всю Web-страницу на локальном диске для последующего просмотра в автономном режиме, то есть при отключении от сети.

В настоящий момент браузеры сохраняют Web-страницу целиком, создавая для нее на локальном диске специальную папку, куда переписываются все файлы со страницы.

Некоторые серверы подкачивают информацию на страницу динамически из базы данных. В этом случае самым надежным способом сохранения нужной информации является предварительное ее выделение протяжкой мыши и последующее копирование в буфер обмена командой Правка / Копировать.

Из буфера обмена информацию можно немедленно вставить в документ процессора MS Word. Тогда вы сразу увидите результаты копирования и гарантированно сохраните информацию в MS Word в нужно м вам формате.

Для сохранения отдельных мультимедийных объектов нужно использовать команду Сохранить из контекстного меню, вызванного для данного объекта.

Основными графическими форматами в Интернете являются GIF и JPEG (расширения файлов *.GIF и *.JPG).

Эти форматы используют специальные архиваторы для значительного сжатия информации, поэтому размер GIF-файла существенно меньше размера графического файла в формате Windows BMP. Просматривать сохраненный рисунок можно с помощью браузера или мощного графического редактора, понимающего указанные форматы.

  1. Поиск в Интернет. Каталоги. Информационно-поисковые системы. Механизмы поиска в Интернет.

Рассмотрим постановку задачи поиска в общем виде. Для этого нам необходимо ответить на три вопроса: что искать, то есть, какие источники информации, где искать(места размещение этих источников) и как искать (какие инструменты для этого использовать).

Выделим основные источники информации, представленные в Интернете. Это документы WWW, статьи в группах новостей и списках рассылки, файлы в библиотеках файлов, справочники адресной информации организаций и людей (электронная почта, адрес, телефон), статьи в тематических базах данных, энциклопедиях. Обратите внимание на то, что перечисленный список не претендует на полноту.

Теперь отвечаем на вопрос, где эти источники информации размещаются. Этот такие популярные ресурсы Интернет, как WWW, группы новостей, списки рассылки и FTP-серверы.

Безусловно, можно искать нужные источники информации вручную, узнавать адреса из специализированных журналов по информатике и Интернету, использовать специальные бумажные справочники с классифицированными по категориям адресами.

Однако для такого изменчивого пространства как Интернет необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах и предоставлять пользователям услугу быстрого поиска.

Таким образом, мы подходим к понятию автономного инструмента поиска – информационно-поисковой системы. Введем определение.

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Кроме того, ИПС также могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределенных источников информации.

Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования.

Индексирование – описание источников информации и построение специальной базы данных (индекса) для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС второго типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска).

3.2 Информационно-поисковые системы

Основным компонентом ИПС является поисковая машина, которая служит для перевода запроса пользователя в формальный запрос системы, поиска ссылок на информационные ресурсы и выдачи результатов поиска пользователю.

Как уже говорилось ранее, поиск осуществляется в специальной базе, именуемой индексом. Архитектура индекса устроена таким образом, чтобы поиск проходил максимально быстро, и при этом можно было отследить ценность каждого из найденных ресурсов. Некоторые системы сохраняют запросы пользователя в его личной базе данных, поскольку на отладку каждого запроса уходит много времени, и чрезвычайно важно хранить запросы, на которые получен удовлетворительный ответ.

Робот-индексировшик – программа, которая служит для сканирования Интернет и поддержки базы данных индекса в актуальном состоянии.

Web-сайты – те информационные ресурсы, доступ к которым обеспечивает ИПС.

Как известно, Web-страница – это сложный документ, состоящий из множества элементов. При описании подобного документа программой-роботом необходимо учитывать, в какой именно части Web-страницы встретилось данное слово. Источниками индексирования для документов WWW являются:

  • Заголовки (Title).

  • Заглавия.

  • Аннотация (Description).

  • Списки ключевых слов (KeyWords).

  • Гипертекстовые ссылки.

  • Полные тексты документов.

Кстати, поисковые системы, которые описывают абсолютно весь текст документа WWW, называются полнотекстовыми.

Для того, чтобы описать файл в ресурсе FTP используется URL. Для описания статьи в группе новостей источниками индексирования являются поля Тема (Subject) и Keywords (ключевые слова).

Во время процедуры индексирования часто производится нормализация лексики (приведение слова к базовой форме), некоторые неинформативные слова, например, союзы или предлоги, игнорируются. В каждой ИПС существует свой список называемых стоп-слов, которые игнорируются в процессе индексирования. В системах с сильно изменяемыми языками, например, русским, проводится учет морфологии.

Учет морфологии означает умение работать с различными формами слов конкретного языка.

Здесь следует отметить достаточную сложность русского языка, слова которого изменяются по числам, падежам, родам и временам, причем зачастую неожиданным образом. Например: идет, шел, пойдет, идут и т.д. Все существующие ИПС с учетом морфологии русского языка используют "Грамматический словарь русского языка", составленным Андреем Анатольевичем Зализняком. Словарь включает 90000 словарных статей, по каждому слову даются сведения о том, изменяемо ли оно, и как именно оно склоняется или спрягается.

Из вышеизложенного следует, что основными инструментами поиска информации в WWW являются ИПС.

Однако в Интернет существуют средства поиска, имеющие принципиальные отличия от рассмотренных выше ИПС. В общем случае, можно выделить следующие поисковые инструменты для WWW:

  • поисковые системы,

  • метапоисковые системы и программы ускоренного поиска.

Центральное место по праву принадлежит поисковым системам, которые в свою очередь подразделяются на каталоги, автоматические индексы (поисковые машины) и каталоги-индексы. Только поисковые системы почти в полном объеме обладают возможностями и свойствами ИПС.

Каталог – поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Классификация, как правило, проводится людьми.

Рассмотрим особенности систем-каталогов.

Поиск в каталоге очень удобен и проводится посредством последовательного уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или страницы по ключевым словам с помощью локальной поисковой машины.

База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации) документов с гипертекстовой ссылкой на первоисточник.

Среди самых популярных зарубежных каталогов можно упомянуть: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Российские каталоги: @Rus (www.atrus.ru); Weblist (www.weblist.ru); Созвездие интернет (www.stars.ru).

Поисковая система – система с формируемой роботом базой данных, содержащей информацию об информационных ресурсах.

Отличительной чертой поисковых систем является тот факт, что база данных, содержащая информацию об Web-страницах, статьях Usenet и т.д., формируется программой-роботом. Поиск в такой системе проводится по запросу, составляемому пользователем, состоящему из набора ключевых слов или фразы, заключенной в кавычки. Индекс формируется и поддерживается в актуальном состоянии роботами-индексировщиками.

Зарубежные поисковые машины (системы):

Google - www.google.com (примерно 38% охвата русскоязычных запросов)

Altavista- www.altavista.com

Excite www.excite.com

HotBot - www.hotbot.com

Nothern Light- www.northernlight.com

Go (Infoseek) www.go.com (infoseek.com)

Fast www.alltheweb.com

Российские поисковые машины:

Яndex - www.yandex.ru (или www.ya.ru) (48% охвата русскоязычных запросов)

Рэмблер - www.rambler.ru

Апорт- www.aport.ru

Метапоисковая система – система, не имеющая своего индекса, способная послать запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.