- •13. Поиск и обмен информацией в глобальных и локальных компьютерных сетях
- •13.1. Методы поиска и обмена информацией в глобальных компьютерных сетях
- •12.3.3. Средства навигации в Интернете
- •13.4. Поиск информации в файловой системе Файловая система. Папки и файлы. Имя, тип, путь доступа к файлу.
- •Поиск по атрибутам
- •Выражения
- •Действия
- •Параметры
- •Начало формы
- •Конец формы
- •Как производится чтение и запись на магнитный диск?
- •Как производится адресация на магнитном диске?
- •Что такое сторона диска?
- •Что такое дорожка?
- •Что такое цилиндр?
- •Что такое сектор?
- •Сколько секторов на дорожке жесткого диска?
- •Что такое кластер?
- •Что такое файл?
- •Как осуществляется хранение Файлов?
- •Что такое файловая система?
- •Какие файловые системы существуют?
- •Что такое таблица размещения файлов (fat)?
- •Как хранится информация о файлах в системе ntfs?
- •Каковы допустимые параметры диска при использовании формата fat16?
- •Каковы допустимые параметры диска при использовании формата fat32?
- •В чем преимущества файловой системы fat32 по сравнению с fat 16?
- •Какая файловая система лучше: fat32 или ntfs?
- •В каких случаях целесообразно использование файловой системы fat16?
- •Как узнать, какая файловая система используется на данном диске?
- •Что такое логический диск?
- •Как обозначаются диски, установленные на компьютере?
- •Что такое каталог?
- •Что такое «соглашение 8.3»?
- •Что такое длинное имя файла?
- •Что такое vfat?
- •Как формируется короткое av» файла?
- •Что такое абсолютный путь поиска файла?
- •Что такое относительный путь поиска файла?
- •Как записывается путь поиска файла?
- •Какую информацию о дисках может сообщить операционная система?
- •Что такое метка тома?
- •Как изменить метку тома?
- •13.5. Контрольные вопросы
- •13.6. Литература
13. Поиск и обмен информацией в глобальных и локальных компьютерных сетях
13.1. Методы поиска и обмена информацией в глобальных компьютерных сетях
Информационный поиск
Само понятие информационного поиска появилось только в середине 20 века. В основе этого понятия лежит представление о том, что поиск необходимой информации в любом собрании документов невозможен путем прочтения или даже беглого просмотра текстов всех документов этого собрания.
Прочтение полного текста документа заменяется просмотром заглавий, аннотаций, рефератов. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами (буквами или цифрами). Систематизация по разделам наук – один из первых способов раскрытия содержания документа.
С увеличением объемов документов ввели алфавитно-предметную классификацию.
До середины 20 века в библиотеках, в основном, ограничивались тремя способами: систематическим, предметным и алфавитным. В 50-года сформировалось само понятие информационного поиска.
Информационный поиск – это совокупность логических процедур, в результате которых в ответ на информационный запрос выдается:
- необходимая информация;
- документы, в которых она находится;
- библиографические адреса этих документов.
Информационный поиск реализуется с помощью информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перевода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации (критерий выдачи).
Состав и принципы работы поисковой системы
В России основной поисковой системой является «Яндекс», Google.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».
Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.
Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
URL страницы
дата, когда страница была скачана
http-заголовок ответа сервера
тело страницы (html-код)
Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.
Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов. http://ru.wikipedia.org/wiki/Поисковый_робот
http://download.yandex.ru/company/iworld-3.pdf http://wiki.liveinternet.ru/IR/InvertirovannyjjFajjl