Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Интернет.pdf
Скачиваний:
40
Добавлен:
28.05.2015
Размер:
905.1 Кб
Скачать

3. Поисковые системы

Интернет находится в процессе непрерывного обновления и развития, поэтому в сети нет единого каталога, оглавления или предметного указателя ресурсов. Для поиска информации в Интернет используются службы автоматического поиска поисковые системы (иногда говорят «машины», хотя речь идет о программном обеспечении).

Собирает сведения о ресурсах Интернет, применяя свои уникальные методы, и формирует собственную периодически обновляемую базу данных. Каждая поисковая система. Доступ к этой базе предоставляется пользователю.

Поисковые системы реализуют два способа поиска ресурса:

Поиск по тематическим каталогам информация представляется в виде иерархической структуры. На верхнем уровне общие категории Интернет», «Бизнес», «Искусство» и т.д.), на следующем уровне категории делятся на разделы и т.д. Самый нижний уровень ссылки на конкретные веб-страницы или другие информационные ресурсы.

Рис. 20. Струкура поисковой системы google.ru

Пользователь отправляет поисковой системе запрос, состоящий из ключевых слов, – это поиск по ключевым словам (индексный поиск). Перечень найденных по запросу ресурсов система возвращает пользователю.

Большинство поисковых систем сочетают оба способа поиска.

Поисковые системы могут быть локальными, глобальными, региональными и специализированными.

Наиболее популярны сейчас в русской части Интернет (Рунет) поисковые системы общего назначения Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Google (www.google.com).

Ни одна поисковая система не охватывает все ресурсы Интернет. Большинство поисковых систем реализовано в виде порталов.

Портал (от англ. portal – главный вход, ворота) – это веб-сайт, который интегрирует различные сервисы Интернет: средства поиска, почту, новости, словари и т.д.

31

PDF created with pdfFactory Pro trial version www.pdffactory.com

1. Поиск по ключевым словам

Критерием поиска или темой поиска называют также набор ключевых слов, по которым ведется поиск,.

Запрос может состоять как из одного слова, так и из сочетания слов, объединенных операторами символами, по которым система определяет, какое действие ей нужно произвести. Например: запрос «Москва Томск» содержит оператор И (так воспринимается пробел), который указывает, что надо искать документы, в которых есть оба слова и Москва, и Томск.

Для того чтобы поиск был релевантным (от англ. relevant – уместный, относящийся к делу), следует учитывать несколько общих правил:

Независимо от того, в какой форме употреблено слово в запросе, поиск учитывает все его словоформы по правилам русского языка. Например, по запросу «билет» будут найдены и слова «билетом», «билету» и т.д.

Чтобы не просматривать лишние ссылки, заглавные буквы следует использовать только в именах собственных. По запросу «кузнецов», например, будут найдены документы, где говорится и о кузнецах, и о Кузнецовых.

Желательно сужать круг поиска, используя несколько ключевых слов.

Если нужного адреса нет среди первой двадцатки найденных адресов, следует изменить запрос.

Прежде чем менять запрос, надо проверить орфографию, если по запросу не найдено ни одной ссылки,

Ввести

 

 

 

 

 

 

Просмотреть первые

 

 

 

 

 

Не найдено

запрос

 

 

 

20 ссылок из списка

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдено!!!

 

найденных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Изменить условия поиска

 

 

 

 

 

 

 

 

 

 

Ссылок

 

 

 

 

Ссылок

мало?

 

 

 

 

много?

Проверить орфографию Убрать необязательные слова Использовать операторы *, ?

Включить дополнительные слова Использовать операторы НЕ , " "

Рис. 21. Схема поиска через поисковые системы

Каждая поисковая система использует свой язык запросов. Пользуйтесь встроенной справкой поисковой системы для знакомства с ним.

В пределах своих веб-страниц крупные сайты могут иметь встроенные системы поиска информации.

Запросы в подобных системах поиска, как правило, строятся по тем же правилам, что и в глобальных поисковых системах, но знакомство со справкой и здесь не будет лишним.

32

PDF created with pdfFactory Pro trial version www.pdffactory.com

2.Расширенный поиск

Враспоряжение пользователя поисковые системы могут предоставлять механизм, который позволяет формировать сложный запрос. Переход по ссылке Расширенный поиск дает возможность редактировать параметры поиска, указывать дополнительные параметры и выбирать наиболее удобную форму показа результатов поиска. Ниже описаны параметры, которые могут быть заданы при расширенном поиске в системах.

Где искать ключевые слова (заголовок документа, основной текст и т.д.)?

Какие слова должны или не должны присутствовать в документе и насколько точным должно быть совпадение?

На каком расстоянии друг от друга должны располагаться ключевые слова?

Ограничение на дату документа?

Ограничение поиска пределами одного или нескольких сайтов?

Поиск страниц со ссылками на определенный сайт и исключение из поиска страниц со ссылками на определенный сайт?

Ограничение поиска по языку документа?

Некоторые поисковые системы позволяют вводить запросы на естественном языке. Вы пишите, что нужно найти (например: заказ билетов на поезд из Москвы в Томск). Система анализирует запрос и выдает результат. Если он Вас не устраивает, переходите на язык запросов.

3. Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, включая знаки препинания. Составлять простые запросы можно, не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга).

Регистр

Воспринимаются одинаково дом и ДОМ, Not и nOt, т. е. в общем случае регистр написания поисковых слов и операторов значения не имеет. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и

автоматически производится изменение ограничения расстояния между словами запроса со значением по умолчанию на величину (n-1)*2, где n – количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного "лишнего" слова или знака препинания, например: "Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Операторы

Состоящий из нескольких слов запрос может содержать операторы. Не производится поиск операторов в документе, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И), – это уже сложный запрос, которому удовлетворяют только те документы, удовлетворяющие одновременно обоим этим запросам. Иными словами, по запросу 'тигр AND лев' найдутся только те документы, которые содержат и слово 'тигр', и слово 'лев'.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, которые удовлетворяют хотя бы одному

33

PDF created with pdfFactory Pro trial version www.pdffactory.com

из этих двух запросов. По запросу 'тигр OR лев' найдутся документы, в которых есть хотя бы одно из слов 'тигр' или 'лев' (либо оба эти слова вместе).

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'собака NOT кошка' будут все документы, в которых есть слово 'собака' и нет слова 'кошка'.

Используется оператор по умолчанию AND, если оператор явно не указан: находятся только документы, содержащие все слова запроса. Так, запрос 'информация технологии кредит' будет истолкован как 'информация AND технологии AND кредит'. Оператор по умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно) на странице Расширенного поиска.

Операторы AND и OR имеют сокращенные обозначения:

Оператор

Сокращенное обозначение

AND &

OR |

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Более высокий приоритет традиционно имеют операторы AND и NOT, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Использовани скобок может изменить порядок группировки.

Кавычки

Двойные кавычки могут быть использованы для поиска цитат. Слова заключенного в двойные кавычки запроса, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе.

Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу 'самолет "заправился" посадка' удовлетворяет документ, содержащий текст '... самолет совершил посадку и заправился ...', и не удовлетворяет документ, содержащий '.. самолет совершил посадку, чтобы заправиться ...'.

Скобки

При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки.

Та часть запроса, которая заключена в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.

Если запрос без скобок 'машина самолет | аэродром' эквивалентен запросу 'машина AND самолет OR аэродром' и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова 'машина' и 'самолет', либо слово аэродром, то запрос со скобками 'машина (самолет | аэродром)' равносилен запросу 'машина AND (самолет OR аэродром)', что означает "найти документы, содержащие слово 'машина' и одно из слов 'самолет' или 'аэродром'".

Применение языка запросов

Каждый адресованный поисковой машине запрос обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, используемая при поиске, – каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют.

Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из нескольких слов,

34

PDF created with pdfFactory Pro trial version www.pdffactory.com

удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Определяется логикой операторов и конструкций языка запросов вопрос соответствия документа более сложному запросу.

Морфология

Поиск ведется с учетом правил словоизменения соответствующего языка по каждому слову запроса. Поисковая система понимает и различает слова русского и английского языков по умолчанию, поиск ведется по всем формам слова.

Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса т.к. они малоинформативны. Это так называемые стоп-слова самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Если вам необходимы эти слова в запросе, то возьмите запрос в двойные кавычки или воспользуйтесь поиском точной фразы в расширенном поиске.

Ограничение расстояния

На запрос, составленный из одного или нескольких слов без применения операторов и конструкций языка запросов, будут найдены документы, в которых встречаются все слова запроса. Положительное число, по умолчанию равное расстоянию в 40 слов для каждого запроса, всегда существует и называется ограничением контекста. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу 'красная армия' будут найдены те документы, в которых слова 'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг от друга.

Значение ограничения контекста можно изменять конструкцией '(число, запрос)', здесь число любое положительное число, запрос любой корректный с точки зрения поисковой машины запрос, который состоит более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу '(2, красная армия)' найдутся только те документы, в которых между словами 'красная' и 'армия' хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1)

Ненайденные слова

Запрос, состоящий из нескольких слов и содержащий такие, которые вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.

4. Поиск – панель Internet Explorer

Искать информацию в Интернет можно с помощью встроенной в Internet Explorer панели Поиск. Открыть панель можно с помощью кнопки Поиск на панели инструментов или с помощью команды Вид/Панели обозревателя/Поиск.

В результате исполнения команды начинает работать одна из веб-страниц поискового сайта Internet Explorer (http:// je.search.msn.com/ru/srchasst/srchasst.htm), позволяющая:

настраивать панель Поиск

формировать запросы

выполнять поиск по запросу, поочередно обращаясь к нескольким поисковым системам (такой поиск называют мультипоиском).

35

PDF created with pdfFactory Pro trial version www.pdffactory.com

порядок

следования

Рис. 22. Поисковая панель Internet Explorer

Настраивают панель, выбирая поисковые системы и определяя порядок их работы (по порядку следования строк), а также выбирая хранить или нет историю запросов для создания запроса и поиска ресурсов:

a.Выберите категорию поиска (поиск веб-страницы или один из десяти предыдущих запросов).

b.Введите запрос (или выберите предыдущий).

c.Нажмите кнопку Поиск. На панели Поиск появятся найденные ссылки. Щелчок по нужной ссылке приведет к загрузке веб-страницы в окно браузера.

d.Если в списке найденных ссылок нет нужной продолжите поиск с помощью другой системы, щелкнув по кнопке Следующий.

Метапоисковые системы это системы поиска, которые не имеют собственной БД.

По запросу пользователя они формируют запросы для нескольких внешних поисковых машин, затем анализируют результаты (отбирая и ранжируя найденные ссылки по собственному алгоритму) и выдают пользователю результат поиска.

5. Сохранение файлов

Из Интернет можно получать (скачивать) файлы документы или программы одного из четырех видов:

Коммерческие программы. Распространяются Интернет-магазинами или производителями ПО за плату.

Демонстрационные версии коммерческих программ. Имеют усеченные возможности. Распространяются производителями ПО бесплатно в рекламных целях.

Условно-бесплатные программы. Коммерческие программы, с которыми можно бесплатно работать ограниченное время. Затем надо заплатить.

Бесплатные программы. Можно получить бесплатно и использовать в течение неограниченного времени.

Загружаемые из Интернет файлы могут содержать вирусы. Чтобы уменьшить вероятность получения вирусов:

Старайтесь загружать как можно меньше бесплатных программ.

Не открывайте файлы, загруженные из сети, до тех пор, пока не проверите их на наличие вирусов.

Следите за обновлением антивирусной программы.

36

PDF created with pdfFactory Pro trial version www.pdffactory.com

Большинство передаваемых по сети файлов сжаты в архив (упакованы) с целью уменьшения размера и, как следствие, времени передачи файла. О способе сжатия можно судить по расширению файла. Наиболее популярны форматы сжатия:

zip для распаковки нужно использовать специальную программу.

ехе – самораспаковывающийся архив. После двойного щелчка по имени файла надо указать папку, в которую автоматически записываются распакованные файлы.

Самоконтроль

1.Что такое каталог ресурсов?

2.Вам нужно найти в Интернете документ с определенной датой создания. Какой способ поиска позволит быстрее найти нужный ресурс?

3.Что такое портал?

4.Какие операторы применяются для построения сложного запроса, состоящего из нескольких слов?

5.Для чего используются в строке поиска кавычки?

6.Какая из поисковых систем охватывает все ресурсы сети Интернет?

7.В каком случае необходимо использовать расширенный поиск?

37

PDF created with pdfFactory Pro trial version www.pdffactory.com