Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
информационные ресурсы билеты на зачет
Скачиваний:
60
Добавлен:
24.04.2019
Размер:
98.69 Кб
Скачать

20) Автоматический сбор информации специальной программой-роботом — автоматическим индексом. Наиболее известные автоматические индексы в России и за рубежом.

Автоматический индекс состоит из трёх частей:

· программы-робота;

· базы данных, собираемой этим роботом;

· интерфейса для поиска в предметной базе, с которым и работает пользователь.

Все эти компоненты функционируют без вмешательства человека. К автоматическим индексам следует прибегать только тогда, когда ключевые слова точно известны, например, фамилия человека или несколько специфических терминов из соответствующей области. Индексы получают информацию из каждого отдельного узла, регистрируют и индексируют её и добавляют к своим базам данных.

Поисковая машина обычно производит сортировку найденных документов по принципу релевантности.

Рассмотрим, что такое релевантность. При индексации документов поисковые машины высчитывают так называемый «вес» слова на странице - соотношение количества повторов на странице заданного Вами слова к общему количеству слов на странице документа. Если Вы задаете запрос, состоящий из нескольких слов, то более релевантными будут документы, в которых совокупный вес слов будет максимальный. Однако, при подсчете веса не учитывается, рядом или раздельно стоят данные слова, и поэтому нет гарантий, что в первых документах содержится максимальное количество повторений словосочетания. Вполне возможно, что такого словосочетания там вообще не будет.

Поэтому, если Вы хотите найти заданное словосочетание - задавайте запрос в окне поисковой машины в кавычках. В этом случае будет высчитываться вес словосочетания целиком. Соответственно, гарантируется наличие именно данного словосочетания в найденных документах.

Наиболее известные автоматические индексы в России и за рубежом.

В Интернете существует большое число поисковых систем. Как правило, при поиске можно использовать не одну систему, а несколько различных. В этом случае вероятность того, что искомая информация будет найдена, выше, поскольку разные системы используют разные алгоритмы поиска. 1. http://www.yandex.ru (российский, так что наиболее известен именно в России)

2. http://www.list.ru

3. http://www.google.ru

4. http://www.rambler.ru 5. http://www.yahoo.com (американская)

21.Технология поиска

Технология поиска означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Для ориентации в веб-пространстве существуют поисковые инструменты ― особое программное обеспечение, основная цель которого – обеспечить наиболее оптимальный и качественный поиск информации для пользователей Интернета.

Основная функциональная возможность поисковой системы заключается в обеспечении пользователей системой для поиска нужной информации. Для удовлетворения интернет-пользователей разработчики поисковиков постоянно совершенствуют используемые принципы и алгоритмы, добавляют новые возможности и функции. Они ускоряют работу системы и упрощают поиск.

Также поисковые системы осуществляют:

· сбор статистики – работы определяют число страниц на сервере, файлы, содержащиеся на нем, средний размер страниц, их соотношение;

· обслуживание – они собирают информацию об обновленных документах, неисправных ссылках и др.;

· поиск новых ресурсов.

Функциональные возможности поисковых систем можно разделить на три группы:

1 группа: функции, которые включены неявно или явно в основном режиме поиска и привязаны к ядру поисковой машины.

2 группа: функции, которые включены неявно или явно в основном режиме поиска и НЕ привязаны к ядру ПМ.

3 группа: функции, которые включены неявно или явно в режиме расширенного поиска.

ПОИСК

С расстоянием:

Оператор /n , где n максимальное расстояние между заданными словами

Поиск документов, в которых заданные слова располагаются в пределах n слов друг относительно друга и в обратном порядке следования.

Оператор /(m n), где m — минимальное расстояние между заданными словами, n — максимальное расстояние между заданными словами.

Оператор && /n, где n — максимальное расстояние между предложениями, содержащими слова запроса.

По адресам и ссылкам:

url: — поиск по страницам, принадлежащим только указанному UR

site: — поиск по страницам, принадлежащим указанному сайту и его поддоменам;

inurl: — поиск по страницам, URL которых содержит указанные после оператора символы;

host: — поиск по страницам, принадлежащим только указанному хосту;

rhost: — действие аналогично оператору «host:». Имя хоста необходимо записать в обратном порядке. В конце имени хоста поддомен можно заменить на *;

domain: — поиск по страницам, принадлежащим указанному домену;

В заданных разделах документа:

title (...) позволяет искать только по названию документа.

heading (...) позволяет проводить поиск по названиям разделов документов.

По датам:

date: — Поиск по страницам с ограничением по дате их последнего изменения. Год изменения указывается обязательно. Месяц и день можно заменить символом *.

Составные:

С целью достижения более релевантных и действенных результатов можно комбинировать все описанные выше операторы языка. К примеру, для того, чтоб найти пример научной работы по любому предмету, необходимо выполнить определенную последовательность действий.

Пример из физики: allintext: определение ускорения свободного падения с помощью оборотного маятника + "практическая работа".

РАНЖИРОВАНИЕ РЕЗУЛЬТАТОВ, ПОШЛИ ОНИ ЗНАЕТЕ КУДА ЭТИ РЕЗУЛЬТАТЫ УЖЕ НЕ НАДО МНЕ ИХ ВОТ ЧТО Я СКАЖУ ЧТОБ ЕЩЁ И РАНЖИРОВАТЬ ИХ

Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса.

Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис: слово:число или (поисковое_выражение):число

Задание уточняющего слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих уточняющее выражение.

Синтаксис: <- слово или <- (уточняющее_выражение)