Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛАБОРАТОРНАЯ РАБОТА 10.docx
Скачиваний:
11
Добавлен:
16.04.2015
Размер:
352.86 Кб
Скачать

10.3.4 Интеллектуальные поисковые системы

Примером интеллектуальной поисковой системы может служить Nigma (www.nigma.ru).

Проект Nigma.ru разрабатывается группой студентов и аспирантов факультетов ВМиК и психологии Московского Государственного Университета им. М.В. Ломоносова. Основное преимущество технологии - наличие искусственного интеллекта, который позволяет группировать найденные сайты в так называемые "кластеры", которые пользователи Nigma.ru видят слева от результатов поиска.

Новая поисковая система передает запрос в известные поисковые системы (Google, Yahoo, MSN, Yandex, Rambler) с поддержкой русской морфологии и выдает результаты поиска с использованием специальных алгоритмов объединения и ранжирования результатов.

Результаты поиска группируются в так называемые "кластеры". Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Используется частотная кластеризация по ключевым словам, поэтому названия кластеров - это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. Интеллектуальный алгоритм объединяет кластеры в иерархию (пока двухуровневую), которая позволяет представить их в более компактном виде.

Кластеризация полученных от внешней поисковой системы документов является первым этапом создания системы, формирующей уточняющие вопросы.

В ближайшее время разработчики планируют расширить поисковую систему экспертными системами, психологическими тестами, системами поведенческого анализа и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п. После создания стабильной версии кода планируется публикация его исходных текстов.

На сайте Nigma.ru можно не только испытать возможности новой системы, но и получить информацию об используемых методах и алгоритмах, познакомиться с публикациями и презентациями по данной тематике.

10.4 Внешний вид поисковых страниц

Внешне главные страницы поисковиков выглядят примерно одинаково и, если не брать во внимание дополнительные сервисы, содержат одни и те же основные элементы. Они естественны и просты. Практически любой человек, попав на первую страницу поисковой системы, может начать с ней работать. Внешний вид первой поисковой страницы для поисковой машины Googleпоказан на рисунке 10.1.

На первой странице поисковой системы мы видим основные элементы поисковых страниц:

  • поле поиска, куда необходимо внести ключевую фразу, при помощи которой мы задаем условия поиска необходимой нам информацию;

  • кнопка «искать», на которую надо нажать для начала поиска;

  • таблица найденных результатов, появляющаяся после того, как поисковая машина выполнила наш запрос.

Поисковые машины не только находят страницы, но и сообщают о находках много ценной информации!

За время существования поисковых машин выработался стандарт выдачи пользователю страниц результатов поиска. Разобравшись в форме выдачи результатов одной поисковой машины, можно уверенно пользоваться остальными поисковиками.

Каждый результат поиска содержит (см. рисунок 10.2):

1. Заголовок найденной страницы.

2. Отрывок из текста страницы, по которому видно, в каком окружении (контексте) используются нужные нам слова. Искомые слова в нем, как правило, выделены жирным шрифтом или отличаются по цвету от основного текста.

3. Полный URL (“UniversalResourceLocator” - адрес в сети Интернет) страницы.

4. Размер страницы, дата последнего изменения (если поисковая машина в состоянии ее определить).

Рисунок 10.1 – Первая страница поисковой машины Google

5. Ссылка на копию страницы в базе поисковой машины. Если документ был изменен или сайт временно не работает, то сохраненная в базе поисковой машины копия вам все равно дает возможность ознакомиться с найденным документом.

6. “Похожие документы”. Некоторые поисковики анализируют содержание найденных по запросу страниц и группируют их по своим, внутренним критериям. Например – по близости словарей страниц, по одинаковым заголовкам, по совпадениям фраз, по количеству синонимов. К сожалению, пока еще данные алгоритмы далеки от совершенства и в “похожих страницах” не очень часто можно найти нечто, что действительно поможет в нашем поиске.

Также, в результатах поиска вы можете увидеть

7. Рубрику каталога или рейтинга поисковой машины (если сайт участвует в каталоге или рейтинге).

Рисунок 10.2 – Один из результатов поиска на запрос «вопросы экономики» в поисковой машине Google

Интернет - гигантское хранилище информации. Множество страниц, ценных и не очень, существуют безо всякого порядка и связанны между собой только случайными ссылками, зависящими от квалификации и личных пристрастий авторов сайтов. Однако пользователю необходимо ориентироваться в этом многообразии и находить, желательно за минуты, необходимую информацию.

В Интернет существует большое количество поисковых систем. По самым скромным оценкам, их более восьми тысяч. Разумеется, важно выбрать поисковую систему, в которой вы собираетесь искать, но и не менее важно правильно сформировать запрос, тогда быстрее будет получена необходимая информация. Вопросам правильного формирования запросов и будет посвящена эта статья.

Все крупные поисковики имеют специальный язык запросов, дающий широкие функциональные возможности для детализации поиска и экономии времени. Знание операторов языка запросов не только существенно облегчит вам жизнь, но и поможет находить информацию, добыть которую только с помощью простых запросов практически невозможно.

Язык запросов - мощный инструмент, который позволяет искать информацию, учитывая следующее:

    • только на определенном сайте (или группе сайтов);

    • опубликованную в строго заданном временном диапазоне;

    • опубликованные на каком-либо из языков (например, русском).

При помощи языка запросов, можно искать текст на определенных участках страниц (в ссылках, в заголовках, в ключевых словах и др.). К сожалению, не существует общепринятого стандарта для операторов языка поисковых систем. Даже для основных операций разные поисковые системы имеют разные обозначения. Некоторые из них показаны в таблице.

Таблица 6 – Обозначение основных операций на популярных поисковых системах

Операторы языка запросов

Rambler

Yandex

Google

Оператор обязательного присутствия

AND или &

& или +

+

Оператор отсутствия слова

NOT или !

-

-

Оператор выбора

OR или |

|

~

Разберем поподробнее каждый из трех основных операторов.

Оператор обязательного присутствия слова в результатах поиска. Все три рассматриваемые поисковые машины выполняют этот оператор по умолчанию. Или, задавая в строке поиска, например, “Булгаков Мастер Маргарита” мы требуем, чтобы поисковик находил страницу, на которой содержатся все три слова.

Оператор отсутствия слова. Найденная страница не должна содержать данное слово. Например, вы ищете книгу Булгакова, но желаете получить текст для чтения, а не предложение купить эту книгу в интернет-магазине. В этом случае логично использовать в теле запроса конструкцию "Булгаков Мастер Маргарита -заказать -магазин". Данный запрос написан на языкеYandex. В поисковой строкеRamblerследовало бы написать "Булгаков Мастер Маргарита !заказать !магазин".

Оператор выбора.Удобно использовать для поиска текста, содержащего слово или его синонимы. Предположим, мы ищем тексты, содержащие упоминание о городе Волгограде. Разумно было бы, для полноты поиска, использовать и его предыдущее название – Сталинград. Вот так будет выглядеть данный запрос на языкеYandexиRambler: “Волгоград |Сталинград”. Следует отметить, что поисковые системы первое слово считают более важным, и в первых строках результатов поиска будут идти строки с «Волгоградом», «Сталинград» же появится только на более глубоких страницах.

Многие поисковые системы позволяют использовать в запросах для группирования круглые скобки.

Другой важный оператор – кавычки, "" - оператор строго соответствия. Сочетание слов, которые вы укажете в кавычках, будет учитываться системой как единое целое, поисковик будет искать все слова именно в данном порядке и без применения морфологического склонения слов. Попробуем найти вRamblerфразу “если не я, так кто же”. Фраза эта специальная, “трудная” для поисковиков т.к. содержит многочисленныестоп-слова. Стоп-слова– это предлоги, частицы, местоимения, которые настолько часто встречаются в тексте, что поиск по ним выдавал бы миллионы страниц и поэтому они, как правило, поисковыми системами игнорируются. Итак, если мы ищем без кавычек – результат поиска выглядит совершенно нерелевантно, похоже на случайный набор страниц (может быть это страницы пользователей, оплативших рекламу на поисковой системе). Если ищем с кавычками найдено то, что нужно. Обратите внимание если не поставить запятую в этой фразе, то ищется вроде бы та же самая фраза, кавычки стоят, но не найдено ни одного документа. В чем же причина? В запятой. Поисковые системы ищут полное совпадение фразы, заключенной в кавычки, вплоть до знаков.

Более подробно с операторами языка запросов поисковых систем можно ознакомиться на специальных страницах, описывающих их работу. Использование языка запросов очень сокращает время поиска. Однако, досконально знать язык запросов совсем не обязательно! Хотя языки поисковых запросов не очень сложны, ими редко пользуются. Очень хорошо, что на многих поисковых системах существуют расширенные формы запросов, заполнив которые, вы формируете сложный запрос, даже не имея представления о синтаксисе языка поисковой машины.

Кроме того, очень полезен и поиск в ссылках. Например - вы хотите найти не пространные рассуждения о популярном интернет-пейджере icq, а скачать его. Зайдите на страницу расширенного поиска, ну например, Ramblerили любой другой поисковой системы. Введите в строке поиска "icqdownload". Выберите “поиск в гиперссылках”. То, что вам необходимо, найдется в первых же результатах поиска.