Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Referat_Umanskaya_Anna.docx
Скачиваний:
4
Добавлен:
20.11.2019
Размер:
730.5 Кб
Скачать
    1. История появления и развития поисковых систем

В 1993 году была запущена первая поисковая система «Aliweb», которая работает и сейчас, но, к сожалению уже давно не пользуется популярность ввиду сильного устаревания. В 1994 году, практически сразу после массового распространения Интернета, была создана первая известная поисковая система «Yahoo!».

Основатели и разработчики первых поисковых систем воспользовались методом поиска книг в библиотеках. Они создали тематические каталоги, в категориях которых и располагались нужные сайты. Человек заходил в каталог, выбирал нужную рубрику и получал несколько сайтов по тематике, к ней относящихся. По началу, когда сайтов было не много, все было прекрасно, а потом стало все сложней и сложней отыскать нужный ресурс. Рубрик становилось все больше и больше, вложенность категорий все росла и росла, что сильно осложняло поиск информации.

Постепенно все поисковые системы начали переходить на «поисковые указатели». В отличии от каталогов, поисковые указатели формируют связки «Запрос — ответ», и к «ответам» могли приписываться несколько разных ресурсов. Но впоследствии выяснилось, что это трудно не только для людей, но и для поисковых машин, потому что на любой распространенный запрос «высыпались» сотни тысяч ответов, в которых просто невозможно было разобраться. И именно поэтому возможность выбора поисковиком из этой «горы» информации полезных двадцати-тридцати ссылок и стала определяющей на поисковом рынке. Большинство поисковых систем перешло на четырехэтапную структуру работы. Первые три этапа почти для всех поисковых систем одинаковы. Сначала поисковая система индексирует (собирает) информацию и заносит их в базу данных, потом, с учетом морфологии, разрезает все слова страниц на составляющие. Если человек обращается к поисковому процессору, то в действие вступает третий и четвертый этапы работы поисковой системы, она выбирает из базы абсолютно все документы, соответствующие данному запросу, а потом уже выводит их в зависимости от того, какая страница имеет больший поисковый вес, точность вхождения поисковой фразы, дату обновления и т.д. Такая выборка, на основе многих параметров, называется ранжированием результатов поиска.

Первые механизмы ранжирования документов строились на основе точности вхождения самого текста в поисковый запрос. Но это оказалось неактуальным, потому что степень вхождения поисковой фразы, расположение ее в теле документа или список ключевых слов не давал полного представления о документе. Самый известный класс формул для вычисления веса документа по отношению к запросу называется TF*IDF. TF*IDF — численная мера соответствия слова и документа; она тем больше, чем относительно чаще (TF — частота термина в документе) слово встретилось в документе и относительно реже (IDF — редкость слова; величина, обратная частоте слова в коллекции) в коллекции.

Именно механизмы ранжирования отличают поисковые системы одну от другой. Сейчас каждая поисковая система старается предложить свои механизмы ранжирования документов, чтобы занять лидирующее положение на поисковом рынке. Во многих поисковых системах на результаты поиска влияет около 200-300 факторов, которые тщательно скрываются от конкурентов. Именно они (совместно со скоростью индексации и объемами указателей) и помогли в свое время Google опередить некогда лидирующую Alta Vista.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]