Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
diplom.doc
Скачиваний:
11
Добавлен:
14.05.2015
Размер:
469.47 Кб
Скачать

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Петрозаводский Государственный Университет»

Физико-технический факультет

Кафедра информационно-измерительных систем и физической электроники

Дипломная работа

Написание поискового веб-приложения

Выполнил:

Студент физико-технического факультета

очного отделения

группы 21506

Иващук Евгений Сергеевич

Научный руководитель:

к.ф.-м.н., доцент КИИСиФЭ

Ершова Наталья Юрьевна

Петрозаводск, 2014

Оглавление Введение

Сегодня поисковая система — один из самых широко используемых методов навигации в киберпространстве, которое растёт и увеличивается с каждым днём своего существования. Понятно, что и алгоритмы поиска информации должны постоянно увеличивать свою сложность и эффективность. Целью даной работы не является описание алгоритмов поиска информации, а просто дать ознакомительное их описание. Также целью данной работы является написание поисково веб-приложения на языке программирования Ruby.

С учётом вышеизложенного можно сформировать следующие цели:

  • Ознакомление с алгоритмами поиска информации

  • Написание поискового веб-приложения

Поставленные цели осуществляется с помощью задач:

  • Изучение теории поиска

  • Изучение языка программирования Ruby

  • Ознакомление с языком разметки Haml

  • Ознакомление с метаязыком Sass

  • Используя Ruby,Haml и Sass, написать код веб-приложения

  • Произвести отладку получившегося приложения

1. Теоретическая часть

1.1. Теория поиска информации

Для начала необходимо дать определение поисковой системы.

Поисковая система – программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в интернете [1].

По осуществляемым функциям и решаемым задачам поисковые системы классифицируются на:

справочные являются наиболее распространенным типом функций информационных систем, и заключается в предоставлении абонентам системы возможностей получения установочных данных на определённые классы объектов;

поисковые являются наиболее распространённым классом информационных систем. В общем, виде можно рассматривать, как некоторое информационное пространство, задаваемое в терминах информационно-логического описания предметной области);

расчётные. Функция системы заключается в обработке информации, находящейся в системе, по определённым расчётным алгоритмам для различных целей.

По характеру же предоставления логической организации хранимой информации поисковые системы разделяются на фактографические, документальные и геоинформационные.

Так фактографические поисковые системы накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому - либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

В документальных поисковых систем единичным элементом информации является нерасчлененный на более мелкие элементы документ, и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции - дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов - соподчиненность по смысловому содержанию.

В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Также существует следующая классификация поисковых систем (рис.1.)

Рис.1. Классификация поисковых систем

Говоря о поисковых системах, стоит упомянуть теорию поисковых запросов и их классификацию. Так в 1949 году профессором филологии из Гарварда были описаны некоторые из особенностей поиска информации.

Профессор Зипф заметил, что длинные слова встречаются в текстах любого языка реже, чем короткие. На основе этого наблюдения Зипф вывел два закона:

Первый закон связывает частоту появления (вхождения) того или иного слова с рангом этой частоты. Наиболее часто встречающимся словам присваивается ранг, равный единице. Тем словам, что встречаются реже – ранг, равный двойке и т.п. Зипф обнаружил, что произведение частоты вхождения слова и его ранга является постоянной величиной.

Такая зависимость обычно отображается гиперболой. Значение константы Зипфа для разных языков различно, но внутри одной языковой группы оно остается неизменным. Для русского языка константа равна примерно 0,06-0,07.

Зипф определил, что частота вхождения слов и количество слов, входящих в текст с данной частотой, тоже взаимосвязаны.

С одной стороны получившая кривая будет сохранять свои параметры для всех текстов в пределах одного языка. С другой стороны, на каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Отличаться будут лишь коэффициенты.

Законы Зипфа универсальны. Они применимы не только к текстам. В аналогичную форму выливается, например, зависимость между количеством городов и числом проживающих в них жителей. Характеристики популярности ресурсов интернета отвечают законам Зипфа. В законах Зипфа отражается «человеческое» происхождение объектов. [2]

В любом случае каждый поисковый запрос можно классифицировать по трём характеристикам: длина запроса, чёткость запроса, стадия поиска.

Так по длине все запросы делятся на

Однословные(«продвижение»)

Двухсловные(«поисковое продвижение»

Трёхсловные(«профессиональное поисковое продвижение»)

Многословные(«профессиональное поисковое продвижение недорого»)

По чёткости все запросы делятся на:

Чёткий запрос(«цена на iPad 2»)

Нечёткий запрос(«Озон», что может быть и газом и названием магазина и фамилией режиссёра)

По стадии поиска все запросы делятся на:

Осознание проблемы(«не работает сайт»)

Поиск решения(«хостинг сайтов»)

Выбор решения(«какой хостинг выбрать»)

Поиск места транзакции(«тарифы хостинга masterhost»)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]