Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
экзамен инфо.doc
Скачиваний:
0
Добавлен:
17.04.2019
Размер:
2.13 Mб
Скачать

Индексирование, обработка данных

Индексирование в поисковых системах — это процесс добавления информации (о сайте и его содержимом) роботом поисковой машины в базу данных поисковой системы, впоследствии эти сведения используются для полнотекстового поиска информации на проиндексированных страницах.

В сведения о сайте чаще всего входят ключевые слова (алгоритм определения ключевых слов зависит от поисковой системы), статьи, ссылки, документы, также могут индексироваться изображения и т. д.

Для поисковых роботов на страницах сайтов существуют специальные разделы служебной информации, невидимые обычным пользователям, в этих разделах как правило содержится информация о содержимом сайта: название, тематика, ключевые слова и т.п. Схема индексирования страниц современными поисковыми системами у всех примерно аналогичная: чтение документа с служебной информации, далее индексируется основное содержимое и одновременно проверяется на уникальность, если уникальность содержимого сайта низка, то такие страницы индексируются роботами в последнюю очередь, а так же имеют в последствии меньший приоритет для поисковой выдачи пользователям по сравнению со страницами имеющими уникальный текст. Страницы индексируются сверху вниз и слева на право, авторы страниц могут скрывать текст, либо его части от индексирования поисковыми системами, используя в коде страницы для этого специальные служебные команды (тэги). У разных поисковых систем используются разные поисковые роботы, команды для их управления могут отличаться, соответственно для того чтобы страница была одинаково воспринята разными поисковыми системами, требуется дублировать команды для разных роботов.

 После успешного индексирования, информация о содержимом страниц сайта попадает в базу данных (БД) поисковой системы, информация ранжируется и становится доступной в выдаче по поисковым запросам. На каком именно месте окажется данный ресурс в выдаче по тем или иным запросам зависит от того, как определят его роботы данной поисковой системы. На это могут влиять многие факторы, наиболее значимыми являются уникальность основного текста, правильная внутренняя оптимизация – верное определение и распределение ключевых слов в служебном разделе, внешние и входящие гиперссылки, а так же время существования ресурса.

ТЕХНОЛОГИИ ПОИСКА ИНФОРМАЦИИ В INTERNET. Теперь рассмотрим, как лучше подготовиться пользователю к составлению запроса. Прежде всего, необходимо провести всесторонний лексический анализ информации, которую вы собираетесь искать. Затем желательно составить набор ключевых слов (при необходимости, на нескольких языках) в виде отдельных терминов и словосочетаний, специфичных для вашей предметной области. Далее необходимо исследовать различные поисковые инструменты. Ваши действия: - выбор поискового инструмента; - точная формулировка запросов с использованием операторов, поддерживаемых данным поисковым инструментом; - отправка тестовых запросов; - анализ результатов поиска (по количеству и релевантности ссылок); - при необходимости, корректировка запроса; - повторный поиск;

 Речь пойдет о поисковых системах и правилах поиска в Сети.

  Сначала – небольшое лирическое отступление, в котором я расскажу, как устроена поисковая система. Так уж случилось, что пользователь видит лишь интерфейс поисковой системы, ее, с позволения сказать, лицо, а внутренности – самое главное – остаются «за кадром».

  Итак, первая часть поисковой системы – это «паук», crawler, поисковый робот. Он занимается тем, что путешествует по Сети, просматривает все страницы, посещает все ссылки, не останавливаясь ни на минуту. Путешествует не просто так – все, каждую страницу, что он просмотрел, «паук» заносит в индекс поисковой машины в виде встречающихся на странице значащих слов.

  Таким образом, индекс поисковой машины – это огромнейшая база данных, с помощью которой можно быстро узнать, на какой именно странице в Сети можно встретить данное слово. В качестве информации к размышлению – объем индекса поисковой системы Yandex.ru составляет 81,92 Гигабайт. (http://www.yandex.ru/chisla.html). Да, 81, 92 Гигабайт.

  Третья часть, после индекса – это собственно поисковая машина. Занимается он тем, что ищет нужное слово – или слова – в индексе. Поисковая система не ищет «по всему интернету» – это заблуждение. Представьте, что было бы, если б это действительно было так: К примеру, объем проиндексированной информации на Yandex.ru составляет 258,67 Гб. А это значит, что не будь индекса, после того, как вы ввели запрос на Яндексе, ему пришлось бы загружать и просматривать 258 гигабайт информации. Это нонсенс. Представьте, сколько дней Яндекс отвечал бы на Ваш запрос.

  Из того, что поисковая машина не ищет «По всему интернету», а только в своем индексе, следует, как минимум, два вывода. Первый – если поисковая машина чего-то не нашла, что вовсе не значит, что этого нет в Сети. Второй – поисковые системы различаются не только внешним видом, но и, например, индексом и способом его составление. Поэтому если вы не нашли что-то в одной поисковой системе, есть смысл поискать в другой.

  Поисковый робот, составляющий индекс, обходит сайты «кругами», посещая их регулярно – таким образом, индекс адекватно отражает изменения, происшедшие на сайте. Новые сайты «паук» находит либо сам, придя по ссылке с другого сайта, либо узнает о них от автора сайта – в поисковых системах имеется возможность «натравить» «паука» на свой сайт.

  Ну и последняя часть поисковой системы – это ее WWW-сервер. Это ее лицо, это тот интерфейс, посредством которого пользователь задает вопросы и получает на них ответы. WWW-сервер – это только одна из частей поисковой машины, причем не самая большая. Так что не все так просто, как кажется. Кстати, посмотреть, как выглядит Яндекс «в железе» можно вот тут: http://www.yandex.ru/hardware.html

  Для «общения» с поисковыми системами существуют специальные правила и специальный язык. Конечно, было бы здорово, если можно было бы просто так взять и спросить: «Где можно найти полный текст «Словаря Дьявола» Амброза Бирса?» – и получить полный и исчерпывающий ответ. В принципе, работы в этом направлении ведутся – взять, хотя бы, буржуйский сайт «Ask Jeeves» (www.ask.com) – задав вопрос в «литературной» форме – только по-английски, разумеется – можно получить довольно внятный ответ. В остальных же поисковых системах придется обучиться достаточно простому языку запросов.

  Для начала нужно вычленить ключевые слова: решить, какие два-три слова наиболее полно характеризуют объект ваших поисков, и вводить именно их. «Это же очевидно», – скажете вы. И будете правы. Однако вы будете удивлены, узнав, что многие люди вводят для поиска. На «Яндексе» есть замечательная вещь, называется «прямой эфир», страница, на которой вы можете увидеть 20 последних запросов. http://www.yandex.ru/last20.html На эту страницу можно смотреть часами, испытывая при этом множество противоречивых чувств. Можно даже написать не один авангардный роман, просто записывая подряд все запросы. Некоторые из запросов просто поражают и западают в душу.

  Отрадно, но факт: из 20 запросов в лучшем случае пять – на тему межполовых отношений. Проверьте сами. Но если не брать в расчет запросы, вроде «порнуха бесплатная», то у нас есть прекрасная возможность на примере остальных запросов рассмотреть, как именно искать НЕ СЛЕДУЕТ.

  Как правило, большой процент запросов отличается полной неясностью, и неконкретностью: «музыка», «видео», «печи», «mp3». Вроде как «я просил, а ты будь добр, догадайся, что я имел в виду». Так, на запрос «музыка» Яндекс выдает 143791 ссылок. Надо уточнять, что именно вы ищите. Запрос «музыка кантри» дает уже 4443 ссылок, а «музыка кантри +новосибирск» – уже всего 49.

  Бывают чересчур конкретные запросы, бывают запросы и «совсем не по правилам». Кстати, о правилах...

  Если вы набрали слово с маленькой буквы, то будут найдены слова с маленькой и большой буквы; если вы набрали слово с большой – то будут найдены слова только с большой буквы. Например, на запрос «лебедь» поисковая система выдаст упоминания о птицах и о генерале. Поэтому правило: не набирайте без особой нужны слово с большой буквы! Иначе вам просто не будут выданы очень много совпадений.

  Знаки «-» и «+». Используя эти знаки, вы можете принудительно исключать слово из поиска, либо делать слово обязательным. Например, вам нужен рецепт пирожков с капустой. Тогда запрос должен быть примерно таким: «рецепт пирожков +капуста». А если вы не можете терпеть пирожки с картошкой, то должны ввести примерно следующее: «рецепт пирожков -картошка». Тогда будут найдены страницы с разнообразными рецептами пирожков без картошки.

  Если вы ввели просто несколько слов, разделенных пробелами, то для поисковика это будет означать, что надо найти страницы, где эти слова входят в одной предложение. Например: «бесплатные программы».

  Для поиска документа, содержащего любое из перечисленных слов, надо использовать знак «|». Очень удобно, если к слову имеется много синонимов. Например: «бесплатные | халявные | freeware +программы»

  Для поиска устойчивых словосочетаний нужно ввести фразу для поиска в кавычках. (Во всех остальных случаях кавычки не нужны). Очень помогает, когда вам нужно, к примеру, найти слова стихов, а вы помните всего одну строчку. Введите эту строку с кавычками в поисковую систему. Например, помните вы прекрасную фрау «мысль изреченная есть ложь», а кто сказал – не помните. Идете на «Яндекс», вводите «мысль изреченная есть ложь» (в кавычках) и сразу же узнаете, что сказал это Тютчев.

  1. Схема информационно-поисковой системы. Стратегии поиска. Интерфейс.

Общий алгоритм функционирования ИПС (принцип работы; со сюит в следующем. Робот-индексировщик автоматических просматривает (переходя от одного ресурса к другому, используя ссыл­ки, расположенные на нем) различные информационные ресурсы Интернета (Интернет-документы). Создает индекс базы данных, помещая туда информацию о ресурсах Сети. При этом он также периодически возвращается к информационным ресурсам и проверяет их на наличие изменений. Когда пользователь делает поисковой систе­ме; запрос, ее программное обеспечение (поисковая машина) просматривает созданный индекс базы данных в поиске ресурсов с заданными ключевыми словами и ранжирует (упорядочивает) эти ресур­сы по степени близости к предмету поиска.

Относительно алгоритма функционирования ИПС следует сделать ряд замечаний. В каждой конкретной поисковой системе хранятся (сведения не о всех документах Интернета, а только о тех документах которые известны данной системе (для различных систем процент проиндексированных документов различен, но, как правило, не превы­шает 30%). В поисковых системах хранятся не сами документы, а только сведения о них, достаточные для их нахождения пользователем и, как следствие этого, поисковая система в результатах поиска может и не выдавать некоторые соответствующие запросу документы. В результате поиска (отклике на запрос) системой сортируются документы по степени соответствия сделанному пользователем запросу с точки зрения алго­ритма поисковой системы, а не с точки зрения их фактического соответствия запросу. Данная особенность систем значительно эконо­мит время, затрачиваемое на поиск требуемой информации, особенно когда комбинация слов запроса встречается в нескольких тысячах или миллионах документов, однако нередки и случаи, когда наиболее соответствующие запросу документы не являются первыми в выданном списке. В данном случае следует соблюдать компромисс между количе­ством просматриваемых документов и общим числом найденных документов (как правило, требуемая информация содержится в первых нескольких десятках найденных документов), но наиболее типичным действием является уточнение запроса с помощью средств уточнения запроса, предоставляемых данной системой (т.е. обычно при помощи языка запросов и (или) средств расширенного интерфейса формулиров­ки запросов). К формированию более детального запроса также следует обратиться, если в результатах поиска много информационного шума (т.е. не соответствующей запросу информации), что, как правило, свиде­тельствует о неудачно подобранных терминах запроса (например, они подвержены полисемии (т.е. имеют несколько значений)). В промежут­ках между работой робота-индексировщика системы документы изменяются пользователями, но эти изменения часто учитываются поисковой системой не мгновенно, а спустя некоторый промежуток времени, определяемый периодом индексирования Интернета, поэтому некоторая информация может быть в системе потенциально недоступ­ной в конкретный момент времени.

  Рис. 4. Типовая схема информационно-поисковой системы

Интерфейс системы

Важным фактором является вид представления информации в программе-интерфейсе. Различают два типа интерфейсных страниц: страницы запросов и страницы результатов поиска.

При составлении запроса к системе используют либо меню - ориентированный подход, либо командную строку. Первый позволяет ввести список терминов, обычно разделяемых пробелом, и выбрать тип логической связи между ними. Логическая связь распространяется на все термины. На приведенной на рис. 1 схеме имеется сохраненные запросы пользователя - в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска - список идентификаторов документов, который объединяется/пересекается со списком, полученным при поиске документов по новым терминам. К сожалению, сохранение списка идентификаторов найденных документов в WWW не практикуется, что было вызвано особенностью протоколов взаимодействия программы-клиента и сервера, не поддерживающих сеансовый режим работы.

Итак, результат поиска в базе данных ИПС - это список указателей на удовлетворяющие запросу документы. Различные системы представляют этот список по-разному. В некоторых выдается только список ссылок, а в таких, как Lycos, Alta Vista и Yahoo, дается еще и краткое описание, которое заимствуется либо из заголовков, либо из тела самого документа. Кроме этого, система сообщает, на сколько найденный документ соответствует запросу. В Yahoo, например, это количество терминов запроса, содержащихся в ПОД, в соответствии с которым ранжируется результат поиска. Система Lycos выдает меру соответствия документа запросу, по которой производится ранжирование.

При обзоре интерфейсов и средств поиска нельзя пройти мимо процедуры коррекции запросов по релевантности [7]. Релевантность - это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая - это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле [6], где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.

Кроме ссылок на документы в списке, полученном пользователем, могут оказаться ссылки на части документов или на их поля. Это происходит при наличии ссылок типа http://host/path#mark или ссылок по схеме WAIS. Возможны ссылки и на скрипты, но обычно такие ссылки роботы пропускают, и система их не индексирует. Если с http-ссылками все более или менее понятно, то ссылки WAIS - это гораздо более сложные объекты. Дело в том, что WAIS реализует архитектуру распределенной информационно-поисковой системы, при которой одна ИПС, например Lycos, строит поисковый аппарат над поисковым аппаратом другой системы - WAIS. При этом серверы WAIS имеют свои собственные локальные базы данных. При загрузке документов в WAIS администратор может описать структуру документов, разбив их на поля, и хранить документы в виде одного файла. Индекс WAIS будет ссылаться на отдельные документы и их поля как на самостоятельные единицы хранения, программа просмотра ресурсов Internet в этом случае должна уметь работать с протоколом WAIS, чтобы получить доступ к этим документам.

  1. Антивирусные программы и их классификация.

Антивирусные программы, их классификация и принципы работы. Самыми популярными и эффективными антивирусными программами являются антивирусные сканеры (другие названия: доктора, фаги, полифаги). Следом за ними по эффективности и популярности следуют CRC-сканеры (так-же: ревизор, checksumer, integrity checker). Часто оба приведенных метода объединяются в одну универсальную антивирусную программу, что значительно повышает ее мощность. Применяются также различного типа мониторы (фильтры, блокировщики) и иммунизаторы (детекторы). Сканеры. Принцип работы антивирусных сканеров основан на проверке файлов, секторов и системной памяти и поиске в них известных и новых (неизвестных сканеру) вирусов. Сканеры также можно разделить на две категории - "универсальные" и "специализированные". Универсальные сканеры рассчитаны на поиск и обезвреживание всех типов вирусов вне зависимости от операционной системы, на работу в которой рассчитан сканер. Специализированные сканеры предназначены для обезвреживания ограниченного числа вирусов или только одного их класса, например макро-вирусов. Специализированные сканеры, рассчитанные только на макро-вирусы, часто оказываются наиболее удобным и надежным решением для защиты систем документооборота в средах MS Word и MS Excel. Сканеры также делятся на "резидентные", производящие сканирование "на лету", и "нерезидентные", обеспечивающие проверку системы только по запросу. CRC-сканеры. Принцип работы CRC-сканеров основан на подсчете CRC-сумм (контрольных сумм) для присутствующих на диске файлов/системных секторов. Эти CRC-суммы затем сохраняются в базе данных антивируса, как, впрочем, и некоторая другая информация: длины файлов, даты их последней модификации и т.д. При последующем запуске CRC-сканеры сверяют данные, содержащиеся в базе данных, с реально подсчитанными значениями. Если информация о файле, записанная в базе данных, не совпадает с реальными значениями, то CRC-сканеры сигнализируют о том, что файл был изменен или заражен вирусом. Мониторы. Антивирусные мониторы - это резидентные программы, перехватывающие "вирусо-опасные" ситуации и сообщающие об этом пользователю. К "вирусо-опасным" относятся вызовы на открытие для записи в выполняемые файлы, запись в загрузочные сектора дисков, попытки программ остаться резидентно и т.д., то есть вызовы, которые характерны для вирусов в моменты из размножения. Иммунизаторы. Иммунизаторы делятся на два типа: иммунизаторы, сообщающие о заражении, и иммунизаторы, блокирующие заражение каким-либо типом вируса. Первые обычно записываются в конец файлов (по принципу файлового вируса) и при запуске файла каждый раз проверяют его на изменение. Недостаток у таких иммунизаторов всего один, что он летален: абсолютная неспособность сообщить о заражении стелс-вирусом. Поэтому такие иммунизаторы, как и мониторы, практически не используются в настоящее время.

  1. Основы защиты информации и сведений, составляющих государственную тайну.(в тетради)

Целью защиты информации является предотвращение нанесения ущерба пользователю, владельцу или собственнику. Под эффективностью защиты информации понимается степень соответствия результатов защиты поставленной цели. Объектом защиты может быть информация, ее носитель, информационный процесс, в отношении которого необходимо производить защиту в соответствии с поставленными целями. К аппаратным средствам защиты информации относятся электронные и электронно-механические устройства, включаемые в состав КС и выполняющие (как самостоятельно, так и при помощи программных средств) некоторые функции по обеспечению безопасности информации.

К основным аппаратным средствам защиты информации относятся:

-   Устройства ввода идентифицирующий пользователя информации;

-   Устройства шифрования информации;

-   Устройства для воспрепятствования несанкционированному включению рабочих станций серверов.

Под программными средствами информационной безопасности понимают специальные программные средства, включаемые в состав программного обеспечения КС исключительно для выполнения защитах функций.

К основным программным средствам защиты информации относятся:

-   Программы идентификации, аутентификации пользователей КС;

-   Программы разграничения доступа пользователей к ресурсам КС;

-   Программы от несанкционированного доступа, копирования изменения и использования.