Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы представления графических данных-1.docx
Скачиваний:
24
Добавлен:
13.02.2015
Размер:
627.99 Кб
Скачать

Интерфейс системы

Важным Фактором, во многом определяющим эффективность поиска, может быть вид представления информации в программе, то есть интерфейс. По фор­ме диалога, способу задания условия отбора и механизму поиска рассматривае­мые программные средства можно разделить на два класса:

системы рубрикационного типа;

структурно-логические системы.

Первые реализуются интерфейсом в виде иерархических последовательно раскры­вающихся списков, через которые обеспечивается доступ к тематически связан­ным группам документов. Раскрывая очередную рубрику и перемещаясь, таким образом, по тематической иерархии, пользователь уточняет предметную область и увеличивает (усредненно) степень точности соответствия выдаваемых докумен­тов и информационной потребности. При таком решении предопределенность соотнесения документов с отдельными рубриками компенсируется логичностью естественно-научной классификационной схемы, заменяющей пользователю путе­водитель.

Структурно-логические методы формирования запроса обычно используются для работы с базами данных структурированной информации, когда каждый документ состоит из многих информационных полей, возможно, разного типа. Критерий отбора в этом случае строится как логическая комбинация простых, сводящихся к проверке условия присутствия или отсутствия в документе, слов (имен собствен­ных или имен понятий, определяющих предмет поиска).

При составлении запроса к системе используют либо «меню-ориентированный» подход, либо командную строку. Первый позволяет ввести список терминов, обыч­но разделяемых пробелом, и выбрать тип логической связи между ними. Логичес­кая связь распространяется на все термины. Многие ИПС позволяют сохранять запросы пользователя — в большинстве систем это просто фраза на ИПЯ, которую можно расширить за счет добавления новых терминов и логических операторов. Но это только один способ использования сохраненных запросов, называемый расширением или уточнением запроса. Для выполнения этой операции традиционная ИПС хранит не запрос как таковой, а результат поиска — список иденти­фикаторов документов, который объединяется или пересекается со списком, по­лученным при поиске документов по новым терминам.

Ипс глобальных сетей

ИПС глобальной сети имеет отличия, обусловленные как характером сети, так и особенностями работы пользователей такой системы. Рассмотрим основные особенности использования ИПС в глобальной сети на примере сети Интернет

Схематично ИПС для Интернета выглядит так, как показано ниже

Запрос Client (клиент) на этой схеме — это программа просмотра конкретного информа­ционного ресурса. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet.

В свою очередь, все эти информационные ресурсы являются объектом поиска ин­формационно-поисковой системы.

User interface (пользовательский интерфейс) — способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотра результа­тов поиска.

Search engine (поисковая машина) — служит для трансляции запроса на ин­формационно-поисковом языке, в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользо­вателю.

Index database (индекс базы данных) — индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса.

Queries (запросы пользователя) — сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.

Index robot (робот индексирования) — служит для просмотра данных в Интер­нете и поддержания базы данных индекса в актуальном состоянии. Эта програм­ма является основным источником информации о состоянии информационных ресурсов сети.

WWW sites — это весь Интернет, или, точнее, информационные ресурсы, про­смотр которых обеспечивается программами просмотра.

Как мы видим, источником информации о состоянии информационных ресурсов сети является робот-индексировщик. Это программа, которая по определенному алгоритму «заходит на различные страницы, «читает» их и индексирует.

Индекс поисковых систем Интернета обновляется с периодичностью около недели. Отсюда видно, что в индекс поисковой системы не могут попасть материалы, например, периодических изданий, так как выходят они заведомо чаще, чем об­новляется индекс.

Еще одна проблема заключается в том, что не все документы хранятся в виде фай­лов HTML, с которыми роботу работать легче всего. Если информация хранится в другом формате, может сложиться ситуация, когда адрес страницы, выдаваемой пользователю, содержит параметры, которые робот не знает, и, следовательно, он не может ее идентифицировать.

Объем информации, опубликованной в Интернете, приводит также к ограниче­нию количества терминов, которыми индексируется документ. Современные ИПС в Интернете используют порядка 100 терминов для индексации документа. Выбор терминов, используемых для индексации, зависит от реализации данной системы. Чаще всего первым критерием является отношение частоты употребле­ния термина в документе к частоте употребления этого термина во всех ранее про­индексированных документах. То есть наибольший вес присваивается тем терминам, которые наиболее часто встречаются в данном документе и наиболее редко — во всех остальных проиндексированных документах. Термины, которые используются в очень большом количестве документов, при индексировании не исполь­зуются совсем.

Для определения терминов индексирования, используемых для создания поиско­вого образа, робот может также использовать разметку индексируемой страницы. И в индексе присваивать наибольший вес термину, используемому, например, в заголовке. Автор информационного ресурса также может повлиять на индексацию собственной страницы, указав роботу, какие термины надо использовать для ин­дексирования. Но многие поисковые системы отказались от использования описа­ний ресурсов, представленных авторами. Это было сделано по причине недобросове­стности некоторых авторов, которые использовали для описания своих страниц термины, наиболее часто встречающиеся в запросах.

Так как на запрос могут быть выданы ссылки на сотни ресурсов, необходимо пре­доставить пользователю отсортированный список. Наиболее часто используется сортировка по релевантности. Она происходит по тем же принципам, что и отбор терминов, применяющихся при индексировании.

Как уже отмечалась ранее, произвести точный поиск тем сложнее, чем шире круг потребностей пользователей системы. В глобальной сети эта проблема принима­ет глобальный же характер.

Очень сильно усложняется поиск по причине непрофессионализма как пользова­теля, формулирующего запрос, так и автора информационного ресурса. И если непрофессионализм пользователя метает лишь ему самому (если не считать не­производительной загрузки поискового сервера), то непрофессионализм автора ресурса стоит гораздо больше. Многие отмечают все время растущий уровень шума в результатах, выдаваемых на запрос.

Для уменьшения уровня этого шума может использоваться платная регистрация ресурса, которая подразумевает, что автор ответственно относится к его содержимо­му. Существует, например, система платной регистрации RealNames. База данных этой службы используется некоторыми поисковыми системами. Ресурсы, зареги­стрированные в базе RealNames, будут помещаться в начало списка найденных документов.

Справочно-правовые системы

Понятие, назначение и преимущества

Принятие обоснованных решений в сфере как экономики, так и политики невоз­можно без обладания достаточным объемом правовой информации. Особенно остро эта необходимость ощущается в период реформирования экономического и политического устройства. Задачу удовлетворения потребности в своевременном предоставлении необходимого объема правовой информации решают различные средства массовой информации (СМИ).

В этой области конкурируют как традиционные СМИ так и справочно-правовые системы (СПС). По-настоящему эффективная СПС может быть создана только с применением современных информационных технологий. Созданная таким обра­зом СПС называется компьютерной.

Компьютерная справочно-правовая система — это программный комплекс, вклю­чающий в себя массив правовой~информацнн и инструменты для работы с ним. Эти инструменты могут позволять производить поиск документов, формировать подборки документов, выводить документы или их фрагменты на печать.

Преимущества компьютерных СПС очевидны. Это и доступность информации, и удобство работы с нею. Проблема же, присущая таким системам, — недостаточная оперативность — может быть решена с помощью глобальной сети Интернет.