Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерные сети_ТЗИ_пособие.doc
Скачиваний:
74
Добавлен:
14.03.2016
Размер:
1.06 Mб
Скачать

Практическая работа

Опишем процесс поиска информации.

  1. У пользователя появляется необходимость найти сведения по какому-либо вопросу. На языке теории информационного поиска это называется информационной потребностью.

  2. Для того чтобы «объяснить» поисковой службе, что ему необходимо найти, пользователь вынужден некоторым образом формализовать свою информационную потребность. Процесс формализации, как правило, сводится к выявлению набора понятий и терминов, характеризующих информационную потребность, и определению отношений между ними. Такие понятия и термины получили название ключевых слов, а выделенное множество ключевых слов с зафиксированными отношениями между ними именуется запросом.

  3. На следующем этапе пользователь через интерфейс информационно-поисковой системы вводит запрос. Система на множестве документов, являющемся информационно-поисковым пространством, осуществляет выборку документов, которые по внесенным в систему критериям соответствует запросу пользователя, и формирует результат. Список документов, отобранных информационно-поисковой системой, обычно называют выдачей или откликом, а меру соответствия отклика запросу или информационной потребности – релевантностью отклика.

Получив результат, пользователь обнаружит, что выданные документы по содержанию делятся на две группы – соответствующие его информационной потребности, и несоответствующие информационной потребности, но с точки зрения информационно-поисковой системы, соответствующие запросу. С документами второй группы обычно связывают такое понятие, как информационный шум.

Мера соответствия отклика информационной потребности пользователя называется смысловой релевантностью, а мера соответствия отклика запросу – формальной релевантностью.

Поисковые службы

Первым классификационным признаком поисковых служб является способ организации и пополнения базы данных о документах Сети. По этому признаку системы делятся на каталоги и поисковые машины. В основе каталога лежит иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком (www.ulitka.ru, www.list.ru) . В отличие от каталогов, поисковые машины являются активными системами, которые «самостоятельно» исследуют Сеть целью пополнения своих баз данных документов (www.yandex.ru,www,aport.ru, www.rambler.ru) .

Второй способ классификации поисковых служб – классификация по глубине охвата ресурса. По данному признаку системы делятся на глобальные (www.google.ru) и локальные (www.yandex.ru) .

Существует несколько характеристик результатов поиска:

  • полнота, отражает, как много документов, соответствующих информационной потребности пользователя, осталось за пределами выдачи. Математически эту характеристику можно выразить следующим образом: полнота=(число выданных релевантных документов)/(число релевантных документов Интернет);

  • точность, отражает количество информационного шума, содержащегося в результатах: точность=(число выданных релевантных документов)/(число выданных документов);

  • актуальность, показывает наличие в отклике информации о несуществующих документах;

  • скорость получения результатов. Данный параметр определяется рядом факторов: характеристика каналов связи, временная загруженность этих каналов и сервера, алгоритмы обработки запроса формирования выдачи поисковой системой и запроса, предъявляемого пользователем.

При составлении списка ключевых слов пользователь должен учитывать те особенности естественного языка, которые могут сказаться как позитивно, так и негативно на результатах поиска.

Остановимся сначала на тех языковых явлениях, которые могут привести к снижению точности поиска. К ним относятся следующие:

  1. Полисемия, т.е. наличие различных, но в какой-либо мере связанных, смыслов (значений) у одного и того же слова, словосочетания или фразы.

  2. Омонимия, т.е. наличие в языке омонимов – разных, но одинаково звучащих и пишущихся слов.

  3. Наличие омографов – слов, которые произносятся по-разному, но совпадают при написании (замо’к и за’мок).

  4. Наличие омоформ – слов, совпадающих в своем звучании и/или написании в определенных формах (существительное «печь» и глагол «печь»).

Повышению точности поиска может способствовать:

  1. Использование слов, употребляемых специалистами той предметной области, в которой осуществляется поиск.

  2. Использование различных названий, фамилий и т.п.

Следует помнить, что в погоне за точностью можно существенно снизить полноту поиска, поскольку конкретизация запросов указанными способами сужает множество выданных документов. А для повышения полноты требуется наоборот расширять выдачу. Сделать это можно различными методами, основными из которых являются следующие:

  1. Использование синонимов – слов, различающихся по написанию и произношению, но тождественных по смыслу.

  2. Использование гипонимов – слов, обозначающих родовое понятие (например, для слова «береза», гипонимом будет являться слово «дерево»).

Приступая к работе с документами, размещенными в Интернет, следует четко представлять, чем такие документы отличаются от документов, опубликованных «классическим» способом, в журналах и книгах. Это отличие может проявиться в лексике документов, что вызвано достаточной простотой и бесконтрольностью процесса опубликования материалов в Интернет. Отсутствие процедуры языкового редактирования для большинства документов на фоне общего снижения языковой культуры пользователей Сети привело к возникновению ряда проблем лексики документов, с которыми приходится считаться при формировании списка ключевых слов. Обозначим основные.

  1. Произвольное использование заимствованных и интернациональных слов. Так, например, нечеткое представление о нормах русского языка по отношению к подобным терминам приводит к тому, что для построения запроса на тему поиска информации в Интернет приходится использовать различные словосочетания – «поиск в Интернет», «поиск в Интернете», «поиск в Internet» и т.д.

  2. Некорректное использование лексических единиц языка. Сюда можно отнести такие ситуации, как употребление разговорной речи в документах, непреднамеренное смешение слов, обладающих частичным звуковым сходством при семантическом различии (например, «болотный» и «болотистый»).

I вариант

ВОПРОС

ОТВЕТ

АДРЕС ИСТОЧНИКА

1

Кем и когда впервые был разработан в педагогике метод проектов?

2

Когда в мире появился ИНТЕРНЕТ?

3

Перечислите 3,4 Федеральные целевые программы информатизации образования?

4

Дайте краткое описание герба Читинской области

5

Стихотворения какого забайкальского писателя входят в школьные учебники? Какие книги этого автора стали неотъемлемой частью школьной программы для старшеклассников?

6

Когда и кем было принято решение о выпуске в Чите общесибирских бон достоинством в 1, 3, 10 рублей? Как долго просуществовали читинские деньги?

7

Как назывался первый пароход, построенный в 1854 году на Шилкинском Заводе?

8

Почему местечко, из которого вырос город Чита, называлось «Плотбище»?

9

Кому принадлежат следующие строки: «Но эти царственные воды, но горы в сизой полумгле, Байкал – священный дар природы, да будет вечен на земле»

10

Вдова какого великого поэта, расстрелянного в советских лагерях на Дальнем Востоке, в течение двух лет преподавала английский язык первым студентам факультета иностранных языков Читинского педагогического института?

11

С какой целью в Читу приезжал прадед А.С. Пушкина – Абрам Петрович Ганнибал?

12

Каковы главные факторы, определяющие своеобразность климата в Забайкалье?

II вариант

ВОПРОС

ОТВЕТ

АДРЕСА ИСТОЧНИКА

1

Работая в Госплане СССР осенью 1988 года этот человек обнаружил нечто, что заставило его сделать первый шаг к делу всей его дальнейшей жизни. А в 1999 году он был награжден орденом Дружбы за свою работу на этом поприще.

2

Что такое БИТ сегодня знает каждый, кто знаком с информатикой. Этот человек первым определил основную единицу количества информации, как сообщение, представляющее один из двух вариантов: орел-решка, да-нет, и т.д.

3

Однажды этот человек случайно стер нужный файл с жесткого диска своего компьютера, написал программу для его восстановления и сумел её продать. С тех пор он решил именно так зарабатывать себе на жизнь.

4

Этот человек получил звание профессора Колумбийского университета, но сам себя называл первым инженером-статистиком. Его машины использовались в США, Австрии, Канаде, Норвегии, а также в России в конце IXX века.

5

Под руководством этого человека работала специальная лаборатория в Институте электронных управляющих машин в СССР. Он же был главным конструктором машин серии «М», предназначенных в основном для оборонной промышленности.

6

В семидесятых годах ХХ века в судебном разбирательстве было установлено, что патентные права на основные идеи цифровых электронных машин принадлежат этому человеку.

7

Первая в Европе ЭВМ с хранимой в памяти программой - МЭСМ, одна из самых быстродействующих ЭВМ в Европе - БЭСМ… История развития ЭВМ в нашей стране немыслима без этого человека.

8

Этот человек «…в сфере программирования значит столько же, сколько Эдисон в отношении к электрической лампочке: отчасти инноватор, отчасти предприниматель, отчасти торговец, но неизменно гений». Так считает журнал “People”, хотя в свое время этот человек так и не окончил среднюю школу, оставил учебу в университете на 3 курсе.