Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
остатки лекций по иту для тестирования.doc
Скачиваний:
23
Добавлен:
02.12.2018
Размер:
782.34 Кб
Скачать

Документальные информационные системы дис

1. Характеристики информационно-поисковых систем

Информационные системы, построенные на основе документальных моделей данных, являются альтернативой системам, работающим со структурированной информацией. Все модели данных можно разделить на фактографические (к которым относятся реляционные, иерархические и сетевые модели) и документальные.

Документальные модели служат для обработки неструктурированной информации. Элементом данных в документальных информационных системах является документ (обычно текстовый файл). Документальная информационная система - единое хранилище документов с инструментарием поиска и выдачи необходимых пользователю документов.

Поисковый характер документальных информационных систем определил еще одно их название - информационно-поисковые системы.

На основе определенных критериев документальная информационная система осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

Для определения эффективности работы поисковых систем существует такое понятие, как релевантность. Релевантность – это степень соответствия найденного документа запросу пользователя. Релевантным называется документ, который формально соответствует сути сделанного через поисковую систему запроса.

Другим показателем, оценивающим качество найденной информации, является показатель пертинентности, который отражает полезность найденной информации. Пертинентность - это субъективно оцениваемое соответствие содержания документов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой.

Для пользователя пертинентность имеет решающее значение. При этом следует учитывать, что неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы отклика породило в конце 20 века мнение об Интернет, как об огромной информационной свалке. Достижение высокой пертинентности - основное поле конкурентной борьбы современных поисковых систем.

Основными показателями эффективности функционирования документальной информационной системы являются полнота и точность информационного поиска.

Полнота информационного поиска К определяется отношением числа найденных релевантных документов А к общему числу релевантных документов С, имеющихся в системе

R = A / C .

Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя:

P = A / L .

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К определяется отношением числа нерелевантных документов (L -А), выданных в ответе пользователю, к общему числу документов L:

( L – A ) / L .

2. Виды документальных информационных систем

В зависимости от особенностей реализации хранилища документов и механизмов поиска, документальные информационные системы можно разделить на две группы (рис. 1):

  • системы на основе индексирования;

  • гипертекстовые (семантически-навигационные) системы.

В гипертекстовых (семантически-навигационных) системах документы, помещаемые в хранилище документов, оснащаются гиперссылками, соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса - координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа. Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса к базе документов.

Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.

По способу организации понятий различают следующие ИПЯ:

  • классификационные (предкоординируемые) ИПЯ;

  • дескрипторные (посткоординируемые) ИПЯ.

Предкоординация - предварительное построение словаря. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка.

К классификационным языкам относят:

  • перечислительную (алфавитно-предметную) классификацию;

  • ИПЯ иерархического типа;

  • ИПЯ фасетного типа.

В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка - ключевых слов и дескрипторов. Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.