Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Документальные информационно-поисковые системы.doc
Скачиваний:
114
Добавлен:
10.05.2014
Размер:
5.47 Mб
Скачать

42. Коэффициент линейной корреляции множества выданных и истинно релевантных документов.

Коэффициент линейной корреляции R выдачи и релевантности документов представляет собой корреляционный момент двух случайных величин:

С – «быть выданным документом» (формально релевантным с точки зрения системы);

И – «быть релевантным» (истинно релевантным с точки зрения пользователя).

Каждая из велечин может иметь значения 0 и 1 в зависимости от конкретного документа.

Математические ожидания С и И:

M [C] = P(C=1) =

a + b

; M[И] =

a + c

a + b+ с+ d

a + b + с +d

Дисперсии определяются:

σ²с =

(a + b) · (с +d)

;σ²и =

(a + c) · (b + d)

;covси=M[CxИ] –M[C]xM[И]=

ad – bc

( a + b+ с +d) ²

( a + b+ с +d) ²

( a + b+ с +d) ²

Окончательно:

R =

COVси

=

ad - bc

√σ²с σ²и

√ (a + b)(a + c)(b + d)(c + d)

В различных точках координат <n,x> значения (знаки) R следующие:

R(0) = 0, R(p0) = 0, R(И) = +1, R(Д) = -1, R(1) > 0, R(2) > 0, R(3) < 0

R = 0 повсюду на линии 0 – p0

Для этого достаточно показать, что:ad–bc=n0(x-n p0)

На линии 0p0 справедливо:x=n·(X0/ n0) =np0 =>ad–bc= 0

Обозначая : |L∩L© | =L, |Lи| = Lи, |Lc| =Lc, |L0| =L0

Перепишем R в координатах <L>:

R =

LL0 – LиLc

√LиLc(L0 –Lи)(L0 – Lc)

43. Назначение, состав и структура лингвистического обеспечения ис.

Лингвистическое обеспечение – это совокупность языковых средств, обеспечивающих гибкость представления и обработки информации с помощью АИС(автоматизированная поисковая система). Обычно ЛО включает языки запросов и отчетов, реализующие человеко-машинное взаимодействие, а также специальные языки определения и управления данными, обеспечивающие адекватность внутреннего представления и согласование внутреннего и внешнего представлений.

Лингвистическое обеспечение ИС – это совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемной обработки и взаимодействия с пользователем.

Такое определение предполагает выделение 2-х взаимообусловливающих аспектов использования ЛО: выражения смыслового содержания ИР и выражения информационной потребности пользователя.

Состав лингвистического обеспечения информационных систем может быть представлен следующей схемой

Лингвистическое обеспечение ИС

Языки описания данных

Языки манипулирования данными

ИПЯ,

языки запросов

Терминологические структуры

Линейные

Иерархические

Сетевые

Такая схема представляет собой иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС; ИПЯ – как средства выражения смыслового содержания документов и информационной потребности пользователя. SQL- как средства управления данными. Терминологических структур – как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой с другой.