3.2.5. Модели ранжирования

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский государственный университет науки и технологий им. академика М.Ф. Решетнева

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc

Скачиваний:

129

Добавлен:

06.03.2016

Размер:

3.28 Mб

Скачать

☆

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 3317 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

3.2.5. Модели ранжирования

Модели ранжирования предназначены для того, чтобы упорядочить полученные ссылки с множества сайтов как внутри одного языкового множества, так и для многомерного языкового множества.

Рассмотрим модель поиска информации сразу по нескольким языкам.

Эта модель применяется при опросе Интернета в разных языковых сегментах одновременно. В результате получается множество ссылок на разноязычные документы d_jy, после чего проводится отсев дублирующихся ссылок и вычисляется вес ссылки на документ.

Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора:

(3.5)

(3.6)

где i– номер опрашиваемого сайта (i = 1, ...,n);n –количество опрашиваемых сайтов;j– номер ссылки из множества ссылок, выданных всеми опрошенными поисковыми сайтами, без дублей (j = 1, ..., m);m – количество ссылок без повторений; y – номер языкового множества (y = 1, ..., r); r –количество опрашиваемых языковых множеств;RangDoc_jy– получаемый рангj-й страницыk-го языкового множества;RangSite_iy– рангi-го сайта в текущей предметной областиk-го языкового множества на данный момент;RangSiteDoc_iy– ранг ссылки на страницу внутриi-го поискового сайтаk-го языкового множества.

(3.7)

здесь Doc_iy= 1, еслиi-й сайт дал ссылку на данную страницу, и 0, если ссылка наi-м сайте отсутствует.

Ранг сайта по каждой предметной области определятся по следующему алгоритму:

при первом проходе RangSite_iy= 0;
в процессе опроса каждого сайта ранг изменяет свое значениепо формуле

RangSite_iy = RangSite_iy + (DocRelTotal_iy –

– DocNotRelTotal_iy) /DocTotal_iy, (3.8)

где DocRelTotal_iy – количество релевантных документов, выданных i-м поисковым сайтом; DocNotRelTotal_iy – количество нерелевантных документов, выданных i-м поисковым сайтом; DocTotal_iy – общее количество документов:

DocTotal_iy = DocRelTotal_i_y + DocNotRelTotal_iy. (3.9)

Ранг ссылки на страницу внутри множества ссылок, выданных каждым конкретным сайтом, определяется по формуле

RangSiteDoc_iy = NumDoc_iy – DocTotal_iy. (3.10)

Если поиск проводится только в пределах одного языкового множества, то в предложенной модели ранжирования необходимо принять y= 1.

Если ввести один индекс w, отвечающий за предметную область, то полученная модель будет производить поиск и ранжирование сразу для нескольких предметных областей. При этом сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей должна быть меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием смежных предметных областей.

Необходимо отметить, что в предлагаемой модели ранжирования все ранги должны быть не меньше единицы [6; 7; 16].

3.2.6. Модель определения релевантности

В рамках этой модели каждому терму (словоформе) t_i в документеd_j(и запросеq) сопоставляется некоторый неотрицательный весw_ij (w_i для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в видеk-мерного вектора:

(3.11)

где k– общее количество различных термов во всех документах.

Согласно векторной модели [16], близость документа d_jк запросуqоценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами [20; 27; 90].

Один из возможных вариантов – это применение в качестве веса терма w_ij в документе d_j нормализованной частоты его использования freq_ijв рамках данного документа:

(3.12)

При поиске с использованием мультилингвистических частотных словарей для вычислений целесообразнее применять частотную характеристику терма из словаря freqDic_j.

w_ij = freqDic_ij. (3.13)

Здесь freqDic₁_j, …, freqDic_nj равны, и это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря.

Однако такой подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационнуюсилу терма. Поэтому в случае доступности статистики использований термов по коллекции лучше работает другая схема вычисления весов:

(3.14)

где n_i – число документов, в которых используется терм t_j; N – общее число документов в коллекции. С учетом частотности словоформ выражение (3.14) может быть представлено в виде

(3.15)

Предложенный алгоритм хорошо показал себя на этапе формирования мультилингвистического частотного словаря, однако после того, как этот словарь уже составлен и возникает необходимость в его актуализации или обновлении, в качестве весового коэффициента лучше использоватьвесовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом – веса термов из словаря:

(3.16)

(3.17)

где

wdoc_ij = w_ij·g_ij; (3.18)

wdic_l= frecDic_l ·g_l; (3.19)

(3.20)

здесь i– номер терма вj-м документе (i=1, …,k);l – номер терма в частотном словаре (l = 1, …, kd);wdoc_ij – весi-го терма вj-м документе;wdic_l – весl-го терма в частотном словаре;g_ij и g_l– признаки включения терма в вектор для определения релевантности документа: если терм нерелевантен предметной области, то признак равен нулю, в противном случае он равен единице.

Векторы wdoc_ij и wdic_lимеют разные размерности, что связано с ограничением словаря, в котором содержатся только релевантные термины. Следовательно,g_lравен нулю только в случае устаревания какого-то термина настолько, что он полностью вышел из употребления.

В процессе составления векторов wdoc_ij и wdic_lнеобходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму, после чего необходимо составить векторc:

(3.21)

где e – размерность векторов весов;

(3.22)

при i = 1, ..., e. В идеалеrel_ij должен быть равен единице.

В случае если

(3.23)

где s– пороговая величина, принимается решение о релевантности документаd_j предметной области. В идеалеvстремится к нулю [5; 37; 101].

В заключение следует отметить, что предложенный алгоритм определения релевантности эффективно работает как на этапе формирования мультилингвистического частотного словаря, так и после его составлеия, когда возникает необходимость в его актуализации или обновлении.

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 3317 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.03.201533.06 Кб11Kontrolnaya_rabota.docx
#
12.07.201979.36 Кб9Kontrolnaya_rabota_dlya_zaochnikov.doc
#
17.03.2015313.32 Кб17Kontrolnye_semestrovye_zadanija_po_discipline.pdf
#
17.03.2015963.07 Кб19kontr_detali.doc
#
06.03.2016564.85 Кб41Kopia_Laboratornaya_1_Programmir__Avtosokhrane (1).docx
#
06.03.20163.28 Mб129Kovalev_Karaseva_Multilingvisticheskie_tekhnologii.doc
#
28.04.2019491.4 Кб18kpzs.docx
#
17.03.2015387.58 Кб23Kramida_Otchety_1_2.doc
#
06.03.20161.14 Mб113Kuklina_Kireeva2007.doc
#
06.03.20161.92 Mб51Kursach_BD.docx
#
17.03.2015147.46 Кб24kursovaya_menedzhment 4 семестр.doc

3.2.5. Модели ранжирования

3.2.6. Модель определения релевантности