Автоматическое рубрицирование.

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Вятский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ExQ_s_giperssylkoy.doc

Скачиваний:

Добавлен:

26.03.2016

Размер:

815.1 Кб

Скачать

☆

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 3631 32 33 34 35 36 > Следующая >>>

Автоматическое рубрицирование.

Рубрицирование это процесс (метод), трансляции документа с ЕЯ на ИПЯ типа библиотечно-библиографической классификации (рубрикатора).

Методы автоматического рубрицирования, основанные на знаниях

Словарь ИПЯ представляет собой БЗ. Процесс создания словаря сходен с процессом разработки БЗ для экспертной системы (ЭС). Наиболее часто применяемые модели БЗ - модели семантической сети и продукционные.

Модель семантической сети

Строится тезаурус в виде сети понятий и отношений между ними. Основные этапы полуавтоматического синтеза тезауруса:

1) Автоматическая обработка большого объема документов при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов.

2) Исследование выделенных групп экспертами и принятие решений. Решения:

a. О включении группы в тезаурус (группа в этом случае приобретает статус термина);

b. О наличии синонимии для данного термина;

c. О наличии прочих отношений для данного термина.

Кроме тезауруса в информационный фонд системы рубрицирования может включаться:

• БД объектов предметной области, например география, организации, предприятия, персоналии и т.д.

• Обобщающее отношение К позволяет организовать тезаурус в виде иерархической структуры.

Процесс рубрицирования состоит в выделении из документа опорных дескрипторов и отношений между ними с последующий сопоставлением их с описанием рубрик.

Продукционная модель

БЗ представляет собой набор правил, определяющих понятия. В определении понятия может входить:

1) (обязательно!) набор слов и фраз, объединенных логическими отношениями;

2) Отношения следования и совместности между словами;

3) Веса и статистические характеристики слов.

Этапы процесса рубрицирования:

1. Выделение понятий из текста;

2. Принятие решения о принадлежности текста рубрике;

Недостатки рубрицирования, основанного на знаниях, аналогичны недостаткам специализированных ЭС;

- трудоемкость синтеза тезауруса;

- неуниверсальность тезауруса.

Автоматическое рубрицирование основанное на обучении по примерам

Эти методы основаны на обработке обучающих выборок, состоящих из документов, для которых указывается принадлежность к рубрикам. Методы этой группы делятся на статистические и нейросетевые.

Статистические методы

Здесь используется понятие терминологического портрета рубрики и документа, куда входят термины и их веса. Процесс обучения (формирования портретов рубрик) сводится к составлению экспертами выборок для каждой рубрики. Основные критерии формирования выборки:

- минимизация размеров текста;

- максимальная лингвистическая полнота;

- минимальная избыточность.

Выделение терминов производится автоматически. При этом формируется матрица их весов W=|w(tr)|, t - термин, r - рубрика

Рубрицирование документа выполняется по некоторому решающему правилу, например:

Sum(t) tf(t)w(tr)>k(r), , где

tf(t)- частота встречаемости термина t в рассматриваемом документе;

k(r)- пороговое значение для рубрики r.

Вектор порогов рубрик k(r) также формируется при обучении путем применении решающего правила к обучающей выборке и оценке результата с точки зрения критериев точности и полноты. При этом используются как математические методы, так и эмпирика.

Достоинства статистических методов:

- универсальность;

- наличие аппарата количественных оценок релевантности документов рубрикам;

- высокое быстродействие.

Недостатки:

- низкое качество рубрицирования по сравнению с методами, основанными на знаниях.

Нейросетевые методы

«-» - невозможность обоснования поведения НС;

«+» - более высокое качество, чем у статистических методов;

<<< < Предыдущая 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 3631 32 33 34 35 36 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.06.2015527.9 Кб25ev-E4469.pdf
#
02.06.2015937.3 Кб1209ev-E544.pdf
#
02.06.2015323.07 Кб5example2.DOC
#
02.06.20152.74 Mб10Exam_total_modifi22.pdf
#
13.11.20196.84 Mб11Excel_2007.doc
#
26.03.2016815.1 Кб99ExQ_s_giperssylkoy.doc
#
08.12.2018192.51 Кб16fb_metod.doc
#
03.05.201951.04 Кб3fhv.docx
#
11.11.2019742.4 Кб3filosofia.doc
#
15.09.2019245.57 Кб8Filosofia_Itogovoe_testirovanie.docx
#
04.08.20191.45 Mб26fisika.docx