Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ExQ_s_giperssylkoy.doc
Скачиваний:
99
Добавлен:
26.03.2016
Размер:
815.1 Кб
Скачать
  1. Автоматическое рубрицирование.

Рубрицирование это процесс (метод), трансляции документа с ЕЯ на ИПЯ типа библиотечно-библиографической классификации (рубрикатора).

Методы автоматического рубрицирования, основанные на знаниях

Словарь ИПЯ представляет собой БЗ. Процесс создания словаря сходен с процессом разработки БЗ для экспертной системы (ЭС). Наиболее часто применяемые модели БЗ - модели семантической сети и продукционные.

Модель семантической сети

Строится тезаурус в виде сети понятий и отношений между ними. Основные этапы полуавтоматического синтеза тезауруса:

1) Автоматическая обработка большого объема документов при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов.

2) Исследование выделенных групп экспертами и принятие решений. Решения:

a. О включении группы в тезаурус (группа в этом случае приобретает статус термина);

b. О наличии синонимии для данного термина;

c. О наличии прочих отношений для данного термина.

Кроме тезауруса в информационный фонд системы рубрицирования может включаться:

• БД объектов предметной области, например география, организации, предприятия, персоналии и т.д.

• Обобщающее отношение К позволяет организовать тезаурус в виде иерархической структуры.

Процесс рубрицирования состоит в выделении из документа опорных дескрипторов и отношений между ними с последующий сопоставлением их с описанием рубрик.

Продукционная модель

БЗ представляет собой набор правил, определяющих понятия. В определении понятия может входить:

1) (обязательно!) набор слов и фраз, объединенных логическими отношениями;

2) Отношения следования и совместности между словами;

3) Веса и статистические характеристики слов.

Этапы процесса рубрицирования:

1. Выделение понятий из текста;

2. Принятие решения о принадлежности текста рубрике;

Недостатки рубрицирования, основанного на знаниях, аналогичны недостаткам специализированных ЭС;

- трудоемкость синтеза тезауруса;

- неуниверсальность тезауруса.

Автоматическое рубрицирование основанное на обучении по примерам

Эти методы основаны на обработке обучающих выборок, состоящих из документов, для которых указывается принадлежность к рубрикам. Методы этой группы делятся на статистические и нейросетевые.

Статистические методы

Здесь используется понятие терминологического портрета рубрики и документа, куда входят термины и их веса. Процесс обучения (формирования портретов рубрик) сводится к составлению экспертами выборок для каждой рубрики. Основные критерии формирования выборки:

- минимизация размеров текста;

- максимальная лингвистическая полнота;

- минимальная избыточность.

Выделение терминов производится автоматически. При этом формируется матрица их весов W=|w(tr)|, t - термин, r - рубрика

Рубрицирование документа выполняется по некоторому решающему правилу, например:

Sum(t) tf(t)w(tr)>k(r), , где

tf(t)- частота встречаемости термина t в рассматриваемом документе;

k(r)- пороговое значение для рубрики r.

Вектор порогов рубрик k(r) также формируется при обучении путем применении решающего правила к обучающей выборке и оценке результата с точки зрения критериев точности и полноты. При этом используются как математические методы, так и эмпирика.

Достоинства статистических методов:

- универсальность;

- наличие аппарата количественных оценок релевантности документов рубрикам;

- высокое быстродействие.

Недостатки:

- низкое качество рубрицирования по сравнению с методами, основанными на знаниях.

Нейросетевые методы

«-» - невозможность обоснования поведения НС;

«+» - более высокое качество, чем у статистических методов;

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]