Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

инфа в тех универе

.pdf
Скачиваний:
24
Добавлен:
30.05.2015
Размер:
8.73 Mб
Скачать

3. Автоматизация работы со знаниями, представленными в текстовом виде

чего выделяются блоки наибольшей лексической и статистической реле­ вантности. На втором — путем соединения выделенных фрагментов форми­ руется итоговый документ.

Для реализации первого этапа используют модель линейных весовых коэффициентов. В соответствии с ней каждому блоку U текста оригинала автоматически (на основании определенных правил) приписываются весо­ вые коэффициенты:

к\, зависящий от расположения блока U в оригинале;

к2, зависящий от частоты появления блока в оригинале;

кз, зависящий от частоты использования блока в ключевых предложениях;

А:4, отражающий показатели статистической значимости блока. Затем по значениям ки kj, к^ и к4 и коэффициентам настройки про­

граммы реферирования аь а2, аз и а4 вычисляется коэффициент важности блока B{U) = а\к\ + а2к2 + a^kj, + а4/:4- По коэффициентам важности выпол­ няется отбор блоков в реферат.

Для вычисления каждого весового коэффициента используется своя группа правил. Для к\ они учитывают расположение блока:

во всем тексте или некотором разделе;

в начале, середине или конце текста;

во вводной части, заключении и т. д.

Для к2 правила учитывают результаты автоматической индексации документа (например, соотношение между частотой появления термина в документе и в наборе документов).

Для кз учитывается наличие в блоке таких ключевых фраз и выраже­ ний, как «в заключение...», «в данной статье...», «согласно результатам ана­ лиза...», «отличный от...», «малозначащий...» и т. п.

Для к4 правила учитывают вхождение термина в заголовки, колонти­ тулы, первый параграф текста, пользовательский профиль запроса и т. п.

Настройка с помощью коэффициентов аь а2, аз и а4 позволяет управ­ лять степенью сжатия.

На рис. 3.11 изображена обобщенная архитектура системы автомати­ ческого реферирования первого типа.

Главное достоинство описанной модели линейных весовых коэффи­ циентов заключается в простоте ее реализации, а главный недостаток связан с возможностью формирования бессвязных рефератов, не учитывающих контекст. Для его устранения вводится этап ручного редактирования ре­ зультатов.

Схема автоматического определения критериев адекватного выбора фрагментов оригинала для реферата используется в системе Inxight Summarizer (рис. 3.12). Обучение (настройка) системы осуществляется на наборах

80

3.3. Автоматическое реферирование и аннотирование

Сопостав­

 

Расчет

 

Выбор

 

Объединение

ление текста

»

^-

наиболее

—^

статистических

вьщеленных •" »

с фразовыми

 

показателей

 

релевантных

 

блоков

шаблонами

 

 

блоков

 

 

 

 

 

 

 

 

Анализ

 

 

 

Синтез

Рис. 3.11. Обобщенная архитектура системы автоматического реферирования

текстов и рефератов, составленных для них вручную при различных крите­ риях сжатия.

Человеку, уловившему общий смысл информации, легче выделить главное и кратко изложить содержание. Это и обусловливает создание реферирующга систем второго типа. Для таких систем требуются:

мощные вычислительные ресурсы;

развитые грамматики и словари;

развитые средства синтаксического разбора;

средства генерации естественно-языковых конструкций;

онтологические справочники.

Вэтих системах реализуются три подхода:

1)традиционный метод синтаксического разбора; 2) подход с опорой на понимание ЕЯ; 3) комбинированный подход.

Впервом случае для построения деревьев разбора используется син-

Тестовый набор

 

Правила и кри­

 

документов

 

терии адекватного

 

и рефератов

 

выбора фрагментов

 

Набор для обучения

Обучаемая

Вьщеленные

Блок

Блок формиро­

Исходные

вания правил

подсистема,

фрагменты

анализа

и критериев

документы

вьщеляющая

 

и именования

адекватного

фрагменты

 

 

 

фрагментов

выбора

 

из текста

 

Рефераты,

 

 

фрагментов

 

 

 

 

 

 

 

подготовленные

 

 

 

 

вручную

 

 

Блок фор­

 

 

 

 

Сформирован­

 

 

 

мирования

 

 

 

реферата

ные рефераты

 

 

 

из фрагментов

 

Рис. 3.12. Схема автоматического определения критериев адекватного выбора фрагментов

81

3. Автоматизация работы со знаниями, представленными в текстовом виде

таксическая информация. Процедуры сжатия манипулируют деревьями с целью сокращения скобок, подчиненных предложений и т. д. При этом де­ рево разбора упрощается до «структурной выжимки».

При втором подходе в результате разбора строится не дерево, а семан­ тическая сеть текста. Другими словами, в ходе разбора выделяются концеп­ туальные репрезентативные структуры исходного текста. Из них удаляется избыточная информация: поверхностные суждения, концептуальные под­ графы [66]. Далее выполняется агрегирование и обобщение информации: слияние некоторых концептуальных графов на базе правил. В результате получается «концептуальная выжимка».

Обобщенная схема для этих двух методов представлена на рис. 3.13. Стадии синтеза реферата в обоих подходах почти совпадают (исполь­

зуется генератор текста).

Для функционирования подобных систем необходимы:

исчерпывающие словари (тезаурусы) типа WordNet;

онтологические справочники типа Сус и Penman Upper Model;

большие объемы тестовых файлов с текстами (например, The Wall Street Journal или Penn Treebank от Linguistic Data Consortium).

Интеллектуальные автоматизированные системы, обрабатывающие тексты на ЕЯ, требуют развитого лингвистического обеспечения (ЛО). В последнее десятилетие было развернуто множество проектов по его созда­ нию. К числу наиболее интересных из них относится WordNet откры­ тая справочная лексическая система, представляющая тезаурус англий­ ского языка. Данный проект выполняется с начала 90-х годов в лаборато­ рии когнитологии Принстонского университета (Cognitive Science Laboratory at Princeton University) под руководством проф. Дж. А. Миллера (George А. Miller)*.

Синтаксический

Дерево

Сжатие

Структурная

 

разбор

разбора

 

«вьБКимка»

 

Исходный

 

 

Генерация

текст

 

 

 

 

 

 

Понимание

БЗ

«Выжимка»

Концептуальная

 

 

 

«выжимка»

 

 

 

 

 

Анализ

 

Преобразование

Синтез

Рис. 3.13. Два основных подхода к формированию реферата в системах с опорой на знания

http://www.cogsci.princeton.edu/~wn/index.shtmL

82

3.3. Автоматическое реферирование и аннотирование

Система WordNet основана на психолингвистических теориях органи­ зации лексической памяти человека. Существительные, прилагательные, глаголы и наречия группируются в синонимические множества (synonym sets), называемые синсетами (synset). Каждый синеет представляет одно базовое лексическое понятие и состоит из множества слов и устойчивых словосочетаний, равнозначных в некотором контексте. Синсеты связаны отношениями различных типов.

Математической моделью тезауруса WordNet служит граф (X, R). Множество вершин в нем разбито на два непересекающихся подмножества: X=Xi и Х2. Вершины из Xi соответствуют словам и словосочетаниям, вер­ шины из Х2 - их значениям (смыслам, толкованиям). Каждое значение соот­ носится с одной из частей речи: существительным, прилагательным, глаго­ лом или наречием. В графовой интерпретации такая типизация может быть задана раскраской вершин изХг.

Множество ребер также разбито на два непересекающихся подмноже­ ства: R = R\KJ /?2- Ребра из R\ связывают слова со значениями, т.е. элементы из Xi с элементами из JGПодобные ребра представляют отношения, входя­ щие в множество XixXa. Ребра, принадлежащие второму подмножеству, свя­ зывают слова со словами и значения со значениями, т. е. представляют от­ ношения, входящие в множества XixXi ИХ2ХХ2.

Объединение слов и словосочетаний в синсеты (вершины из Х2) вы­ ражает отношение синонимии. Прочие тезаурусные отношения задают типы ребер из ^2- В WordNet выделено 14 базовых типов таких отношений (табл. 3.5). Помимо них используются обратные отношения для каждого из перечисленных типов.

 

 

 

Таблица 3.5

Тип

Название

Описание

Примеры прямых

отно­

отношения

 

отношений

шения

 

 

 

1

Антоним

Отношение между словами,

large — small,

 

(antonym)

имеющими противоположные

большой — ма­

2

«Имеет отно­

значения

лый

Отношение между прилагатель­

musical — music,

 

шение к» (per­

ным и другим словом (как пра­

музыкальный —

 

tains to)

вило, существительным, на ос­

музыка

3

 

нове которого оно образовано)

 

Глагол, на осно­

Отношение между причастием

studied — study,

 

ве которого об­

(прилагательным, деепричасти­

изучаемый —

 

разовано при­

ем) и глаголом, на основе кото­

изучать

 

частие (is а par­

рого оно образовано

 

 

ticiple of)

 

 

83

3. Автоматизация работы со знаниями, представленными в текстовом виде

 

 

Продолэюение табл. 3.5

Тип

Название

Описание

Примеры прямых

 

отно­

отношения

 

отношений

 

шения

 

 

 

 

4

1 Слово, на осно­

1 Отношение между наречием и

1 quickly — quick,

 

 

ве которого об­

словом, на основе которого оно

быстро — быст­

 

 

разовано наре­

образовано

рый

 

 

чие (is derived

 

 

 

5

from)

 

eat — chew,

 

1 Действие, со­

1 Отношение между действиями

 

 

провождающее

(глаголами) xwy, фиксирующее,

есть — жевать

 

 

данное действие

что JC не может быть выполнено

 

 

 

(entails)

до тех пор, пока не выполняется

 

 

6

Глагольная

или не совершено у

 

 

Отношение между синсетами,

(agree, accord,

 

 

группа (verb

объединяющими глаголы и

consort, fit in,

 

 

group)

имеющими близкие значения

harmonize) —

 

 

 

 

(agree, corre­

 

 

 

 

spond, jibe, match,

 

 

 

 

tally)

 

7

Атрибут

Отношение между существи­

duration — long,

1

 

(attribute)

тельным, представляющим неко­

продолжитель­

 

 

 

торый атрибут, и прилагатель­

ность — долгая;

 

 

 

ным, выражающим одно из зна­

duration — short,

 

 

 

чений этого атрибута

продолжитель­

 

8

«Смотри также»

 

ность — короткая

 

Общий случай ассоциативного

slow — gradual,

1

 

(see also)

отношения

медленный —

 

 

 

 

последователь­

 

 

 

 

ный

 

9

Подобие

Отношение между прилагатель­

auxiliary — sub­

 

 

(is similar to)

ным и другим словом, близким к

sidiary, вспомога­

 

 

 

нему по смыслу

тельный — до­

 

 

 

 

полнительный

 

10

Род—вид, вид—

Родовидовые отношения.

bird — parrot,

 

 

род (is а type of,

Прямое отношение: род—вид;

птица — попугай

 

И

is а kind of)

обратное отношение: вид-род

computer — pro­

 

Целое—часть

Отношения дезагрегации и агре­

 

 

(has part),

гации. Прямое отношение (це­

cessor, компью­

 

 

часть—целое

лое—часть): JC включает J^ В каче­

тер — процессор

 

 

(is а part of)

стве составной части (звена);

 

 

 

 

обратное отношение (часть—

 

 

 

 

целое): у является составной ча­

 

 

 

 

стью (звеном) X

1

 

84

 

3.3. Автоматическое реферирование и аннотирование

 

 

 

 

Окончание табл. 3.5

Тип

Название

Описание

Примеры прямых

 

отно­

отношения

 

отношений

 

шения

 

 

 

 

12

«Сделан из» (is

Субстанциональные отношения.

air — oxygen,

 

 

made of, has

Прямое отношение: х состоит из

воздух — кисло­

 

 

substance),

субстанции (компонента) у;

род;

 

 

«служит суб­

обратное отношение: у входит в

air — nitrogen,

 

 

станцией для»

X в качестве субстанции (компо­

воздух — азот

 

 

(is а substance of)

нента)

 

 

13

Множество—

Отношения принадлежности.

regiment — batta­

 

 

элемент

Прямое отношение (множест­

lion, полк — ба­

 

 

(has member),

во—элемент): множество х

тальон

 

 

элемент—

включает элемент j^; обратное

 

 

 

множество (is а

отношение (элемент—

 

 

 

member of)

множество): элемент>^ является

 

 

14

 

членом множества х

 

 

Цель—способ

Отношения между глаголами,

separate — cut,

1

 

(is aim for),

выражающими целевое действие

отделять — ре­

 

 

способ—цель

и способ его выполнения.

зать

 

 

(is one way to)

Прямое отношение: цель—

 

 

 

 

способ, обратное отношение:

 

 

 

 

способ—цель

 

 

Поскольку отношения типов 1, 6, 8 и 9 являются симметричными, они совпадают со своими обратными отношениями. Для отношений типов 10-14 в табл. 3.5 приведены описания как прямых, так и обратных отношений.

На основе отношений базовых типов определяются прочие типы от­ ношений, представляемых ребрами из /?2.

Web-интерфейс для работы с сетевой версией тезауруса доступен по адресу: http://www.cogsci.princeton.edu/cgi-bin/webwn. Локальную версию WordNet можно загрузить с сайта проекта. Она включает: информацион­ ную базу тезауруса; средство для поиска и просмотра тезауруса WordNet Browser; программные библиотеки и исходные тексты программ WordNet Browser; документацию, описывающую структуру и форматы файлов информационной базы, а также программную реализацию WordNet Browser.

WordNet является бесплатным, свободно распространяемым продук­ том и может использоваться как в исходном, так и модифицированном виде в коммерческих приложениях. Информационная база WordNet 2.0 содержит 144309 слов и словосочетаний, 115424 значения и 203145 сочетаний словозначение (ребер графа тезауруса, образующих подмножество 7?i).

85

3.Автоматизация работы со знаниями, представленными в текстовом виде

Спроектом WordNet связан ряд проектов, направленных на расшире­ ние модели и программных средств WordNet, интеграцией компонентов WordNet в ИАС, созданием интерфейсов для доступа к информационной базе WordNet из приложений, основанных на различных технологиях и про­ граммных платформах, построением тезаурусов типа WordNet других ЕЯ*.

Вчастности, разработаны WordNet-интерфейсы для технологий .NET (языка С#), СОМ, JavaAVAP, языков C++, XML, Java, SQL, Lisp, ПРОЛОГ, Haskell,

атакже множество web-интерфейсов.

Интерактивный графический интерфейс для взаимодействия с тезау­ русом WordNet реализован в системе Visual Thesaurus**, разработанной фир­ мой Plumb Design***. Система формирует двухмерное или трехмерное представление графа тезауруса. Вершины из Х\ отображаются в виде слов или словосочетаний, а вершины из Х2 — в виде цветных окружностей. В свою очередь, ребра из R\ обозначаются сплошными, а ребра из i?2 — пунк­ тирными линиями.

Щелчок мыши на вершине-слове перемещает ее в центр окна. Во­ круг нее располагаются вершины из JG, представляющие значения данно­ го слова (рис. 3.14). Аналогично, щелчок мыши на вершине-значении пе­ реводит эту вершину в центр окна (рис. 3.15). Вокруг нее отображаются вершины-слова, образующие соответствующий синеет. При подведении мыши к вершине-значению слова и словосочетания, входящие в синеет, выделяются цветом, а на экран выводится краткое определение значения. Указание мышью на ребро из i?2 вызывает вывод на экран типа представ­ ляемого им отношения.

Система содержит средства для поиска в тезаурусе и навигации по нему. Фильтр типов отношений позволяет запретить отображение ребер из /?2 определенных типов. При работе в трехмерном режиме можно вра­ щать представляемый на экране фрагмент графа, выбирая наиболее наглядный вид.

Реализация Visual Thesaurus базируется на развиваемой Plumb De­ sign технологии Thinkmap, предназначенной для создания динамических визуальных интерфейсов ИС, содержащих сложно взаимосвязанные дан­ ные. Thinkmap позволяет отображать как элементы данных, так и отно­ шения между ними. В ней используется Java-технология и предусмотре­ ны функции для доступа к различным источникам данных. С помощью Thinkmap могут разрабатываться модули визуализации для webприложений и локальных систем.

http://www.globalwordnet.org.

http://www.visualthesaurus.com.

http://www.plumbdesign.com.

86

3.3. Автоматическое реферирование и аннотирование

екрепепсе whiie sleeping

"She ciaims to n&^Bt dream" "He dreamt a stranqe scene"<^

dream up

а eenes ot menta! images and

8fflc4ions occufftng durrtg sieef:«

plp^juredim

a cherished desire

whiie awake

 

tfTiaginattve thoughts tnduiged in

 

a tariastic fet^ vair^ hope (from

 

tar^tastes юс1>.юей by the opsum ppe)

 

a state of mind chafacieriied by

 

abstraction and release from reality

 

someone ot somethtng v/onderfui

'"Hre^^miling

have a dayi±eam

experience wNie sleeping

aspir^atJon

|ВШ»а»ШШО|ШОЯРйЯ^^«а««^

Рис. 3.14. Представление графа тезауруса в системе Visual Thesaurus (в цен­ тре окна располагается вершина-слово)

Еще одним продуктом, предоставляющим ЛО и средства для взаимо­ действия с ним, является пакет «МедиаЛингва Машинная словарная морфо­ логия SDK»*. Он служит инструментом для реализации функций морфоло­ гической обработки в прикладных ИАС. Пакет включает программные биб­ лиотеки, документацию и словари русского, английского, немецкого, итальянского, испанского и французского языков. Предусмотрена возмож­ ность подключения словарей других европейских языков.

Программные компоненты пакета поддерживают три главные функции:

нормализацию (получение базовой грамматической формы слова для заданной словоформы);

морфологический анализ (определение грамматических характери­ стик словоформы — род, число, падеж, время и т. д.);

морфологический синтез (построение словоформы по базовой фор­ ме слова и грамматическим характеристикам).

Отметим следующие новые задачи, связанные с компьютерным рефе­ рированием.

http://www.medialingua.ru.

87

3. Автоматизация работы со знаниями, представленными в текстовом виде

 

,

,

liquid air .

 

wipd

 

Г

breath

Ш

 

\i

 

 

 

: а mixture of gases (especially

 

 

 

 

 

 

\ oxygen) required for breaming

 

 

 

 

 

 

^the stuffIHatttie wind consists

 

 

\

>

 

 

 

 

 

 

 

"atf pollution"

 

 

\

:

 

 

"a smell of chemkais in the

 

 

 

 

ai?"

 

 

^:

 

 

"open a window т6 Ы m

 

 

 

 

some a»r"

 

 

\ < J

 

 

"i need some fresh aif

_____ji;

 

 

 

 

 

 

 

 

 

 

N>

 

\atomic number 18

 

 

 

 

 

 

arjon

atomic n u m b e ^ .

 

.

;

.

ЗГ

 

- ^ . ^ . - ^ o n

kryploiTr,^

 

9 ^

 

%.^^^ atdf^irmimber 54

atomic ni/mber 3§^ /

 

\

\

 

9«^

atpmrc number 8

 

atomic mimber 7

 

a fjijjti m the 9»s«oas staie hawig f>e«hef ridepef^f^ shape new vok«ree Ш1й bewtg at3te to ехршс!

m mow*g (somef8we$ wSh cons*c«sf9faie force) Irom ш «re« ol ^ih presswe to ?ш are* of tow presswe

s cotortess * i d ocfewte-ss rjert g»s

a coterltess etefnent th«t mдаеof the Six wsrt pts$es

a cotorfes-ss odorte^g gaseous

Рис. 3.15. Представление графа тезауруса в системе Visual Thesaums (в цен­ тре окна располагается вершина-значение)

1. Создание одноязычных рефератов из источников на разных языках. На основе таких рефератов можно принимать решения, требуется ли пол­ ный перевод исходных документов.

2.Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (таблицы, диаграммы, гра­ фики и т. д.). Например, документ может содержать статистическую информа­ цию из реляционной БД и комментарии к ней. Методы реферирования для та­ ких документов находятся на стадии теоретической проработки.

3.Создание рефератов на основе массивов документов. Например, по­ строение единого реферата по сборнику тезисов докладов научной конферен­ ции. Для решения этой задачи требуются методы, позволяющие анализировать каждый документ из набора и формировать общий реферат путем объединения

иобобщения извлеченных сведений. Соответствующие средства должны быть способны выявлять сходство и различие в содержании документов, отбрасы­ вать избыточную информацию и генерировать краткое изложение содержания массива в целом. Одна из областей применения подобных средств — формиро­ вание новостных сообщений по газетным источникам.

3.3.Автоматическое реферирование и аннотирование

4.Растущий объем мультимедийной информации обусловливает акту­ альность разработки средств ее автоматического реферирования. Методы извлечения семантики из мультимедийной информации находятся на на­ чальных стадиях развития.

Средства автоматического аннотирования в целом аналогичны сред­ ствам автоматического реферирования. Однако требования к сжатию текста для них, как правило, на порядок более жесткие.

Основные выводы

1. Технологии автоматического реферирования и аннотирования толь­ ко начинают свою эволюцию. Будущее принадлежит системам, основанным на знаниях. Это требует создания и использования представительных слова­ рей-тезаурусов (таких, как WordNet) и онтологических справочников (таких, как Сус и Penman Upper Model).

2.Для обучения NLP-систем можно использовать большие хранилища текстов и рефератов к ним (например, на основе The Wall Street Journal).

3.В современных системах автоматического реферирования и анно­ тирования используется комбинированный подход, сочетающий статисти­ ческие методы и методы, основанные на знаниях.

4.Системы автоматического реферирования и аннотирования должны поддерживать распространенные языки разметки и форматы документов (такие, как HTML, XML, RTF, PDF, DOC), a также основные форматы мета­ данных для информационных ресурсов.

5.При разработке ЛО ИАС, обрабатывающих тексты на ЕЯ, используют­ ся психолингвистические теории организации лексической памяти человека и методы математической лингвистики. Примером служит система WordNet.

Вопросы для самопроверки

1.Чем отличается реферат от аннотации?

2.Почему автоматическое реферирование и аннотирование относят к техноло­ гиям ИИ?

3.На чем основываются поверхностные и глубинные методы автоматического реферирования и аннотирования?

4.Какие системы автоматического реферирования и аннотирования Вы знаете?

5.Какие требования предъявляются к реферату?

6.Перечислите виды рефератов.

7.Каковы основные идеи метода составления выдержек?

8.Охарактеризуйте модель линейных весовых коэффициентов. Каковы ее досто­ инства и недостатки?

9.Какие подходы реализуются в системах автоматического реферирования, осно­ ванных на знаниях?

89