инфа в тех универе
.pdf3. Автоматизация работы со знаниями, представленными в текстовом виде
чего выделяются блоки наибольшей лексической и статистической реле вантности. На втором — путем соединения выделенных фрагментов форми руется итоговый документ.
Для реализации первого этапа используют модель линейных весовых коэффициентов. В соответствии с ней каждому блоку U текста оригинала автоматически (на основании определенных правил) приписываются весо вые коэффициенты:
•к\, зависящий от расположения блока U в оригинале;
•к2, зависящий от частоты появления блока в оригинале;
•кз, зависящий от частоты использования блока в ключевых предложениях;
•А:4, отражающий показатели статистической значимости блока. Затем по значениям ки kj, к^ и к4 и коэффициентам настройки про
граммы реферирования аь а2, аз и а4 вычисляется коэффициент важности блока B{U) = а\к\ + а2к2 + a^kj, + а4/:4- По коэффициентам важности выпол няется отбор блоков в реферат.
Для вычисления каждого весового коэффициента используется своя группа правил. Для к\ они учитывают расположение блока:
•во всем тексте или некотором разделе;
•в начале, середине или конце текста;
•во вводной части, заключении и т. д.
Для к2 правила учитывают результаты автоматической индексации документа (например, соотношение между частотой появления термина в документе и в наборе документов).
Для кз учитывается наличие в блоке таких ключевых фраз и выраже ний, как «в заключение...», «в данной статье...», «согласно результатам ана лиза...», «отличный от...», «малозначащий...» и т. п.
Для к4 правила учитывают вхождение термина в заголовки, колонти тулы, первый параграф текста, пользовательский профиль запроса и т. п.
Настройка с помощью коэффициентов аь а2, аз и а4 позволяет управ лять степенью сжатия.
На рис. 3.11 изображена обобщенная архитектура системы автомати ческого реферирования первого типа.
Главное достоинство описанной модели линейных весовых коэффи циентов заключается в простоте ее реализации, а главный недостаток связан с возможностью формирования бессвязных рефератов, не учитывающих контекст. Для его устранения вводится этап ручного редактирования ре зультатов.
Схема автоматического определения критериев адекватного выбора фрагментов оригинала для реферата используется в системе Inxight Summarizer (рис. 3.12). Обучение (настройка) системы осуществляется на наборах
80
3.3. Автоматическое реферирование и аннотирование
Сопостав |
|
Расчет |
|
Выбор |
|
Объединение |
|
ление текста |
» |
—^- |
наиболее |
—^ |
|||
статистических |
вьщеленных •" » |
||||||
с фразовыми |
|
показателей |
|
релевантных |
|
блоков |
|
шаблонами |
|
|
блоков |
|
|||
|
|
|
|
|
|||
|
|
Анализ |
|
|
|
Синтез |
Рис. 3.11. Обобщенная архитектура системы автоматического реферирования
текстов и рефератов, составленных для них вручную при различных крите риях сжатия.
Человеку, уловившему общий смысл информации, легче выделить главное и кратко изложить содержание. Это и обусловливает создание реферирующга систем второго типа. Для таких систем требуются:
•мощные вычислительные ресурсы;
•развитые грамматики и словари;
•развитые средства синтаксического разбора;
•средства генерации естественно-языковых конструкций;
•онтологические справочники.
Вэтих системах реализуются три подхода:
1)традиционный метод синтаксического разбора; 2) подход с опорой на понимание ЕЯ; 3) комбинированный подход.
Впервом случае для построения деревьев разбора используется син-
Тестовый набор |
|
Правила и кри |
|
|
документов |
|
терии адекватного |
|
|
и рефератов |
|
выбора фрагментов |
|
|
Набор для обучения |
Обучаемая |
Вьщеленные |
Блок |
Блок формиро |
Исходные |
вания правил |
|||
подсистема, |
фрагменты |
анализа |
и критериев |
|
документы |
вьщеляющая |
|
и именования |
адекватного |
фрагменты |
|
|||
|
|
фрагментов |
выбора |
|
|
из текста |
|
||
Рефераты, |
|
|
фрагментов |
|
|
|
|
||
|
|
|
|
|
подготовленные |
|
|
|
|
вручную |
|
|
Блок фор |
|
|
|
|
Сформирован |
|
|
|
|
мирования |
|
|
|
|
реферата |
ные рефераты |
|
|
|
из фрагментов |
|
Рис. 3.12. Схема автоматического определения критериев адекватного выбора фрагментов
81
3. Автоматизация работы со знаниями, представленными в текстовом виде
таксическая информация. Процедуры сжатия манипулируют деревьями с целью сокращения скобок, подчиненных предложений и т. д. При этом де рево разбора упрощается до «структурной выжимки».
При втором подходе в результате разбора строится не дерево, а семан тическая сеть текста. Другими словами, в ходе разбора выделяются концеп туальные репрезентативные структуры исходного текста. Из них удаляется избыточная информация: поверхностные суждения, концептуальные под графы [66]. Далее выполняется агрегирование и обобщение информации: слияние некоторых концептуальных графов на базе правил. В результате получается «концептуальная выжимка».
Обобщенная схема для этих двух методов представлена на рис. 3.13. Стадии синтеза реферата в обоих подходах почти совпадают (исполь
зуется генератор текста).
Для функционирования подобных систем необходимы:
•исчерпывающие словари (тезаурусы) типа WordNet;
•онтологические справочники типа Сус и Penman Upper Model;
•большие объемы тестовых файлов с текстами (например, The Wall Street Journal или Penn Treebank от Linguistic Data Consortium).
Интеллектуальные автоматизированные системы, обрабатывающие тексты на ЕЯ, требуют развитого лингвистического обеспечения (ЛО). В последнее десятилетие было развернуто множество проектов по его созда нию. К числу наиболее интересных из них относится WordNet — откры тая справочная лексическая система, представляющая тезаурус англий ского языка. Данный проект выполняется с начала 90-х годов в лаборато рии когнитологии Принстонского университета (Cognitive Science Laboratory at Princeton University) под руководством проф. Дж. А. Миллера (George А. Miller)*.
Синтаксический |
Дерево |
Сжатие |
Структурная |
|
разбор |
разбора |
|
«вьБКимка» |
|
Исходный |
|
|
Генерация |
|
текст |
|
|
||
|
|
|
|
|
Понимание |
БЗ |
«Выжимка» |
Концептуальная |
|
|
|
«выжимка» |
|
|
|
|
|
|
|
Анализ |
|
Преобразование |
Синтез |
Рис. 3.13. Два основных подхода к формированию реферата в системах с опорой на знания
http://www.cogsci.princeton.edu/~wn/index.shtmL
82
3.3. Автоматическое реферирование и аннотирование
Система WordNet основана на психолингвистических теориях органи зации лексической памяти человека. Существительные, прилагательные, глаголы и наречия группируются в синонимические множества (synonym sets), называемые синсетами (synset). Каждый синеет представляет одно базовое лексическое понятие и состоит из множества слов и устойчивых словосочетаний, равнозначных в некотором контексте. Синсеты связаны отношениями различных типов.
Математической моделью тезауруса WordNet служит граф (X, R). Множество вершин в нем разбито на два непересекающихся подмножества: X=Xi и Х2. Вершины из Xi соответствуют словам и словосочетаниям, вер шины из Х2 - их значениям (смыслам, толкованиям). Каждое значение соот носится с одной из частей речи: существительным, прилагательным, глаго лом или наречием. В графовой интерпретации такая типизация может быть задана раскраской вершин изХг.
Множество ребер также разбито на два непересекающихся подмноже ства: R = R\KJ /?2- Ребра из R\ связывают слова со значениями, т.е. элементы из Xi с элементами из JGПодобные ребра представляют отношения, входя щие в множество XixXa. Ребра, принадлежащие второму подмножеству, свя зывают слова со словами и значения со значениями, т. е. представляют от ношения, входящие в множества XixXi ИХ2ХХ2.
Объединение слов и словосочетаний в синсеты (вершины из Х2) вы ражает отношение синонимии. Прочие тезаурусные отношения задают типы ребер из ^2- В WordNet выделено 14 базовых типов таких отношений (табл. 3.5). Помимо них используются обратные отношения для каждого из перечисленных типов.
|
|
|
Таблица 3.5 |
Тип |
Название |
Описание |
Примеры прямых |
отно |
отношения |
|
отношений |
шения |
|
|
|
1 |
Антоним |
Отношение между словами, |
large — small, |
|
(antonym) |
имеющими противоположные |
большой — ма |
2 |
«Имеет отно |
значения |
лый |
Отношение между прилагатель |
musical — music, |
||
|
шение к» (per |
ным и другим словом (как пра |
музыкальный — |
|
tains to) |
вило, существительным, на ос |
музыка |
3 |
|
нове которого оно образовано) |
|
Глагол, на осно |
Отношение между причастием |
studied — study, |
|
|
ве которого об |
(прилагательным, деепричасти |
изучаемый — |
|
разовано при |
ем) и глаголом, на основе кото |
изучать |
|
частие (is а par |
рого оно образовано |
|
|
ticiple of) |
|
|
83
3. Автоматизация работы со знаниями, представленными в текстовом виде
|
|
Продолэюение табл. 3.5 |
||
Тип |
Название |
Описание |
Примеры прямых |
|
отно |
отношения |
|
отношений |
|
шения |
|
|
|
|
4 |
1 Слово, на осно |
1 Отношение между наречием и |
1 quickly — quick, |
|
|
ве которого об |
словом, на основе которого оно |
быстро — быст |
|
|
разовано наре |
образовано |
рый |
|
|
чие (is derived |
|
|
|
5 |
from) |
|
eat — chew, |
|
1 Действие, со |
1 Отношение между действиями |
|
||
|
провождающее |
(глаголами) xwy, фиксирующее, |
есть — жевать |
|
|
данное действие |
что JC не может быть выполнено |
|
|
|
(entails) |
до тех пор, пока не выполняется |
|
|
6 |
Глагольная |
или не совершено у |
|
|
Отношение между синсетами, |
(agree, accord, |
|
||
|
группа (verb |
объединяющими глаголы и |
consort, fit in, |
|
|
group) |
имеющими близкие значения |
harmonize) — |
|
|
|
|
(agree, corre |
|
|
|
|
spond, jibe, match, |
|
|
|
|
tally) |
|
7 |
Атрибут |
Отношение между существи |
duration — long, |
1 |
|
(attribute) |
тельным, представляющим неко |
продолжитель |
|
|
|
торый атрибут, и прилагатель |
ность — долгая; |
|
|
|
ным, выражающим одно из зна |
duration — short, |
|
|
|
чений этого атрибута |
продолжитель |
|
8 |
«Смотри также» |
|
ность — короткая |
|
Общий случай ассоциативного |
slow — gradual, |
1 |
||
|
(see also) |
отношения |
медленный — |
|
|
|
|
последователь |
|
|
|
|
ный |
|
9 |
Подобие |
Отношение между прилагатель |
auxiliary — sub |
|
|
(is similar to) |
ным и другим словом, близким к |
sidiary, вспомога |
|
|
|
нему по смыслу |
тельный — до |
|
|
|
|
полнительный |
|
10 |
Род—вид, вид— |
Родовидовые отношения. |
bird — parrot, |
|
|
род (is а type of, |
Прямое отношение: род—вид; |
птица — попугай |
|
И |
is а kind of) |
обратное отношение: вид-род |
computer — pro |
|
Целое—часть |
Отношения дезагрегации и агре |
|
||
|
(has part), |
гации. Прямое отношение (це |
cessor, компью |
|
|
часть—целое |
лое—часть): JC включает J^ В каче |
тер — процессор |
|
|
(is а part of) |
стве составной части (звена); |
|
|
|
|
обратное отношение (часть— |
|
|
|
|
целое): у является составной ча |
|
|
|
|
стью (звеном) X |
1 |
|
84
|
3.3. Автоматическое реферирование и аннотирование |
|
||
|
|
|
Окончание табл. 3.5 |
|
Тип |
Название |
Описание |
Примеры прямых |
|
отно |
отношения |
|
отношений |
|
шения |
|
|
|
|
12 |
«Сделан из» (is |
Субстанциональные отношения. |
air — oxygen, |
|
|
made of, has |
Прямое отношение: х состоит из |
воздух — кисло |
|
|
substance), |
субстанции (компонента) у; |
род; |
|
|
«служит суб |
обратное отношение: у входит в |
air — nitrogen, |
|
|
станцией для» |
X в качестве субстанции (компо |
воздух — азот |
|
|
(is а substance of) |
нента) |
|
|
13 |
Множество— |
Отношения принадлежности. |
regiment — batta |
|
|
элемент |
Прямое отношение (множест |
lion, полк — ба |
|
|
(has member), |
во—элемент): множество х |
тальон |
|
|
элемент— |
включает элемент j^; обратное |
|
|
|
множество (is а |
отношение (элемент— |
|
|
|
member of) |
множество): элемент>^ является |
|
|
14 |
|
членом множества х |
|
|
Цель—способ |
Отношения между глаголами, |
separate — cut, |
1 |
|
|
(is aim for), |
выражающими целевое действие |
отделять — ре |
|
|
способ—цель |
и способ его выполнения. |
зать |
|
|
(is one way to) |
Прямое отношение: цель— |
|
|
|
|
способ, обратное отношение: |
|
|
|
|
способ—цель |
|
|
Поскольку отношения типов 1, 6, 8 и 9 являются симметричными, они совпадают со своими обратными отношениями. Для отношений типов 10-14 в табл. 3.5 приведены описания как прямых, так и обратных отношений.
На основе отношений базовых типов определяются прочие типы от ношений, представляемых ребрами из /?2.
Web-интерфейс для работы с сетевой версией тезауруса доступен по адресу: http://www.cogsci.princeton.edu/cgi-bin/webwn. Локальную версию WordNet можно загрузить с сайта проекта. Она включает: информацион ную базу тезауруса; средство для поиска и просмотра тезауруса WordNet Browser; программные библиотеки и исходные тексты программ WordNet Browser; документацию, описывающую структуру и форматы файлов информационной базы, а также программную реализацию WordNet Browser.
WordNet является бесплатным, свободно распространяемым продук том и может использоваться как в исходном, так и модифицированном виде в коммерческих приложениях. Информационная база WordNet 2.0 содержит 144309 слов и словосочетаний, 115424 значения и 203145 сочетаний словозначение (ребер графа тезауруса, образующих подмножество 7?i).
85
3.Автоматизация работы со знаниями, представленными в текстовом виде
Спроектом WordNet связан ряд проектов, направленных на расшире ние модели и программных средств WordNet, интеграцией компонентов WordNet в ИАС, созданием интерфейсов для доступа к информационной базе WordNet из приложений, основанных на различных технологиях и про граммных платформах, построением тезаурусов типа WordNet других ЕЯ*.
Вчастности, разработаны WordNet-интерфейсы для технологий .NET (языка С#), СОМ, JavaAVAP, языков C++, XML, Java, SQL, Lisp, ПРОЛОГ, Haskell,
атакже множество web-интерфейсов.
Интерактивный графический интерфейс для взаимодействия с тезау русом WordNet реализован в системе Visual Thesaurus**, разработанной фир мой Plumb Design***. Система формирует двухмерное или трехмерное представление графа тезауруса. Вершины из Х\ отображаются в виде слов или словосочетаний, а вершины из Х2 — в виде цветных окружностей. В свою очередь, ребра из R\ обозначаются сплошными, а ребра из i?2 — пунк тирными линиями.
Щелчок мыши на вершине-слове перемещает ее в центр окна. Во круг нее располагаются вершины из JG, представляющие значения данно го слова (рис. 3.14). Аналогично, щелчок мыши на вершине-значении пе реводит эту вершину в центр окна (рис. 3.15). Вокруг нее отображаются вершины-слова, образующие соответствующий синеет. При подведении мыши к вершине-значению слова и словосочетания, входящие в синеет, выделяются цветом, а на экран выводится краткое определение значения. Указание мышью на ребро из i?2 вызывает вывод на экран типа представ ляемого им отношения.
Система содержит средства для поиска в тезаурусе и навигации по нему. Фильтр типов отношений позволяет запретить отображение ребер из /?2 определенных типов. При работе в трехмерном режиме можно вра щать представляемый на экране фрагмент графа, выбирая наиболее наглядный вид.
Реализация Visual Thesaurus базируется на развиваемой Plumb De sign технологии Thinkmap, предназначенной для создания динамических визуальных интерфейсов ИС, содержащих сложно взаимосвязанные дан ные. Thinkmap позволяет отображать как элементы данных, так и отно шения между ними. В ней используется Java-технология и предусмотре ны функции для доступа к различным источникам данных. С помощью Thinkmap могут разрабатываться модули визуализации для webприложений и локальных систем.
http://www.globalwordnet.org.
http://www.visualthesaurus.com.
http://www.plumbdesign.com.
86
3.3. Автоматическое реферирование и аннотирование
екрепепсе whiie sleeping
"She ciaims to n&^Bt dream" "He dreamt a stranqe scene"<^
dream up |
а eenes ot menta! images and |
8fflc4ions occufftng durrtg sieef:« |
|
plp^juredim |
a cherished desire |
whiie awake |
|
|
tfTiaginattve thoughts tnduiged in |
|
a tariastic fet^ vair^ hope (from |
|
tar^tastes юс1>.юей by the opsum ppe) |
|
a state of mind chafacieriied by |
|
abstraction and release from reality |
|
someone ot somethtng v/onderfui |
'"Hre^^miling
have a dayi±eam
experience wNie sleeping
aspir^atJon
|ВШ»а»ШШО|ШОЯРйЯ^^«а««^
Рис. 3.14. Представление графа тезауруса в системе Visual Thesaurus (в цен тре окна располагается вершина-слово)
Еще одним продуктом, предоставляющим ЛО и средства для взаимо действия с ним, является пакет «МедиаЛингва Машинная словарная морфо логия SDK»*. Он служит инструментом для реализации функций морфоло гической обработки в прикладных ИАС. Пакет включает программные биб лиотеки, документацию и словари русского, английского, немецкого, итальянского, испанского и французского языков. Предусмотрена возмож ность подключения словарей других европейских языков.
Программные компоненты пакета поддерживают три главные функции:
•нормализацию (получение базовой грамматической формы слова для заданной словоформы);
•морфологический анализ (определение грамматических характери стик словоформы — род, число, падеж, время и т. д.);
•морфологический синтез (построение словоформы по базовой фор ме слова и грамматическим характеристикам).
Отметим следующие новые задачи, связанные с компьютерным рефе рированием.
http://www.medialingua.ru.
87
3. Автоматизация работы со знаниями, представленными в текстовом виде
|
, |
, |
liquid air . |
|
||
wipd |
|
Г |
breath |
|||
Ш |
|
\i |
|
|
|
|
: а mixture of gases (especially |
|
|
|
|
|
|
\ oxygen) required for breaming |
|
|
|
|
|
|
^the stuffIHatttie wind consists |
|
|
\ |
> |
|
|
|
|
|
|
|
||
"atf pollution" |
|
|
\ |
: |
|
|
"a smell of chemkais in the |
|
|
|
|
||
ai?" |
|
|
^: |
|
|
|
"open a window т6 Ы m |
|
|
|
|
||
some a»r" |
|
|
\ < J |
|
|
|
"i need some fresh aif |
_____ji; |
|
|
|||
|
|
|
|
|
|
|
|
|
N> |
|
\atomic number 18 |
||
|
|
|
|
|
|
arjon |
atomic n u m b e ^ . |
|
. |
; |
. |
ЗГ |
|
|
- ^ . ^ . - ^ o n |
|||||
kryploiTr,^ |
|
9 ^ |
|
%.^^^ atdf^irmimber 54 |
||
atomic ni/mber 3§^ / |
|
\ |
\ |
|||
|
9«^ |
atpmrc number 8 |
||||
|
atomic mimber 7 |
|
a fjijjti m the 9»s«oas staie hawig f>e«hef ridepef^f^ shape new vok«ree Ш1й bewtg at3te to ехршс!
m mow*g (somef8we$ wSh cons*c«sf9faie force) Irom ш «re« ol ^ih presswe to ?ш are* of tow presswe
s cotortess * i d ocfewte-ss rjert g»s
a coterltess etefnent th«t mдаеof the Six wsrt pts$es
a cotorfes-ss odorte^g gaseous
Рис. 3.15. Представление графа тезауруса в системе Visual Thesaums (в цен тре окна располагается вершина-значение)
1. Создание одноязычных рефератов из источников на разных языках. На основе таких рефератов можно принимать решения, требуется ли пол ный перевод исходных документов.
2.Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (таблицы, диаграммы, гра фики и т. д.). Например, документ может содержать статистическую информа цию из реляционной БД и комментарии к ней. Методы реферирования для та ких документов находятся на стадии теоретической проработки.
3.Создание рефератов на основе массивов документов. Например, по строение единого реферата по сборнику тезисов докладов научной конферен ции. Для решения этой задачи требуются методы, позволяющие анализировать каждый документ из набора и формировать общий реферат путем объединения
иобобщения извлеченных сведений. Соответствующие средства должны быть способны выявлять сходство и различие в содержании документов, отбрасы вать избыточную информацию и генерировать краткое изложение содержания массива в целом. Одна из областей применения подобных средств — формиро вание новостных сообщений по газетным источникам.
3.3.Автоматическое реферирование и аннотирование
4.Растущий объем мультимедийной информации обусловливает акту альность разработки средств ее автоматического реферирования. Методы извлечения семантики из мультимедийной информации находятся на на чальных стадиях развития.
Средства автоматического аннотирования в целом аналогичны сред ствам автоматического реферирования. Однако требования к сжатию текста для них, как правило, на порядок более жесткие.
Основные выводы
1. Технологии автоматического реферирования и аннотирования толь ко начинают свою эволюцию. Будущее принадлежит системам, основанным на знаниях. Это требует создания и использования представительных слова рей-тезаурусов (таких, как WordNet) и онтологических справочников (таких, как Сус и Penman Upper Model).
2.Для обучения NLP-систем можно использовать большие хранилища текстов и рефератов к ним (например, на основе The Wall Street Journal).
3.В современных системах автоматического реферирования и анно тирования используется комбинированный подход, сочетающий статисти ческие методы и методы, основанные на знаниях.
4.Системы автоматического реферирования и аннотирования должны поддерживать распространенные языки разметки и форматы документов (такие, как HTML, XML, RTF, PDF, DOC), a также основные форматы мета данных для информационных ресурсов.
5.При разработке ЛО ИАС, обрабатывающих тексты на ЕЯ, используют ся психолингвистические теории организации лексической памяти человека и методы математической лингвистики. Примером служит система WordNet.
Вопросы для самопроверки
1.Чем отличается реферат от аннотации?
2.Почему автоматическое реферирование и аннотирование относят к техноло гиям ИИ?
3.На чем основываются поверхностные и глубинные методы автоматического реферирования и аннотирования?
4.Какие системы автоматического реферирования и аннотирования Вы знаете?
5.Какие требования предъявляются к реферату?
6.Перечислите виды рефератов.
7.Каковы основные идеи метода составления выдержек?
8.Охарактеризуйте модель линейных весовых коэффициентов. Каковы ее досто инства и недостатки?
9.Какие подходы реализуются в системах автоматического реферирования, осно ванных на знаниях?
89