- •Что такое компьютерная лингвистика?
- •История
- •Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- •Поднауки лингвистики
- •Язык исчисления предикатов первого порядка
- •Язык и грамматика (формы Бэкуса-Наура)
- •Природа языка
- •Моделирование языковой деятельности
- •Автоматическая обработка текста и ее место среди различных дисциплин
- •Анализ текстов на естественном языке
- •Этапы автоматического анализа текста
- •Синтез текстов на естественном языке
- •Понимание текстов
- •Оживление текста
- •Модели коммуникации
- •Морфологический анализ
- •1. Флективные языки:
- •2. Изолирующие (аморфные) языки:
- •3. Агглютинативные (агглютинирующие) языки:
- •4. Полисинтетические (инкорпорирующие) языки:
- •Синтаксический анализ
- •Валентность
- •Семантический анализ
- •Тезаурусы
- •Словари ролевых моделей
- •Базы знаний
- •Информационно-поисковые системы Internet
- •Принципы построения поисковых систем (на примере Google)
Словари ролевых моделей
Существует подход к семантическому анализу текста, когда предложение рассматривается как некоторый предикат и набор аргументов. В роли предиката обычно выступает глагол (или другое предикатное слово, например, отглагольное существительное), описывающий действие, а аргументами являются актанты.
Составив словарь ролевых моделей глаголов, опирающийся на использование синтаксической и морфологической информации, можно определять роли именных групп (аргументов) при предикате, а также отношения между ними. Например, может использоваться информация о предлоге, использованном с именной группой и падеже главного слова именной группы. Тем не менее, не всегда синтаксической информации достаточно.
Пример: «мы прибыли на автобусе на конференцию на пять дней».
Результат правильного семантического анализа приведен в таблице. Формальные признаки (предлог+падеж) всех именных групп (кроме «мы») совпадают. Для правильной интерпретации такого предложения дополнительно требуется тезаурус. Таким образом, мы приходим к следующему возможному виду словарной статьи.
-
Глагол (предикатное слово)
роль1
предлог+падеж
класс
роль2
предлог+падеж
класс
ПРИМЕР: прибыть
способ
на+П.п.
транспорт
продолжительность
на+П.п.
интервал времени
...
(Подразумевается, что присутствует тезаурус, содержащий категории «транспорт» и «интервал времени».)
Базы знаний
Помимо тезаурусов используются собственно семантические словари — базы знаний в широком смысле слова.
Примером такой базы знаний на уровне «здравого смысла» является Cyc.
Начиная с 1984 года ученые разных областей — лингвисты, программисты, математики и философы — работают над общим проектом, который должен изменить наше представление о компьютерах. Они пытаются научить компьютер мыслить.
База данных под кодовым названием Cyc версии 1.4 наполняется миллионами житейских истин и понятий, так, чтобы компьютер мог производить на их основе простые верные утверждения, над которыми люди даже не задумались бы: «Умершие существа не воскресают. У собак есть позвоночник. Карабкаться по крутому склону физически трудно».
Многие находят проект сомнительным, однако создатели Cyc 1.4 уверены, что их проект поможет людям работать эффективнее и делать логические предсказания на основе введенной информации. Пример действия Cyc 1.4 — поисковый сервер Lycos: результаты теперь лучше соответствуют запросам, при помощи логических связей, организованных базой. Кроме того, база используется для военных целей, в том числе при борьбе с терроризмом.
Компании также используют Cyc для унификации разрозненных локальных баз данных и отслеживания уязвимостей в системах защиты.
Люди, занимающиеся проектом, уверены, что когда-нибудь их база данных, сейчас умещающаяся на один компакт-диск, будет размещена на каждом компьютере (или сервере, в случае локальной сети) как необходимая деталь достаточно мощной системы искусственного интеллекта, дающего советы, помогающего принимать решения, дополнять почтовые сообщения и отслеживать работу приложений. Однако до сих пор многие на первый взгляд перспективные начинания, связанные с искусственным интеллектом, не оправдывали себя. Есть множество примеров, когда из-за недочетов разработчиков системы искусственного интеллекта не справлялись с простыми заданиями, прежде всего за счет того, что базу данных трудно запрограммировать на восприятие степени абсурдности. К примеру, она может вполне не заметить ошибки в записи о 25-летнем работнике, имеющем 20-летний стаж работы.
Кроме того, человеческая речь отличается множеством устоявшихся оборотов, не всегда объяснимых логическими цепочками.
Что же касается Cyc, написанной на специально созданном для нее языке программирования, — CycL — система построена по схеме, предусматривающей логические нюансы. Так, например, если спросить у Cyc, есть ли у Лесси нос, будет выстроена следующая логическая цепочка: Лесси — это колли, колли — порода собак, собаки — позвоночные животное, у позвоночных есть носы, так что ответ будет — да.
Cyc также обучена осторожному обращению со специальной терминологией и умеет распознавать характер обращений — например, научный или житейский вопрос ей задан.
Информационно-поисковые системы