- •Что такое компьютерная лингвистика?
- •История
- •Терминология (Предикаты, субъекты, переменные, понятия, признаки)
- •Поднауки лингвистики
- •Язык исчисления предикатов первого порядка
- •Язык и грамматика (формы Бэкуса-Наура)
- •Природа языка
- •Моделирование языковой деятельности
- •Автоматическая обработка текста и ее место среди различных дисциплин
- •Анализ текстов на естественном языке
- •Этапы автоматического анализа текста
- •Синтез текстов на естественном языке
- •Понимание текстов
- •Оживление текста
- •Модели коммуникации
- •Морфологический анализ
- •1. Флективные языки:
- •2. Изолирующие (аморфные) языки:
- •3. Агглютинативные (агглютинирующие) языки:
- •4. Полисинтетические (инкорпорирующие) языки:
- •Синтаксический анализ
- •Валентность
- •Семантический анализ
- •Тезаурусы
- •Словари ролевых моделей
- •Базы знаний
- •Информационно-поисковые системы Internet
- •Принципы построения поисковых систем (на примере Google)
Терминология (Предикаты, субъекты, переменные, понятия, признаки)
Субъект(кто делает)
Предикат(процесс, отношение)
Объект(над кем/чем действие производится или с кем/чем идентифицируется)
Переменные(параметры предиката)
Понятие- это слово, имеющее определение в рамках разговора, теории, парадигмы
Признак- в процессе обобщения предметов определенного вида в понятия мы используем совокупность признаков, представляющих собой содержание данного понятия.
Таким образом, понятиенеразрывно связано спризнакамии можно привести такое определениепонятия- это"термин+определение"
Примеры
Самолет набирает высоту.
(Самолет – понятие, набирает высоту – признак, самолет набирает высоту – предикат)
Тренер набирает команду
Наборщик набирает книгу
Лодка набирает воду
X1 набирает X2, (X1, X2 – переменные,X1 набирает X2– предикат)
X1: самолет, тренер, наборщик, лодка
X2: высота, команда, книга, вода
Музыка играет вдалеке
спортсмен играет в хоккей
Таня играет на пианино
Можно поменять Таню, музыку и спортсмена местами
При другом рассмотрении структуры предиката мы получаем примеры понятияипризнака:
Человек любит жить в своем доме.
Сом любит жить на дне.
Медведь любит жить в лесу
Таракан любит жить в мусорном ведре.
Новый русский любит жить на широкую ногу.
Предикат: X1 любит жить X2
X1: человек, сом, медведь, таракан, новый русский
X2: в своем доме, на дне, в лесу, в мусорном ведре, на широкую ногу
При этом X1можно считатьпонятием, а «любит жить X2» -признаком.
Например: признаком понятия «Новый русский» является – «любит жить на широкую ногу».
Поднауки лингвистики
Пунктуация
(от лат. punctum -- точка) - система знаков препинания в письменности языка, правила их употребления, расстановка в тексте. Наряду с графикойиорфографией- основной компонент письменной речи.
Орфография
(греч. – «правильно пишу») - это
1. правописание - система правил, определяющих единообразие способов передачи речи (слов, их форм и значимых частей) на письме;
2. раздел языкознания, изучающий и разрабатывающий систему таких правил.
Морфология
(греч. «формология») в языкознании - это
1. часть языковой системы, объединяющая слова как носители грамматических значений, их грамматические классы, законы их существования и формообразования;
2. раздел грамматики, изучающий эту часть языковой системы.
Фонетика
(греч. ``звуковой, голосовой``) -- это
1. акустические и артикуляционные свойства звуков;
2. раздел языкознания, изучающий способы образования звуков речи и их акустические характеристики.
СЕМАНТИКА
[semantics] (Греч.: σημαντικός- обозначающий;)
1. Часть лингвистики - науки о языке, рассматривающая отношения между элементами языка и их смысловыми значениями, а также содержательное значение синтаксических конструкций языка.
2. Смысл знака или текста.
Формальные языки и формальные системы
Основным и, пожалуй, главным для человека средством описания большей части того, что ему известно, является естественный язык. Естественный язык обладает большим спектром свойств - лексической неоднозначностью, неполнотой, избыточностью, возможностью противоречивых описаний, которые, безусловно, можно отнести к числу его достоинств. Однако, эти достоинства создают трудно преодолимые проблемы при попытке автоматическогоанализа текстов, написанных на естественном языке.
Элементарную единицу лексики языка составляет слово, имеющее в большинстве случаев не одно, а несколько значений. Любой текст на естественном языке может содержать пробелы - явно не описанные, но подразумеваемые ситуации или их фрагменты. В тексте или речи возможны повторы, которые подчеркивают наиболее существенные соображения автора, расставляют акценты. Противоречия в языке - важный поэтический прием ("Речка движется и не движется...").
Человек, читая текст или слушая устную речь способен понять пишущего или говорящего благодаря контексту и наличию собственных представлений о действительности (собственной "модели мира"). Забегая вперед, можно сказать, что глубокий анализ естественного языка с помощью компьютеров и, тем более, задачи понимания естественно-языковых текстов являются, в значительной степени, предметом той науки, к изучению которой мы приступаем. Однако в этой главе речь идет о языке как о первичном средстве описания действительности, т.е. такого описания, которое составит основу компьютерной модели мира, и будет лежать в основе многих «интеллектуальных способностей» компьютера. Для того чтобы получить язык, применимый для этих целей, на естественный язык необходимо наложить ряд существенных ограничений. Ограничения эти состоят, в частности, в следующем: необходимо устранить лексическую многозначность (полисемию, как говорят лингвисты), ограничить вариативность структур предложений, регламентировать использование знаков препинаний и иных знаков. Но, как только эти модификации будут выполнены, полученный язык перестанет быть естественным. Такой язык правильнее отнести к искусственным.
Если, к тому же, задать исчерпывающую совокупность правил построения предложений языка, то такой язык будет называться формальным и окажется вполне пригодным для наших целей.
Что касается возможной противоречивости описаний, то, собственно в языке, они допустимы, важно лишь, чтобы система интерпретации текстов такого языка (или вывода в этом языке) могла имеющиеся противоречия обнаруживать и всякий раз в процессе решения конкретной задачи выбирать то высказывание (утверждение, гипотезу, посылку), которое более аргументировано (т.е. обладает большей степенью истинности).
Перейдем к рассмотрению одного из таких формальных языков, который называется язык исчисления предикатов первого порядка. Хотя этот язык и можно рассматривать как язык представления знаний, все же это не главное его назначение и мы будем использовать его конструкции, главным образом, в качестве составной части конструкций других языков, более ориентированных на представление знаний.