- •Глобальная модель мира
- •Информационно-поисковые системы
- •Состав информационно-поисковой системы:
- •Структура системы синтеза речи Синтезатор включает четыре основных модуля:
- •Системы синтеза речи реализуют следующие технологии:
- •Формирование краткого изложения
- •Цель анализа предложения на естественном языке - перевод их на м-язык вычислительной системы. Функциями анализатора являются:
- •Основные термины морфологии
- •Морфологическая информация, этапы морфологического разбора текста
- •Синтаксический анализ
- •Классы синтаксических анализаторов
Цель анализа предложения на естественном языке - перевод их на м-язык вычислительной системы. Функциями анализатора являются:
распознавание правильно построенных предложений ЕЯ;
фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте;
декомпозиция предложения на составляющие (фрагменты) и построение соответствующей синтаксической структуры предложения;
семантическая интерпретация фрагментов ЕЯ-предложения фрагментами М- языка;
композиция фрагментов М-языка в структуру, описывающую прагматическую ситуацию предметной области.
Реализация этих функций осуществляется на этапах морфологического и синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих моделях ЛП два последних этапа объединяются в один этап семантического анализа.
В большинстве случаев вместо полного синтеза используется синтез по шаблонам. Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений, относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для каждого типа разработать шаблон, который заполняется при обращении к пользователю.
Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из следующих этапов:
разбиение текста М-языка на фрагменты, соответствующие будущим фразам;
определение лексем для синтезируемой фразы;
построение синтаксической структуры фразы;
приписывание морфологической информации вершинам синтаксической структуры фразы;
определение порядка слов;
осуществление морфологического синтеза лексем.
Билет № 38
Уровни языка
Уровни языка
Язык членится на участки (планы, ярусы, уровни). Уровень - это крупная часть языка, состоящая из однородных единиц и включающая набор правил, регулирующих использование этих единиц, их группировку в классы и разряды. Уровни автономны, каждый уровень характеризуется особой единицей, предельной и минимальной для каждого уровня.
Различают следующие уровни: 1)фонемный, 2)морфемный, 3) лексический, 4) синтаксический, 5) семантический, 6) прагматический.
Уровнеобразующие единицы - сущность, отражающая характеристики объекта. Они характеризуются особой субстанцией, функциями, в зависимости от уровня выделяют следующие:
1. фонема — неделимая, единица, класс класс вариантов звука (аллофонов), фонему можно представить в виде набора дифференциальных признаков.
Функции -1. строительная 2. смыслоразличительная.
2. морфема - полноценная двусторонняя (имеет план выражения и план содержания) знаковая единица. Морфема обладает значением (лексическое, словообразовательное, грамматическое), но не является целостной единицей, не обладает грамматической оформленностью и смысловой самостоятельностью.
Функции - 1. семасиологическая (может выражать значение, например, суффикс л в глаголах указывает на прошедшее время - «проходила») 2. строительная.
3. слово (лексема) - целостная единица, обладающая морфологической оформленностью и смысловой самостоятельностью. Лексема (от греч. lexis — слово, выражение, оборот речи) — слово как самостоятельная единица языка, рассматриваемая во всей совокупности своих форм и значений. В одну лексему объединяются разные словоформы одного слова (например, «словарь, словарём, словарю» и т. п.).
Функции - 1. минимальная номинативная единица (может называть вещи в отличие от морфемы) 2. строительная (входит в состав словосочетания и предложения).
4. предложение - минимальная коммуникативная единица языка (с помощью нее осуществляется общение). Предложение утверждает наличие объекта, оно обладает временной характеристикой, модальностью. Предложение отличается от слова по степени сложности выражаемого им смысла и функцией. Предложение -сочетание нескольких слов. Любое предложение строится на предикации (выделение какого-либо объекта и приписывание ему признака).
Функции - 1. номинативная 2, строительная.
5. текст - особая единица языка (не уровень, но единица), В тексте предложения связаны между собой по смыслу. Наличие связности - важное свойство.
Функции -1.коммуникативная 2. информативная.
Билет № 39
Фонетический
К сожалению, до настоящего времени наибольший акцент в обработке речи сделан на акустико-фонетическом анализе. Его цель — найти фонемное представление слова. Если акустико-фонетический анализ слабый, то сформированные ошибочные гипотезы в итоге приведут к неправильному результату. Сегментация и идентификация акустического сигнала в последовательности лингвистических единиц сложна, поскольку акустические сигналы ассоциируются с сегментами, непосредственно с ними не связанными. Кроме того, на эти сигналы сильно влияют соседние сегменты.
Акустико-фонетический компонент необходим в любой обрабатывающей речь системе, чтобы восстановить канонические произношение слов, которые могут быть сопоставлены с соответствующими эталонами словаря, и далее реализовать синтаксическую, семантическую и/прагматическую интерпретацию речевого высказывания.
Не трудно учесть фонологические компоненты в рамках лексических (сегментных) процессов, которые обычно имеют дело с фонологически управляемыми изменениями, генерируя альтернативное произношение для индивидуальных лексических единиц и сохраняя их в дополнительном словаре. Сложнее учесть фонологические процессы, которые соединяют границы слова. В этом случае полезна сегментация, которая, разлагая речь на слоги и слова, может обеспечить информацию для синтаксического анализа.
Поскольку отличие фонологии от фонетики состоит в том, что предмет фонетики не сводится к функциональному аспекту звуков речи, но охватывает наряду с этим также её субстанциальный аспект, а именно: физический и биологический (физиологический) аспекты: артикуляцию, акустические свойства звуков, их восприятие слушающим (перцептивная фонетика).
Постольку фонема и звук - разные понятия, так как фонема - психическое явление, а звук — акустико-физиологическое.
Фонема – полифункциональная единица языка, которая: различает звуковые оболочки слов и морфем; доводит звуки речи до восприятия; является смыслоразличительной единицей. При этом фонема - целиком психическое явление, равно как и аллофон, реализацией их в речи является звук. Одной фонеме могут соответствовать несколько различных ее реализаций или аллофонов. Аллофон - группа звуков, в которых реализуется данная фонема в зависимости от характера выполняемой ими функции, места в слове и соседства с другими звуками, а также ударности и безударности.
Согласно артикуляционной теории звук образуется в 3 стадии:
1) экскурсия (приготовление);
2) произнесение;
3) рекурсия (расслабление).
В русском языке, так же как и во многих других, имеется два типа звуков: гласные и согласные.
Гласные звуки характеризуются по ряду, длительности, лабиализации, напряженности; согласные характеризуются по месту образования, способу, твердости/мягкости, глухости/звонкости, придыхательности.
Так как звуки речи произносятся не изолированно, а в звуковой цепи связной речи, то они могут, во-первых, влиять друг на друга, когда рекурсия предыдущего звука взаимодействует с экскурсией последующего, и, во-вторых, испытывать влияние общих условий произношения. В результате появляются следующие фонетические процессы:
1) редукция (изменение длительности звуков в безударных словах: количественная/качественная). Она тесно связана с ударением: - силовое –количественное (ударный звук произносится более долго) – тоновое (изменение высоты тона).
2) аккомодация - взаимное приспособление гласных и согласных (малый-мяло), качество согласного влияет на качество гласного и наоборот.
3) ассимиляция - качественное уподобление смежных по произношению звуков. Бывает - прогрессивной (когда предыдущий звук влияет на последующий), - регрессивной (когда последующий звук влияет на предыдущий, например вокзал - [вогзал], лодка - [лотка]).
4) диссимиляция - расподобление, когда из двух одинаковых или подобных звуков получается два различных звука. Процесс, противоположный ассимиляции (кто - [хто]).
Для нахождения канонического фонемного представления слова русского языка в словаре по его фонетической форме произнесения необходимо учитывать следующее.
В русском языке существуют определенные буквенно-звуковые соотношения. К наиболее частотным, и обычно вызывающим затруднение при написании транскрипции слова, или его звукового состава, относятся следующие:
- буква обозначает несколько звуков (е, ё, ю, я в начале слова, после гласного, после разделительных Ь и Ъ): юла - [йула]. В отдельных случаях после Ь два звука может обозначать и гласная и: ручьи - [ручйи];
- несколько букв обозначают один звук (сч, жч, зч = [щ]; дс, тьс, тс = [ц]): возчик - [вощик], детский - [д'эцк'ий].
Основные прикладные аспекты фонетических исследований в речевых технологиях - автоматическое распознавание речи, синтез речи, идентификация говорящего по характеристикам речевого сигнала.
Билет № 40
Морфологичекий анализ
Стадия морфологического анализа (МА) является наиболее проработанным лингвистическим этапом процесса обработки естественного текста. За последние два десятилетия создано, по крайней мере, несколько десятков алгоритмов для разных языков, в том числе 10-12 для русского. Прежде, чем приступить к изложению основных методов и алгоритмов МА, необходимо ознакомится с терминологией, используемой в морфологии.