Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii (1).docx
Скачиваний:
4
Добавлен:
01.06.2015
Размер:
45.55 Кб
Скачать

Лекция 4 (Жирным курсивом выделены вопросы без ответа)

  1. Какие системы предлагается считать «понимающими» текст по критерию Н.Н. Леонтьевой? Приведите примеры различных видов систем автоматического понимания

Системы «понимающие» текст - такие системы

- которые после обработки входного текста (Т1) способны выдать на выходе, в качестве результата, некий объект (Т2), отличный от Т1, при этом результат является осознанным (а не нечленораздельным текстом). Например, если ввести некий текст на одном языке, и ЭВМ после работы системы выдала текст на другом языке (и при этом он ясен нам), то мы можем говорить о понимании текста.

- Результат - содержательный и понятный адресату

- в результате анализа одного или более текстов были извлечены полезные знания, которые можно поместить в копилку базы знаний. Например, если система способна составить краткий реферат заданного текста, составить описании заданной картинки.

Виды систем:

  1. Хранение текстов – полнотекстовые базы данных (хранение худ. произведений, распорядительных документов) и интеллектуальный поиск. Инст. Русского языка РАН.

  2. Системы автоматического индексирования и рубцевания – тематический анализ (первые создают самые простые информационные структуры, а вторые относят все тексты массива к рубрикам).

  3. Системы автоматического аннотирования и реферирования – задача автоматического сжатия текстовой информации.

  4. Информационно – поисковые системы – например, получить сведения о словарном запасе автора, излюбленные слова и выражения.

  1. Опишите принципиальную схему – принципы устройства систем генерации текста. Для каких жанров текстов обычно создаются такие системы? Как используется в них риторическая теория?

  2. Зачем в АИС вводится графематический анализ? Покажите на примерах, с какими элементами текста он работает и какую информацию им приписывает?

Графематический анализ - это алгоритм начального анализа естественного текста,  представленного в виде цепочки текстовых знаков, вырабатывающая информацию, необходимую для дальнейшей обработки Морфологическим  и Синтаксическим процессорами.

  1. С какими элементами текста работает морфологический анализ? Какая информация о них должна быть получена в результате его применения?

Компьютерная морфология необходима в прикладных системах, ведущих поиск и анализ информации на естественном языке. К числу основных функций, обеспечиваемых модулем морфологического анализа, относятся получение всех словоформ слова, постановка слова в заданную форму (например, словарную) и получение грамматических характеристик словоформы (рода, числа, падежа и других). 

  1. Как устроен морфологический анализ, не использующий словаря? Его преимущества при анализе «новых» слов.

Модель будет рассмотрена на уровне общего описания процессора - взаимодействиеего модулей и функциональная схема алгоритма морфологического анализа [И. Ножов, 2000]: на вход процесса автоиндексации поступает все множество текстов, хранящихся в базе данных, на выходе формируется словарь основ и таблица соответствий (текст - основа), которая отображает поток индексированных текстов. Точность (без вероятностных факторов), множественность интерпретаций (рассмотрение всех вариантов формы слова), возможность рассмотрения программой иного языка с развитой морфологией.

  1. С какими объектами работает и какие задачи решает синтаксический анализ текста? Основные подходы к его организации.

Поскольку число предложений бесконечно, при синтаксическом разборе имеет смысл ориентироваться на более мелкие единицы – фразовые категории (ФК). ФК – это группа, в которой имеется одна вершина, а так же может быть одно или несколько зависимых от этой вершины. Таким образом, алгоритм автоматического анализа сводится к вычленению ФК в составе предложения и поиску связей между ними.

  1. Основные разновидности лингвистических информационных ресурсов, создаваемых для нужд АИС или в помощь специалисту, работающему с текстами. Приведите реальные примеры каждой из разновидностей.

  2. Что такое разметка корпуса текстов? Для чего она вводится? Какие виды разметки используются в существующих текстовых корпусах? (спроси Катю )

  3. Задачи, общее строение и лингвистические компоненты экспертных систем (на примере системы MYCIN или другой системы по выбору).

Экспертные системы (системы-советчики) используется в том случае, когда для решения какой-либо проблемы требуется разбор огромного количества информации. (MYCIN – советы врачу в сложных случаях легочного заболевания (рентгеновские снимки + анализы)). Вопрос – понимание (блок анализа входных данных) - соотнесение текста запроса с текстом имеющихся данных – сопоставление текста, выводы – ответ.

  1. Системы распознавания устной речи: принципиальная схема и современное состояние. Как и для чего используется в них информация о нефонематических уровнях языка.

Распознавание речи на акустическом и фонетическом уровнях в настоящее время доведено до совершенства, то есть сравнимо по качеству с надежностью распознавания отдельных звуков человеком, и соответствующие блоки распознавателя уже приобрели канонический вид. Теперь работа по созданию этих блоков распознавателя для русского, равно как и для любого другого естественного языка, может быть выполнена по готовому рецепту: сначала записать представительную базу данных, затем настроить по ней параметры вероятностных автоматов — описателей звуков и их сочетаний.

  1. Синтез устной речи: вехи истории, основные подходы, современное состояние.

Автоматический синтез речи - это технология, позволяющая преобразовать входную текстовую информацию в звучащую речь. При этом одним из важнейших аспектов является качество синтезируемой речи. Именно оно определяет пригодность использования технологии синтеза речи на современном коммерческом уровне. Для узкого применения качество звучания может быть сведено к максимально естественной, за счёт компиляции заранее записанных длительных речевых фрагментов, относящихся к данной области. Примером такого синтеза (называемого макросинтезом) могут служить системы оповещения о движении поездов, применяющиеся на вокзалах.

  1. Почему приходится вводить ограничения на естественный язык при общении с АИС? Как степень и тип вводимых ограничений зависят от задач системы, типа обрабатываемых текстов и предметной области?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]