Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Реферат Интелектуальный помошник.docx
Скачиваний:
6
Добавлен:
21.03.2021
Размер:
4.66 Mб
Скачать

2) Описание существующих моделей и алгоритмов при разработке таких интеллектуальных помощников.

Технологии, используемые в системах интеллектуальных голосовых ассистентов

Каждый из перечисленных голосовых ассистентов обладает собственными уникальными чертами, отличающимся функционалом и «характером». Все это является результатом того, что каждая компания-разработчик использует свои специфичные подходы к разработке и разные алгоритмы. У различных систем может отличаться качество распознавания для разных языков – например, Яндекс позиционирует себя как лучшую систему распознавания русской речи, другие системы могут четко и без дополнительных объяснений выполнять определенные задачи. Но, к сожалению, универсального решения для выполнения абсолютно любой задачи на данном этапе развития этой технологии пока нет.

Общий принцип построения голосовых ассистентов остается одинаковым, несмотря на все описанные факторы. На рис. 1 показаны технологии, которые применяются для создания интеллектуальных систем взаимодействия с человеком наего естественном языке.

Рисунок 1. Технологии построения интеллектуальных систем взаимодействия с человеком на его естественном языке

К основным технологиям можно отнести следующие:

  • активация по голосу (Voice Activation),

  • автоматическое распознавание речи (Automatic Speech Recognition),

  • синтез речи (Text-To-Speech),

  • голосовая биометрия (Voice Biometrics), т.е. распознавание пола или возраста говорящего, например, женщины, мужчины, детей и т.д., а также диалоговый менеджер (Dialog Manager),

  • понимание естественного языка (Natural Language Understanding),

  • распознавание именованных сущностей (Named Entity Recognition).

Принцип работы голосового ассистента на примере «Алисы» от компании «Яндекс»

Рассмотрим, как принципиально устроены голосовые ассистенты на примере «Алисы» от компании «Яндекс».

Так как «Алиса» является интеллектуальным помощником для смартфонов и персональных компьютеров, то она позволяет решать общие задачи пользователей, такие как поиск информации в интернете, поиск мест на карте, прокладывание маршрутов, сообщение прогноза погоды, может поддерживать разговор, развлекать пользователя и т.д. Для этого «Алиса» использует облачные средства компании «Яндекс», к которым она обращается через API посредствам сети Интернет. Схема работы представлена на рис. 2.

Рисунок 2. Принцип работы голосового ассистента «Алиса»

На первом этапе происходит активация, например, произношением ключевой фразы. Ассистент постоянно прослушивает окружающие звуки, анализирует наличие ключевой фразы и, если она будет распознана, переходит в активный режим.

Дальше пользователь произносит текст, который может объяснить помощнику, что пользователь хочет сделать. Система распознавания (Automatic Speech Recognition) превращает текст в N-лучших гипотез того, что сказал пользователь. Затем система распознавания естественного языка (Natural Language Understanding) превращает текст в N-лучших вариантов понимания фразы пользователя, далее диалоговый движок интерпретирует и классифицирует эти фразы иопределяет, что необходимо сделать на основе полученной информации. Например, обратиться в различные сервисы для получения информации.

После получения необходимых данных система производит процесс возвращения информации пользователю, т.е. система генерации естественного языка (Natural Language Generation) генерирует текст для ответа пользователю, далее система генерации голоса (Text-To-Speech) на основе обученных моделей генерирует звуковую информацию, которая и объявляется пользователю в качестве ответной реакции. Кроме ответа, может также происходить любое действие намобильном телефоне или компьютере, например запуск приложения или поиска информации в поисковой системе.

Одной из важных с точки зрения функционала частей голосового ассистента является диалоговый менеджер. Существуют простые сценарии, на которые можно сразу извлечь из NLU модели и воспроизвести через NLG. И более сложные сценарии, которые основываются на понятии формы. Принципиально форма повторяет форму обычного пользовательского интерфейса (UI), где существуют обязательные поля для заполнения и необязательные (см. рис. 3a). В таких сценариях используется подход Form Filling, т.е. в контексте диалога форма заполняется необходимыми ответами, причем эти ответы могут заполняться как пользователем, так и самой системой на основе информации, которую она сможет получить у пользователя (см. рис. 3б.). То есть процесс заполнения тоже интеллектуальный, и сама система часть полей может заполнить сама. После заполнения форма отправляется на обработку, где может приниматься решение о точном ответе на запрос пользователя или же переключение на нейронный диалог.

Рисунок 3. Заполнение формы (Form Filling) диалоговым менеджером

К основным проблемам, с которыми сталкиваются разработчики таких систем, можно отнести:

  • проблемы классификации сценариев,

  • выделение смысловых объектов (необходимость связываться, например, с геобазами данных и уточнять названия объектов, обращение к другим API),

  • поддержание контекста,

  • проблемы эллипсисов,

  • кореференции.