Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Компьютерный синтез речи. Realspeak Solo Katerina.doc
Скачиваний:
74
Добавлен:
01.05.2014
Размер:
441.34 Кб
Скачать
    1. Применение синтеза речи

Синтез речи по тексту или коду сообщения может быть использован в технике связи, в информационно-справочных системах, для помощи слепым и немым, при управлении человеком со стороны автомата, для выдачи информации о технологических процессах, в военной и космической технике, в робототехнике, в акустическом диалоге человека с компьютером. Вообще синтез речи может потребоваться во всех случаях, когда получателем информации является человек.

  1. Программные решения синтеза русской и английской речи

В современных речевых технологиях по большому счёту не используются алгоритмы искусственного интеллекта, и на самом деле в них выполняется простой статистический расчет по максимуму правдоподобия на основе базы фонетической сочетаемости.

На сегодняшний день при разработке программных комплексов, обрабатывающих или синтезирующих речь, основной упор делается более на тождественное попадание человеческой речи в заложенный в программу алгоритм, нежели на синонимичную интерпретацию воспринимаемой или синтезируемой речи. Такой подход к обработке речи вызван исключительно низкой производительностью современных процессоров. Более того, предложенные учёными алгоритмы работы с речевыми технологиями обязывают производителей прикладного программного обеспечения следовать скриптовому моделированию прямой речи, что противоречит универсальности области приложения разрабатываемого ПО. Да и общение с компьютером по принципу ДА-НЕТ тоже не очень радует пользователей, особенно наиболее продвинутых из них. Именно поэтому у речевых технологий пока такая низкая распространённость в среде обычных пользователей.

Разработкой речевых технологий и созданием на их основе программных решений сегодня в мире занимается небольшое количество компаний. Здесь речь идёт о компаниях, выпускающих программы, непосредственно производящие преобразования текста в речь и обратно, а не программные оболочки к ним. В силу молодости отрасли по обработке и моделированию речи сегодня пока ещё не разработаны окончательные правила программного подключения прикладного ПО к речевым модулям. Кроме этого, многие разработки в указанной отрасли имеют сугубо индивидуальный характер их применения. Поэтому некоторое время ещё будут меняться компьютерные речевые интерфейсы, что будет мешать широкому распространению речевых технологий в частном (некорпоративном) секторе. Именно поэтому многие современные программные решения с использованием речевых технологий имеют тестовый (ознакомительный) характер, и не выполняют задачи надёжного помощника человека в его диалоге с ПК.

Ниже приводится обзор компаний и их разработок в области речевых технологий. Заметим, что обзор сделан с точки зрения доступности и понятности предлагаемого программного обеспечения русскоязычному пользователю с целью его дальнейшего использования в личных интересах потребителя.

На сегодняшний день можно найти программные решения в области речевых технологий под разные операционные среды, но большинство пользователей интересуют программы, совместимые с операционной системой Windows. Поэтому на них и остановимся. Стоит обратить особое внимание на тот факт, что большинство качественных программ синтеза и распознавания речи заточены под работу в операционной системе Windows XP. Однако отметим, что рабочие приложения синтеза и распознавания речи под ОС Windows могут иметь два отличных друг от друга интерфейса взаимодействия с ней – такие, как SAPI версии 4.0 и SAPI версии 5.1. В разных операционных системах уже может быть предустановлен один из перечисленных речевых интерфейсов, однако в силу разных причин, они могут пребывать в нерабочем состоянии. Поэтому всегда рекомендуется скачивать полноценные версии речевых движков. Вместе с драйвером инициализации интерфейса синтеза речи, включающим в себя тройку демонстрационных англо-говорящих преобразователей Текст-в-Речь (TTS: Microsoft Sam; Microsoft Mike и Microsoft Mary), а также вместе с драйвером интерфейса распознавания речи (но уже с одним движком для английской речи) вы получите инструменты для разработки прикладного программного обеспечения, а также инструкции и коды программ с примерами активации речевого интерфейса. Скачать дистрибутивы речевых интерфейсов можно непосредственно с сайта компании Microsoft:

1. SpeechSDK4.0 – [http://www.microsoft.com/downloads/details.aspx?familyid=7D13964C-06FD-4BF9-B49C-814FAA6A86EA&displaylang=en] (объём дистрибутива до 40 Мб).

2. SpeechSDK5.1 – [http://www.microsoft.com/downloads/details.aspx?familyid=5E86EC97-40A7-453F-B0EE-6583171B4530&displaylang=en] (объём дистрибутива до 140 Мб).

На момент написания статьи были найдены тексто-речевые преобразователи (TTS-engines) для следующих языков:

Arabic, Basque, Chinese, Czech, Danish, Dutch, English, Faroe, Finnish, French, German, Greek, Icelandic, Italian, Japanese, Korean, Norwegian, Polish, Portuguese, Russian, Spanish, Swedish, Turkis.

Почти каждый разработчик тексто-речевого преобразователя предлагает несколько голосов под один язык. Особенно велик выбор англоговорящих речевых движков.

Программные решения синтеза русской и английской речи, а также программные комплексы распознавания английской речи предлагаются следующими компаниями:

  1. Правообладатель – компания Nuance Communications (в прошлом ScanSoft) (США)

[ http://www.nuance.com/company/]

Дистрибьютор – фирма Claro Software Ltd (Англия)

[ http://www.clarosoftware.com/]

SAPI 5

– TTS, Russian Voice, Realspeak Solo Katerina (female) – min 80 фунтов стерлингов [Именно эта система тестируется в данной работе]

[http://www.clarosoftware.com/product_info.php?products_id=812&s=f47636fcf3cdff34fc0fac37ef4114aa&tab=p&cPath=246&Name=WordRead-2-UK-with-Russian ]

– TTS, English Voice, RealSpeak Solo Emily (female), Daniel (male) and Realspeak Jane в программе ClaroRead PLUS UK Version 2 – min 160 фунтов стерлингов

[http://www.clarosoftware.com/product_info.php?products_id=1020&s=f47636fcf3cdff34fc0fac37ef4114aa&tab=p&cPath=287&Name=ClaroRead-PLUS-UK-for-Mac]

  1. Правообладатель – компания Acapela Group (Европа)

[ http://www.acapela-group.com/]

Производитель – компания Elan Speech (Франция)

[ http://www.acapela-group.com/corporate/corporate.asp;http://www.digalo.com/aboutus.asp]

SAPI 4.0

– TTS, Russian Voice, Digalo, Nicolai – 29 долларов.

– TTS, English Voice, Digalo, Gordon – 29 долларов.

– TTS, English Voice, Digalo, Vicky – 29 долларов.

– TTS, American Voice, Digalo, Mary – 29 долларов.

– TTS, American Voice, Digalo, William – 29 долларов.

Покупка тексто-речевых преобразователей после регистрации на сайте

[ http://www.digalo.com/digit_register.asp,info@digalo.com]

  1. Правообладатель – компания Sakrament Speech Technologies (Беларусь)

[e-mail: sales@sakrament-speech.com ; http://www.sakrament.com/ ]

Компания самостоятельно распространяет свои продукты по почте на CD

SAPI 5.1

– Русский язык, Ольга (женский), Ирина (женский), Вячеслав (мужской) в программе Sakrament TTS Engine Home Edition на базе Sakrament TTS Engine v.3.0 для русского языка – 32 доллара

[ http://www.sakrament.com/viewprod.php?TopId=30&ProdId=21]

– Английский язык, Джон (мужской), Елена (женский) в программе Sakrament TTS Engine Home Edition на базе Sakrament TTS Engine v.3.0 для русского языка – 32 доллара

[ http://www.sakrament.com/viewprod.php?TopId=30&ProdId=21]

Компания Sakrament предлагает ещё один оригинальный продукт – Модуль для создания собственного TTS-голоса в программе "Sakrament Personal Voice Master v 2.0" – 32 доллара.

  1. Интернет дистрибьютор – фирма RegNow (США)

[ http://www.regnow.com ]

SAPI 4 – SAPI 5.1

– TTS, "AT&T Natural Voices" with Mike and Crystal English Natural Voices – 35 долларов

[ http://www.regnow.com/softsell/nph-softsell.cgi?item=3961-6&affiliate=31392 ]

SAPI 5.1

– TTS, "NeoSpeech" English Voices Kate and Paul – 35 долларов

[ http://www.regnow.com/softsell/nph-softsell.cgi?item=3961-14&affiliate=31392 ]

  1. Правообладатель – Компания Cepstral LLC (США)

Компания самостоятельно распространяет свои продукты через Интернет

[ https://www.cepstral.com/company]

SAPI 5.1

– English Cepstral Text-To-Speech (TTS) Voices® – 30 долларов за каждый движок, которых предоставляется большое количество.

[https://www.cepstral.com/cgi-bin/store/home?sid=7cxp7y6n31iuiz58o07qj12pa891aqw2k7q05je62ngpf0b3z43dtxc99cpvh77q]

  1. Правообладатель – компания IBM (США)

[ http://www-306.ibm.com/software/voice/viavoice/dev/msagent.html]

Дистрибьютор – компания Wizzard Software Corp. (США)

[ http://www.wizzardsoftware.com/ibm_tts_sdk.php]

Дистрибьютор – компания Nuance Communications (США)

[ http://www.nuance.com/viavoice/sales/ ]

SAPI 4.0

У компании IBM есть несколько языковых модулей синтеза речи (TTS). Однако эта компания не распространяет их в розницу, а предлагает только разработчикам прикладного ПО. Хотя, у них можно приобрести недорогие, от 30 до 80 долларов, программные разработки по распознаванию английской речи и команд

[ http://www-306.ibm.com/software/voice/viavoice/].

  1. Правообладатель – L&H Holdings (США)

Дистрибьютор – компания ScanSoft (Англия)

[ http://www.scansoft.co.uk/naturallyspeakingи

http://www.digitalriver.com/dr/v2/ec_Main.Entry?SP=10007&SID=22396&CID=0&DSP=0&CUR=826&PGRP=0&CACHE_ID=0]

Обзор будет неполным, если не упомянуть программы распознавания английской речи "Dragon NaturallySpeaking 8", стоимостью от 80 до 150 фунтов стерлингов.

В завершение обзора хотелось бы упомянуть о том, что в области распознавание русской речи работает компания Sakrament. Однако свои продукты она выпускает под заказ. Стоит заметить, что согласно заверениям компаний-производителей речевых распознавалок качество их продукции значительно повышается при использовании рекомендуемого этими компаниями оборудования, а именно – гарнитур с микрофонами, которые подавляют избыточные шумы, и имеют минимально допустимые аппаратные помехи. Указанные в обзоре цены приведены без учёта оплаты за доставку товара.