- •МГЛУ
- •Новые информационные технологии в лингвистике
- •Автоматическое распознавание речи
- •Процесс порождения речи
- •Процесс порождения речи у человека
- •Речевая волна во временной области
- •Речевая волна во временной и частотной областях
- •Речевая волна во временной и частотной областях
- •Представление речи в виде формантных траекторий
- •Перекрытие областей формантных частот
- •Положение центроидов основных гласных
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Колонка коры (по Батуеву А.С.)
- •Гиперколонка коры (по Батуеву А.С.)
- •Отдельные слова словарей раскладываются по
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Процесс восприятия речи человеком
- •Коммуникационный акт
- •Структура коммуникационной системы для организации речевого поведения
- •Структура коммуникационной системы для организации речевого поведения
- •Структура коммуникационной системы для организации речевого поведения
- •Информационно-кодовая модель коммуникации Шеннона и Уивера
- •Под распознаванием речи понимается выделение информации из преобразованного сигнала, полученного адресатом от адресанта
- •Правило Байеса
- •Правило Байеса
- •Правило Байеса
- •Правило Байеса
- •Правило Байеса
- •Информационно-кодовая модель коммуникации Шеннона и Уивера, модифицированная для коммуникационного акта Якобсоном
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Автоматическое распознавание речи
- •Акустико-фонетический подход
- •Акустико-фонетический подход
- •Акустико-фонетический подход
- •Подход, основанный на распознавании образов
- •Подход, основанный на распознавании образов
- •Подход, основанный на распознавании образов
- •Подход, основанный на распознавании образов
- •Подход на основе искусственного интеллекта
- •Подход на основе искусственного интеллекта
- •Подход на основе искусственного интеллекта
- •Подход, основанный на искусственных нейронных сетях
- •Подход, основанный на искусственных нейронных сетях
- •Нейронные сети
- •Первичная обработка
- •Спектральный анализ
- •Спектральный анализ
- •Спектральный анализ
- •Анализ на основе линейного предсказывающего кодирования
- •Анализ на основе линейного предсказывающего кодирования
- •Анализ на основе линейного предсказывающего кодирования
- •Анализ на основе линейного предсказывающего кодирования
- •Векторное квантование
- •Векторное квантование
- •Векторное квантование
- •Векторное квантование
- •Антропоморфная модель анализа
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Психоакустическое сглаживание спектра
- •Принятие решения
- •Принятие решения
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Динамическое программирование
- •Правило Байеса
- •Правило Байеса
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Стандартный СММ распознаватель
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Скрытые Марковские модели
- •Реализация и использование систем распознавания речи
- •Реализация и использование систем распознавания речи
- •Промышленные системы распознавания речи Стандартная система распознавания речи
- •Промышленные системы распознавания речи
- •Промышленные системы распознавания речи
- •Промышленные системы распознавания речи
- •Промышленные системы распознавания речи
- •Промышленные системы распознавания речи
- •Промышленные системы распознавания речи
- •Диалог человека и машины
- •Диалог человека и машины
- •Диалог человека и машины
- •Диалог человека и машины
- •Сравнение эффективности распознавания человеком и искусственными системами
- •Сравнение эффективности распознавания человеком и искусственными системами
- •Сравнение эффективности распознавания человеком и искусственными системами в условиях шума
Скрытые Марковские модели
Выбор инвентаря СММ и числа состояний СММ осуществляется на основании данных о фонетическом составе языка, словаре и размере обучающей выборки.
Лучшим выбором инвентаря будет такой, при котором выбранные СММ будут соответствовать акустическим реализациям фонем в реальной речи, а имеющаяся обучающая выборка будет обеспечивать корректную оценку параметров моделей.
Обычно это аллофоны – контекстно-зависимые акустические реализации фонем.
Поскольку мужские и женские голоса существенно отличаются по параметрам, в
большинстве приложений раздельно 92
формируются семейства СММ для мужского и женского голосов.
Скрытые Марковские модели
Составление эталонных сигналов слов из фонем в соответствие с моделью произношения
k X |
|
argmax |
max |
qk |
|
|
|
|
|
0l |
|
||||||||
|
k |
ks ,wk1s ,wk 2 s , |
|
|
|
|
|||
|
|
s 1:qk |
s 1 |
|
|
|
k = 1 |
||
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
1 |
|
1 |
1 |
1 |
|
|
|
0 |
1 |
1 |
1 |
|
1 |
|
|
sпоч. 11 |
|
2 3 |
2 2 |
2 3 |
31 |
3 2 |
3 3 |
1 |
|
|
2 2 |
|
|
|
|
1 |
|
1 |
1 |
1 |
|
|
|
0 |
1 |
1 |
1 |
|
1 |
|
|
sпоч. 11 |
|
21 |
2 2 |
2 3 |
31 |
3 2 |
3 3 |
1 |
|
|
2 |
|
|
|
|
1 |
|
1 |
1 |
1 |
|
|
|
0 |
1 |
1 |
1 |
|
1 |
|
|
sпоч. 11 |
|
21 |
2 2 |
2 3 |
31 |
3 2 |
3 3 |
1 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
1 |
1 |
|
|
|
|
|
|
|
q1 |
0 |
|
s1 |
s 2 |
s 3 |
|
|
q 11 |
q 1 2 q 13 |
sкін. |
|
|
s |
|
|
|
|
q 1 |
q |
|
|
|
|
1 |
|
k = 2 |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
0 |
|
|
|
|
||
s1 |
s 2 |
s 3 |
q1 |
sкін. |
|
|
|
|
|
s |
|
q |
|
|
|
|
|
|
|
|
|
|
|
k = 3 |
|
|
|
|
|
|
1 |
1 |
|
|
|
|
|
|
|
0 |
|
|
|
|
s1 |
s 2 |
s 3 |
q 11 |
q 1 2 q 13 |
q1 |
sкін. |
|
|
|
s |
|
|
q 1 |
q |
|
|
|
94
Скрытые Марковские модели
Пофонемное распознавание слитной речи, состоящей из слов выбранного словаря, в случае свободного
порядка следования слов
95
Скрытые Марковские модели
Модель слова с произвольным порядком следования моделей фонем в слове
|
|
1 |
|
|
1 |
|
1 |
13 |
|
|
12 1 |
s=sstart |
|
1 |
|
11 |
|
|
|
=5 |
|
|
0 |
|
1 |
1 |
|
|
|
|
10 |
0 |
|
|
|
1 |
1 |
|
|
9 |
=4 |
1 |
1 |
|
8 |
|
|
|
1 |
|
|
|
|
|
|
1 |
=3
1
|
|
|
|
1 |
|
|
|
14 |
1 |
|
1 |
|
|
|
15 |
1 |
|
|
|
|
|
16 |
|
0 |
|
=6 |
|
|
1 |
|
|
1 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
=1 |
s=1 |
|
|
|
|
1 |
|
|
|
|
|
0 |
s=sfinal |
|
|
|
|
|
|
|
|
s=0 |
0 |
|
|
|
|
|
|
0 |
|
|
0 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
=2 |
s=4 |
|
|
|
|
s=3 1 |
1 |
|
|
|
|
|
5 |
|
|
s=2 1 |
1 |
6 |
1 |
1 |
|
|
7 |
1 |
|
1 |
|
|
|
|
1 |
|
|
1 |
96 |
|
|
Скрытые Марковские модели
Модель предложения с произвольным порядком следования
моделей слов и моделей фонем в предложении
1
|
|
|
|
|
|
|
|
|
1 |
1 |
1 |
s=1 |
|
01 0 , vir 0 , kir 0 |
|
|
|
|||
|
|
|
|
|
|
1 |
1 |
1 |
|
1 |
1 |
=1 |
|
|
|
|
||||
|
|
|
|
|
|
1 |
1 |
|
s=2 s=3 4 |
1 |
|
ir ,vir , kir |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
=2 |
|
i = 1 : l, r = 1:N, k = 1:N |
|
|
|||||||
|
|
|
|
|
|
5 |
6 |
7 |
|
|
0 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
0 |
|
|
|||||||||
|
|
|
8 |
9 |
10 |
|
=3 |
|
0 |
|
1 |
|
l = 16, N = 4 |
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
*, 0 , 0 |
|
*, 0, 0 |
|
*, 0, 0 |
|
||||||
11 |
12 |
13 |
|
=4 |
|
0 |
1 |
|
|
|
|
|
|
|
|
|||||
|
1 |
|
|
|
|
|
s=0 |
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
=5 |
0 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
( i(0), vi(0)) |
|
|
|
|
|
|
|
||||
|
|
1 |
|
|
|
|
|
|
|
|
|
21 , 0, 2 |
|
|
24 , 0, 3 |
|
||||
i=0 s=11 s=12 s=13 s=8 s=9 s=10 s=5 |
s=6 s=7 |
s=2 |
s=3 s=4 |
s=1 s=0 |
( , 0) |
|
32 , 0 ,1 |
|
|
|
|
|||||||||
i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
(1, 1) |
41 , 2, 4 |
|
|
|
|
|
|
i=2 |
|
|
|
|
|
|
|
|
|
|
|
|
(1, 1) |
|
|
52 , 2,1 |
|
|
|
|
i=3 |
|
|
|
|
|
|
|
|
|
|
|
|
(1, 1) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
i=4 |
|
|
|
|
|
|
|
|
|
|
|
|
(5, 1) |
61 , 3, 2 |
|
|
|
|
|
|
i=5 |
|
|
|
|
|
|
|
|
|
|
|
|
(4, 1) |
|
|
72 , 4,1 |
|
|
|
|
i=6 |
|
|
|
|
|
|
|
|
|
|
|
|
(3, 3) |
|
|
|
|
44 , 5, 2 |
|
|
i=7 |
|
|
|
|
|
|
|
|
|
|
|
|
(3, 3) |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
91 , 7 , 2 |
|
|
|
|
|
|||
i=8 |
|
|
|
|
|
|
|
|
|
|
|
|
(2, 5) |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
103 , 6,1 |
|
|
|
|||
i=9 |
|
|
|
|
|
|
|
|
|
|
|
|
(2, 5) |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
i=10 |
|
|
|
|
|
|
|
|
|
|
|
|
(2, 6) |
122 , 9,1 |
|
|
|
|
|
|
i=11 |
|
|
|
|
|
|
|
|
|
|
|
|
(2, 6) |
|
|
124 ,10,3 |
|
|||
i=12 |
|
|
|
|
|
|
|
|
|
|
|
|
(5, 5) |
142 ,10,3 |
|
|
133 , 8, 4 |
|
||
i=13 |
|
|
|
|
|
|
|
|
|
|
|
|
(4, 9) |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
i=14 |
|
|
|
|
|
|
|
|
|
|
|
|
(4, 10) |
|
|
|
|
|
|
97 |
i=15 |
|
|
|
|
|
|
|
|
|
|
|
|
(3, 10) |
161 ,14, 2 |
162 |
,13, 3 |
163 |
,12, 4 |
164 ,12, 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
i=16 |
|
|
|
|
|
|
|
|
|
|
|
|
(1, 14) |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Реализация и использование систем распознавания речи
В настоящее время под системой распознавания р понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач.
•Распознавание изолированных устно произносим команд ограниченного словаря.
•Распознавание слитной речи.
•Понимание речи.
4
Реализация и использование систем распознавания речи
Дополнительные различия.
•Система распознавания может обучаться на индивидуальные особенности речи конкретного диктора.
•Система может быть рассчитана на конкретный стиль произнесения.
•Система может быть предназначена для работы в разных акустических условиях.
4
Промышленные системы распознавания речи Стандартная система распознавания речи
4
Промышленные системы распознавания речи
Система распознавания речи фирмы Speereo Software United Kingdom Ltd.
• |
До 150000 слов английского языка. |
|
• |
В темпе с процессом. |
|
• |
Статистические языковые модели. |
|
• |
600 командных фраз. |
|
• |
В любую среду: MS Windows 95, 98, Millenium, NT4.0, 2000 |
|
• |
Спец. словарь: радиология и модели языков. |
|
• |
PCMCIA для мобильных работ. |
|
• |
изолированно произносимые команды; |
|
• |
без подстройки под диктора; |
|
• |
99,9% в офисном помещении; |
|
• |
97% в автомобиле, идущем со скоростью 120 км/час; |
|
• |
подстраивается к языковой модели; |
|
• |
управление оборудованием и меню; |
|
• |
английский UK. |
4 |
|
|
Промышленные системы распознавания речи
IBM Voice Type Dictation
•32000 слов + 2000 слов личного словаря (английский я
•70 – 100 слов/мин.
•Статистические языковые модели.
•Стандартные фразы.
•В любую среду: OS/2, Windows, DOS.
•изолированно произносимые команды;
•с подстройкой под диктора;
•плата ввода;
•синтез введенного текста;
•95%;
•подстраивается к языковой модели;
•речь – текст в звуковом окне – текст в речевом редакто
•управление оборудованием и меню;
•45 – 60 минут – обучение системы; 150 предложений;
•английский UK и USA, французский, немецкий, итальян
испанский, арабские языки. |
4 |
|