Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
inform / Лекция 4.ppt
Скачиваний:
55
Добавлен:
08.06.2015
Размер:
18.24 Mб
Скачать

Скрытые Марковские модели

Выбор инвентаря СММ и числа состояний СММ осуществляется на основании данных о фонетическом составе языка, словаре и размере обучающей выборки.

Лучшим выбором инвентаря будет такой, при котором выбранные СММ будут соответствовать акустическим реализациям фонем в реальной речи, а имеющаяся обучающая выборка будет обеспечивать корректную оценку параметров моделей.

Обычно это аллофоны – контекстно-зависимые акустические реализации фонем.

Поскольку мужские и женские голоса существенно отличаются по параметрам, в

большинстве приложений раздельно 92

формируются семейства СММ для мужского и женского голосов.

Скрытые Марковские модели

Составление эталонных сигналов слов из фонем в соответствие с моделью произношения

k X

 

argmax

max

qk

 

 

 

 

0l

 

 

k

ks ,wk1s ,wk 2 s ,

 

 

 

 

 

 

s 1:qk

s 1

 

 

 

k = 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

1

1

 

 

 

0

1

1

1

 

1

 

 

sпоч. 11

 

2 3

2 2

2 3

31

3 2

3 3

1

 

 

2 2

 

 

 

 

1

 

1

1

1

 

 

 

0

1

1

1

 

1

 

 

sпоч. 11

 

21

2 2

2 3

31

3 2

3 3

1

 

 

2

 

 

 

 

1

 

1

1

1

 

 

 

0

1

1

1

 

1

 

 

sпоч. 11

 

21

2 2

2 3

31

3 2

3 3

1

 

 

2

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

q1

0

s1

s 2

s 3

 

 

q 11

q 1 2 q 13

sкін.

 

s

 

 

 

 

q 1

q

 

 

 

 

1

 

k = 2

 

 

 

 

1

 

 

 

 

 

 

 

0

 

 

 

 

s1

s 2

s 3

q1

sкін.

 

 

 

 

 

s

 

q

 

 

 

 

 

 

 

 

 

 

 

k = 3

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

0

 

 

 

s1

s 2

s 3

q 11

q 1 2 q 13

q1

sкін.

 

 

 

s

 

 

q 1

q

 

 

 

94

Скрытые Марковские модели

Пофонемное распознавание слитной речи, состоящей из слов выбранного словаря, в случае свободного

порядка следования слов

95

Скрытые Марковские модели

Модель слова с произвольным порядком следования моделей фонем в слове

 

 

1

 

 

1

 

1

13

 

 

12 1

s=sstart

 

1

 

11

 

 

=5

 

 

0

 

1

1

 

 

 

10

0

 

 

1

1

 

 

9

=4

1

1

8

 

 

1

 

 

 

 

1

=3

1

 

 

 

 

1

 

 

 

14

1

 

1

 

 

 

15

1

 

 

 

 

 

16

 

0

 

=6

 

 

1

 

 

1

0

 

 

 

 

 

 

 

 

 

 

 

=1

s=1

 

 

 

 

1

 

 

 

 

 

0

s=sfinal

 

 

 

 

 

 

 

s=0

0

 

 

 

 

 

 

0

 

 

0

1

 

 

 

 

 

 

 

 

 

 

 

=2

s=4

 

 

 

s=3 1

1

 

 

 

 

5

 

 

s=2 1

1

6

1

1

 

 

7

1

 

1

 

 

 

1

 

 

1

96

 

 

Скрытые Марковские модели

Модель предложения с произвольным порядком следования

моделей слов и моделей фонем в предложении

1

 

 

 

 

 

 

 

 

 

1

1

1

s=1

 

01 0 , vir 0 , kir 0

 

 

 

 

 

 

 

 

 

1

1

1

 

1

1

=1

 

 

 

 

 

 

 

 

 

 

1

1

 

s=2 s=3 4

1

 

ir ,vir , kir

 

 

 

 

 

 

 

 

 

 

 

 

 

=2

 

i = 1 : l, r = 1:N, k = 1:N

 

 

 

 

 

 

 

 

5

6

7

 

 

0

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

8

9

10

 

=3

 

0

 

1

 

l = 16, N = 4

 

 

 

 

 

 

 

 

 

 

 

 

 

*, 0 , 0

 

*, 0, 0

 

*, 0, 0

 

11

12

13

 

=4

 

0

1

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

s=0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=5

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

( i(0), vi(0))

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

21 , 0, 2

 

 

24 , 0, 3

 

i=0 s=11 s=12 s=13 s=8 s=9 s=10 s=5

s=6 s=7

s=2

s=3 s=4

s=1 s=0

( , 0)

 

32 , 0 ,1

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

(1, 1)

41 , 2, 4

 

 

 

 

 

 

i=2

 

 

 

 

 

 

 

 

 

 

 

 

(1, 1)

 

 

52 , 2,1

 

 

 

 

i=3

 

 

 

 

 

 

 

 

 

 

 

 

(1, 1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=4

 

 

 

 

 

 

 

 

 

 

 

 

(5, 1)

61 , 3, 2

 

 

 

 

 

i=5

 

 

 

 

 

 

 

 

 

 

 

 

(4, 1)

 

 

72 , 4,1

 

 

 

 

i=6

 

 

 

 

 

 

 

 

 

 

 

 

(3, 3)

 

 

 

 

44 , 5, 2

 

i=7

 

 

 

 

 

 

 

 

 

 

 

 

(3, 3)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

91 , 7 , 2

 

 

 

 

 

i=8

 

 

 

 

 

 

 

 

 

 

 

 

(2, 5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

103 , 6,1

 

 

 

i=9

 

 

 

 

 

 

 

 

 

 

 

 

(2, 5)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=10

 

 

 

 

 

 

 

 

 

 

 

 

(2, 6)

122 , 9,1

 

 

 

 

 

i=11

 

 

 

 

 

 

 

 

 

 

 

 

(2, 6)

 

 

124 ,10,3

 

i=12

 

 

 

 

 

 

 

 

 

 

 

 

(5, 5)

142 ,10,3

 

 

133 , 8, 4

 

i=13

 

 

 

 

 

 

 

 

 

 

 

 

(4, 9)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=14

 

 

 

 

 

 

 

 

 

 

 

 

(4, 10)

 

 

 

 

 

 

97

i=15

 

 

 

 

 

 

 

 

 

 

 

 

(3, 10)

161 ,14, 2

162

,13, 3

163

,12, 4

164 ,12, 2

 

 

 

 

 

 

 

 

 

 

 

 

 

i=16

 

 

 

 

 

 

 

 

 

 

 

 

(1, 14)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Реализация и использование систем распознавания речи

В настоящее время под системой распознавания р понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач.

•Распознавание изолированных устно произносим команд ограниченного словаря.

•Распознавание слитной речи.

•Понимание речи.

4

Реализация и использование систем распознавания речи

Дополнительные различия.

•Система распознавания может обучаться на индивидуальные особенности речи конкретного диктора.

•Система может быть рассчитана на конкретный стиль произнесения.

•Система может быть предназначена для работы в разных акустических условиях.

4

Промышленные системы распознавания речи Стандартная система распознавания речи

4

Промышленные системы распознавания речи

Система распознавания речи фирмы Speereo Software United Kingdom Ltd.

До 150000 слов английского языка.

 

В темпе с процессом.

 

Статистические языковые модели.

 

600 командных фраз.

 

В любую среду: MS Windows 95, 98, Millenium, NT4.0, 2000

Спец. словарь: радиология и модели языков.

 

PCMCIA для мобильных работ.

 

изолированно произносимые команды;

 

без подстройки под диктора;

 

99,9% в офисном помещении;

 

97% в автомобиле, идущем со скоростью 120 км/час;

 

подстраивается к языковой модели;

 

управление оборудованием и меню;

 

английский UK.

4

 

 

Промышленные системы распознавания речи

IBM Voice Type Dictation

32000 слов + 2000 слов личного словаря (английский я

70 – 100 слов/мин.

Статистические языковые модели.

Стандартные фразы.

В любую среду: OS/2, Windows, DOS.

изолированно произносимые команды;

с подстройкой под диктора;

плата ввода;

синтез введенного текста;

95%;

подстраивается к языковой модели;

речь – текст в звуковом окне – текст в речевом редакто

управление оборудованием и меню;

45 – 60 минут – обучение системы; 150 предложений;

английский UK и USA, французский, немецкий, итальян

испанский, арабские языки.

4

 

Соседние файлы в папке inform