Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
42
Добавлен:
13.03.2015
Размер:
399.36 Кб
Скачать

Передача голоса по каналам Интернет

Несколько лет назад появился новый вид услуг в Интернет - голосовая связь (IP-phone, Vocaltec, Skype). Сегодня имеется 300 миллионов абонентов, регулярно пользующихся IP-phone и его аналогами, ожидается до 2000 миллионов до конца текущего десятилетия, качество передачи постепенно приближается к уровню цифровой телефонии.

Среди пользователей есть те, для кого это лишь возможность общения, как для радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже как объект бизнеса.

Существуют два алгоритма сжатия звуковой информации, используемых для IP- телефонных переговоров: GSM (Global system for mobile communications, ftp.cs.tu- berlin.de/pub/local/kbs/tubmik/gsm), которая обеспечивает коэффициент сжатия 5, и алгоритм DSP-группы (true speech) с коэффициентом сжатия данных 18 (работает при

частотах 7.7 кбит/с). Добавление аппаратных средств сжатия информации позволяет

сократить необходимую полосу до 6.72 Кбит/с. Потеря 2-5% пакетов остается

Пропускная

Частота

незамеченной, 20% оставляет разговор понятным. В таблице представлена зависимость

 

стробирования

необходимой полосы телекоммуспособностьикационного канала от частоты стробирования

[бит/с]

[1/с]

звукового сигнала, которая определяет качество воспроизведения.

9600

4000

14400

6000

19200

8000

28800

11000

Для подключения к сети IP-phone необходима мультимедийная карта, микрофон, динамики (или наушники), 8 Мбайт оперативной памяти, доступ к Интернет и соответствующее программное обеспечение. Качество передачи звука зависит от загруженности IP-канала. В качестве транспорта используется протокол UDP. Для обеспечения высокого качества звука нужна гарантированная ширина IP- канала, ведь задержанные сверх меры UDP-дейтограммы теряются безвозвратно, что и приводит к искажениям. Внедрение протоколов, гарантирующих определенную ширину канала сделают IP-phone значительно более привлекательным. Многие компании уже предлагают такое оборудование и

программы.

В последнее время технология передачи звука по каналам Интернет стала широко использоваться для трансляции новостей и музыки. При этом обеспечивается вполне удовлетворительное качество даже при передаче стерео программ. В этом случае имеется возможность применить более эффективное сжатие информации и протоколы типа RTP и RTCP. Задержка при передаче в этом случае никакого значения не имеет, а качество доставки гарантировано. Современные системы ip-телефонии снабжены гибкой системой буферов, позволяющих использовать для передачи паузы, когда один из партнеров молчит

Подробные подсчеты показали, что дополнительная информация, содержащаяся в интонации, громкости и индивидуальных особенностях голоса при обычном разговоре не должна превышать 75% от "смысловой" информации, а при очень быстрой речи она составляет не более 30%, за то при медленном разговоре эта информация может достигать 150% (в этих условиях человек может различать больше нюансов).

Оперируя с устной речью, в отличии от письменной приходится иметь дело с фонемами, а не буквами. В русском языке их существует 42 (энтропия Е=log42=5,38). Но существуют и другие оценки числа фонем, например, 48. Для английского языка характерно использование 45 фонем. Информационная избыточность фонем составляет 80-85%. Устная речь может быть записана, а письменная прочитана, отсюда можно сделать вывод, что информация, содержащаяся в определенном тексте, не зависит от ее формы:

Е(буквы) × число букв = Е(фонемы) × число фонем Отсюда следует, что:

Е(фонемы) =Е(буквы) × n

Для записи музыки характерны аналогичные закономерности.

Если мы будем записывать последовательность нот случайным образом, энтропия такой последовательности будет велика.

Однако с музыкальной точки зрения такая последовательность ,беcсмысленна.

Для обеспечения приемлемо мелодичности в такую последовательность нужно внести определенную избыточность. Но при слишком большой избыточности, когда последующие ноты почти однозначно задаются предыдущими, мы получим слишком монотонную мелодию. По этой причине избыточность простых мелодий не меньше, чем избыточность нормальной речи. Анализ показал, что для простых мелодий энтропия одной ноты Е=log8=3 битам.

Активно разрабатываются многие новые стандарты и протоколы для обеспечения передачи звука по IP- каналам, проведения видеоконференций и управления в реальном масштабе времени.

К таким протоколам относятся RTP (Real Time Protocol, RFC-1889, -1890), RTCP (Real-Time Control Protocol), который является дополнением RTP, и RSVP (resource reservation protocol, см. разделы проектов IETF nic.nordu.net, ftp.isi.edu, munnari.oz.au и ds.internic.net или ftp.ietf.org/internet-drafts/draft-ietf-rsvp-spec- 16.txt), служащий для обеспечения своевременной доставки данных при работе в реальном времени. Протокол RTP способен работать помимо UDP/IP в сетях CLNP, ATM и IPX. Он обеспечивает детектирование потерь, идентификацию содержимого, синхронизацию и безопасность (доступ по шифрованному паролю, см. RFC-1423). Проблема синхронизации при передаче звука особенно важна, так как даже для локальных сетей время доставки пакетов может варьироваться в весьма широких пределах из-за используемого алгоритма доступа (например, CSMA/CD), а это приводит к искажениям при воспроизведении.

Протоколы RTP и RTCP позволяют одновременное голосовое общение неограниченного числа людей в рамках сети Интернет. Протокол же RSVP (или его аналог) в случае внедрения гарантирует качество связи (разумеется, при достаточной широкополосности канала) за счет повышения приоритета пакетов реального времени.

Следует иметь в виду, что голосовое общение, хотя и весьма привлекательно, не является единственной

и даже главной целью разработчиков. По мере совершенствования протоколов Интернет сделает

Кодек Выходная скорость кодека

возможным управление в реальном масштабе времени довольно сложными удаленными объектами.

G.711 64 кбит/с

g.723. 5,3 или 6,4 кбит/с

1

g.722 48, 56 или 64 кбит/с

g.728 16 кбит/с

g.728/

g.729 8 кбит/с

При внедрении IP-телефонии желательно, чтобы сетевая инфраструктура обеспечивала:

•Время задержки в одну сторону менее 100 мсек.

•Вероятность потери пакета менее 5%.

•Оборудование должно соответствовать требованиям H.323v2 ("Видеотелефонные системы и оборудование локальных вычислительных сетей без гарантии качества обслуживания"), а механизмы безопасности - стандарту H.235. Все системы H.323 должны поддерживать рекомендации G.711, определяющие метод РСМ. Алгоритмы сжатия данных определяются протоколом Н.245.

•Наличие функции привратника в маршрутизаторе/шлюзе (блокирует установку новых телефонных соединений при отсутствии необходимых ресурсов)

На рисунке MVW-модуль (Multiflex Voice/WAN), включаемый в маршрутизатор, например, CISCO-3662, служит для связи с общедоступной телефонной сетью. Если сеть “А” размещена в Рио-де-Жанейро, а “В” в Москве, то любой клиент нижней сети сможет разговаривать с клиентом в Рио “бесплатно”, а с клиентами телефонных сетей “А” и “B” по локальным тарифам. В левой части рисунка показаны телефонные аппараты, которые подключаются непосредственно к сегменту локальной сети. Такие приборы уже поступили в продажу.

Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу маршрутизатора, к сетевой рабочейРечьстанции или к специальному сетевомуУправлениеад пт ру.

G.7xx RTCP H.225

 

Q.931

H.245

(RAS)

 

RTP

(Сигналы при вызове)

(Управление вызовами)

 

TCP

UDP

 

Протокол передачи данных Протокол физического уровня

Марк Либерман посчитал объем памяти, которая нужна, чтобы записать все, что было когда-либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с частотой 16 кГц с разрешением 16-бит.

Стандарт MPEG-4

MPEG-4 является стандартом ISO/IEC разработанным MPEG (Moving Picture Experts Group), комитетом, который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение. MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира. Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре 1998. Международным стандартом он стал в начале 1999. Полностью совместимый расширенный вариант MPEG-4 версия 2 был разработан к концу 1999 и стал международным стандартом в начале 2000. Работы над этим документом продолжаются (см. http://sound.media.mit.edu/mpeg4/SA-FDIS.pdf). MPEG-4 предназначен для решения трех проблем:

•Цифровое телевидение;

•Интерактивные графические приложения (synthetic content);

•Интерактивное мультимедиа World Wide Web.

Особенности стандарта MPEG-4

Стандарт MPEG-4 предоставляет технологии для нужд разработчиков, сервис-провайдеров и конечных пользователей.

• Для разработчиков, MPEG-4 позволяет создавать объекты, которые обладают большей адаптивностью и гибкостью, чем это возможно сейчас с использованием разнообразных технологий, таких как цифровое телевидение, анимационная графика WWW и их расширения. Новый стандарт делает возможным лучше управлять содержимым и защищать авторские права.

• Для сетевых провайдеров MPEG-4 предлагает прозрачность данных, которые могут интерпретироваться и преобразовываться приемлемые сигнальные сообщения для любой сети посредством стандартных процедур. MPEG-4 предлагает индивидуальные QoS-дескрипторы (Quality of Service) для различных сред MPEG-4.

Точное преобразование параметров QoS для каждой из сред в сетевые значения QoS находится за пределами регламентаций

MPEG-4 (оставлено на усмотрение сетевых провайдеров). Передача QoS-дескрипторов MPEG-4 по схеме точка-точка оптимизирует

транспортировку данных в гетерогенных средах.

• Для конечных пользователей, MPEG-4 предлагает более высокий уровень взаимодействия с содержимым объектов. Стандарт транспортировать мультимедиа данные через новые сети, включая те, которые имеют низкую пропускную способностью, например, мобильные. Описания приложений MPEG-4 можно найти на странице http://www.cselt.it/mpeg.

Стандарт MPEG-4 определяет следующее:

1. Представляет блоки звуковой, визуальной и аудиовизуальной информации, называемые "медийными объектами". Эти медийные объекты могут быть естественного или искусственного происхождения; это

означает, что они могут быть записаны с помощью камеры или микрофона, а могут быть и сформированы

Кодированное представление медийных объектов

Аудиовизуальные сцены MPEG-4 формируются из нескольких медийных объектов, организованных иерархически. На периферии иерархии находятся примитивные медийные объекты, такие как:

статические изображения (например, Фон изображения),

видео-объекты (например, говорящее лицо - без фона)

аудио-объекты (например, голос данного лица);

и т.д.

MPEG-4 стандартизует число таких примитивных медиа-объектов, способных представлять как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-мерными. Кроме медиа- объектов, упомянутых выше и показанных на рис. 1, MPEG-4 определяет кодовое представление объектов, такое как:

текст и графика;

говорящие синтезированные головы и ассоциированный текст, использованный для синтеза речи и

анимации головы;

синтезированный звук

Медиа-объекты в его кодированной форме состоит из описательных элементов, которые позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо, ассоциированный с ним поток данных. Важно заметить, что кодированная форма, каждого медиа-объекта может быть представлена независимо от его окружения или фона.

Кодовое представление медиа-объектов максимально эффективно с точки зрения получения необходимой функциональности. Примерами такой функциональности являются разумная обработка ошибок, легкое

Состав медийных объектов

На рисунке объясняется способ описание аудио-визуальных сцен в MPEG-4, состоящих из отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии описательного дерева, в то время как составные медиа-объекты представляют собой суб- деревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку, и его голос объединены друг с другом, образуя новый составной медиа-объект.

Такое группирование позволяет разработчикам создавать комплексные сцены, а пользователям манипулировать отдельными или группами таких объектов.

MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:

помещать медиа-объекты, где угодно в заданной координатной системе;

применять преобразования для изменения геометрического или акустического вида медиа- объекта;

группировать примитивные медиа-объекты для того чтобы образовать составные медиа- объекты;

использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов (например, звук, движущуюся текстуру, принадлежащую объекту; параметры анимации, управляющие синтетическим лицом);

изменять, интерактивно, точку присутствия пользователя на сцене (его точку наблюдения и прослушивания).