Эхоподавление
Эхоподавление — термин используется в телефонии. Представляет собой процесс удаления эха из передаваемых звуков для повышения качества передачи голоса по телефону. В дополнение к улучшению субъективного качества, эхоподавление увеличивает пропускную способность канала связи за счет подавления пауз, предотвращая распространение эха по сети.
В области телефонии различают два типа эха: акустическое эхо и гибридное (электрическое) эхо[1].
Эхоподавление вначале предполагает распознавание первоначально передаваемого сигнала, повторяющегося с некоторой задержкой, в переданном или полученном сигнале. Как только повторяющийся сигнал распознан, он может быть удален с помощью его вычитания из переданного или полученного сигнала. Этот метод, как правило, реализуется с помощью цифрового сигнального процессора (DSP), но может быть реализован и в виде части или целого программного обеспечения компьютера. Эхоподавление выполняется эхоподавителями или эхозаградителями, а в некоторых случаях и теми, и другими.
Терминология
Эхозаграждение (echo suppression) — термин, употребляемый для обозначения более простой процедуры уменьшения эффекта эха за счет искусственного внесения затухания сигнала в одно из направлений его передачи.
Эхоподавление (echo cancellation) — термин, в современной технической документации употребляемый для обозначения более сложной и более точной процедуры удаления эха из принимаемого сигнала путём вычитания передаваемого сигнала из принимаемого.
В книге[2] вместо термина «эхоподавление» (стр. 166) используется термин «эхокомпенсация», а термин «эхоподавление» используется в значении «эхозаграждение».
В различных источниках можно встретить термин «эхокомпенсация» и в значении «эхоподавление», и в значении «эхозаграждение».
Эхозаградитель[3] — более простое устройство по сравнению с эхоподавителем, так как действует по принципу временного (доли секунды) значительного (до 55 дБ) ослабления в канале передачи в момент прихода эхо-волны (путём шунтирования сигнальной линии электронным ключом), не выполняя более сложной функции «вычитания» эха из сигнала.
История
В телефонии эхо очень похоже на то, что можно было бы услышать, крикнув «ау» в лесу или в каньоне. Эхо — это копия, отражение, которое слышно спустя некоторое время после изначально сказанного. При разговоре по телефону, если задержка значительная (больше нескольких сотен миллисекунд), эхо раздражает собеседников. Если задержка очень мала (10 миллисекунд или меньше), это явление называется «местный эффект», и хотя оно малозаметно для человека, может быть причиной нарушения связи между модемами.
В начале эры телекоммуникаций для снижения нежелательного эха использовали эхокомпенсаторы (эхозаградители). По сути эти устройства полагаются на то, что большинство телефонных разговоров являются полудуплексными, то есть когда один человек говорит, другой слушает. Эхозаградитель пытается определить, какое направление передачи голоса является основным в данный момент, и разрешает передачу голоса в этом направлении. В обратном направлении, эхозаградитель вызывает сильное затухание сигнала в предположении, что это — сигнал эха. Естественно, такое устройство несовершенно. Например, в случае, когда оба абонента говорят одновременно, или когда один отвечает быстрее, чем эхозаградитель переключает направление ослабления сигнала.
Эхоподавители являются заменой для более ранних эхозаградителей, которые изначально были разработаны в 1950-х годах для компенсации эха, вызванного длительной задержкой на спутниковых телекоммуникационных каналах. Теория эхоподавления была разработана в AT&T Bell Labs в 1960-е годы, а первые коммерческие эхоподавители были введены в строй лишь в конце 1970-х в связи с ограниченными возможностями электроники той эпохи. Концепция эхоподавителя стостоит в синтезе ожидаемого эха от передаваемого сигнала, и вычитания этого синтезированного сигнала из принятого сигнала — вместо включения затухания прямом или обратном направлении. Этот метод требует адаптивной обработки сигналов для получения достаточно точного сигнала, чтобы эффективно убрать эхо, причем эхо может отличаться от оригинала из-за различного видоизменения сигнала при прохождении по сети.
Стремительный прогресс в реализации цифровой обработки сигналов позволил изготавливать эхоподавители меньшего размера и сделал их более рентабельными. В 1990-х годах эхоподавители были впервые встроены в коммутаторы Northern Telecom DMS-250, а не выполнены в виде самостоятельных устройств. В конце 1990-х появились платы компьютерной телефонии со встроенными блоками эхоподавления (например, продукты Dialogic[англ.]).
Интеграция эхоподавителей непосредственно в коммутатор означает, что эхоподавление может быть включено или выключено для отдельных вызовов, устраняя необходимость поддержки отдельных транков для вызовов с передачей голоса и данных. В современных малых и портативных коммуникационных устройствах часто используют программное эхоподавление, которое предусматривает подавление акустического или остаточного эха, внесенного удаленным абонентом; такие системы, как правило, компенсируют эхо, появляющееся с задержкой до 64 миллисекунд.
Системы голосовой почты и распознавания речи, которые принимают сообщения для или от абонентов, используют эхоподавление для того, чтобы предотвратить запись эха собственной подсказки («говорите после сигнала…») в качестве сообщения для абонента.
Акустическое эхо
Акустическое эхо возникает тогда, когда звук из громкоговорителя, например, динамика телефона громкой связи, попадает в микрофон в том же помещении, например, микрофон того же телефона громкой связи. Эта проблема существует в любом варианте коммуникации, где есть динамик и микрофон. Примеры таких систем, вызывающих акустическое эхо, легко найти вокруг нас:
- динамик громкой связи в автомобиле;
- настольный или мобильный телефон в режиме громкой связи;
- конференционный телефон;
- системы в комнатах для переговоров, которые используют динамики и микрофоны, смонтированные на потолке или на столе;
- физическая передача звука через вибрации динамика на микрофон через корпус телефонной трубки;
В большинстве этих случаев звук из динамика попадает в микрофон практически без изменений. Это называется «прямое акустическое эхо». Однако не всегда звук попадает в микрофон без изменений, и трудности в подавлении акустического эха связаны с тем, что окружающее пространство изменяет первоначальный звук. Например, мягкая мебель поглощает определенные частоты, а звук различных частот отражается от предметов в комнате или автомобиле с разной силой. Эти вторичные отражения строго говоря не являются эхом, скорее это — «реверберация».
Акустическое эхо слышно абоненту, находящемуся на дальнем конце линии связи при разговоре. Так что, если человек в комнате А говорит, он будет слышать свой голос, возвращающийся из комнаты B. Этот звук следует подавить, иначе он будут передаваться обратно.
Подавление акустического эха
С момента изобретения эхоподавления в AT&T Bell Labs его алгоритмы были усовершенствованы и отточены. Как и все процессы эхоподавления, эти первые алгоритмы были разработаны так, чтобы ожидать сигнала, который неизбежно попадёт в тракт передачи, и подавить его.
Подавление акустического эха, Acoustic Echo Cancellation (AEC), происходит следующим образом:
- Сигнал с дальнего конца поступает в систему.
- Сигнал с дальнего конца воспроизводится динамиком в помещении.
- Микрофон в этом же помещении принимает этот прямой сигнал и последующую реверберацию за звук в этом помещении.
- Сигнал, принятый с дальнего конца, фильтруется и задерживается так, чтобы походить на сигнал с ближнего конца.
- Отфильтрованные сигнал с дальнего конца вычитается из сигнала с ближнего конца.
- Результирующий сигнал представляет собой звуки в комнате, за исключением прямых или отраженных звуков, воспроизведенных динамиком в комнате.
Проблемы подавления акустического эха
Главная задача эхоподавителя — определение характера фильтрации, которая должна применяться к поступающему с дальнего конца линии сигналу, так, чтобы он оказался похож на сигнал ближнего конца. Фильтр, по существу, — это модель динамика, микрофона и акустических параметров комнаты.
Чтобы настроить фильтр, ранние системы эхоподавления требовали профессиональной настройки с импульсным или розовым шумом, а некоторые использовали эти шумы в качестве единственной модели акустического пространства. Более поздние системы, использовали эту настройку только в качестве основы, и эхоподавитель затем адаптировался к фактической акустической картине. При использовании полученного сигнала в качестве задающего сигнала, современные системы могут сходиться с нуля до 55 дБ подавления примерно за 200 мс.
Особенности эхоподавителей для мобильных устройств
Широкое развитие рынка мобильных устройств и повышение их вычислительной мощности привело к появлению таких новых возможностей, как аудио и видео конференц-связь между несколькими абонентами. Одним из ключевых компонентом для таких коммуникационных платформ является акустический эхокомпенсатор. В современной терминологии он является скорее не просто подавителем эхо, а основным блоком для препроцессинга речи, включающим эхо- и шумоподавление, функции автоматической регулировки уровня речи и общего уравнивания речевого сигнала с микрофонного входа.
Применение акустических эхоподавителей в мобильных устройствах имеет существенные особенности по сравнению с классическим случаем:
- повышенные требования к качеству речи требуют интеграции с широкополосной (50-7000 Гц) IP-телефонией, дающей повышенное качество речи при приемлемом увеличении полосы, занимаемой трафиком;
- для мобильных устройств характерны сильная акустическая связь между микрофоном и динамиком из-за близости их расположения. Помимо этого, типичным является повышенный уровень интермодуляционных и нелинейных искажений из-за ряда факторов: использования нелинейных выходных усилителей, механических резонансов в корпусных элементах и проч.;
- кроме эха обычно присутствует также и значительный уровень внешнего шума, для которого характерна высокая динамика;
- мобильные устройства предъявляют очень жесткие ограничения на вычислительные ресурсы, так как это влияет на расход энергии и на совместную работу с другими приложениями;
- специфика аудиодрайверов ОС Linux, Android не позволяет обеспечить малую (до 50 мс) задержку ввода-вывода, что повышает требования к уровню подавления.
Источники эха и искажений
Часть эхо-сигнала возникает из-за механической связи между динамиком и микрофоном. Хотя производители и предпринимают меры по демпфированию как динамиков, так и микрофонов, в небольшом корпусе мобильного устройства довольно затруднительно сделать низкий уровень проникания сигнала напрямую через корпусные элементы. Помимо довольно высокого уровня такого сигнала, для него характерен довольно высокий уровень нелинейных искажений, а также в ряде случаев и наличие ярко выраженных резонансных пиков.
Второй источник эха — собственно отражения от элементов окружения устройства. Рассеяние при этом складывается как из рассеянных компонент по всей длине эхопути, так и из сосредоточенных отражений. В этом случае довольно характерны быстрые флуктуации по фазе и по амплитуде эха. Сам общий эхопуть оказывается достаточно большим даже для небольших помещений. Общепринятыми параметрами, достаточными для работы в большинстве помещений считаются величины 256 мс, а для больших или вытянутых помещений эхопуть достигает величин 512 мс и даже более.
Помимо этого для мобильных устройств довольно характерен высокий уровень интермодуляции и нелинейных искажений. Это обуславливается как собственными свойствами микрофонов и динамиков, использованием нелинейных выходных усилителей для минимизации энергопотребления, резонансами в корпусных элементах и проч. В целом, уровень нелинейных искажений порядка -10 дБ и интермодуляции -15 дБ является скорее нормой, чем дефектом.
Поддержка широкополосного режима
Еще несколько лет назад качество связи, обеспечиваемое кодеками с полосой телефонного канала (300-3400 Гц) считалось приемлемым для большинства приложений. Однако прогресс не стоит на месте. Стандартизация новых кодеков от ITU (G.711.1, G.722.2 (AMR-WB), G.729.1 и др.), обеспечивающих более высокое качество речи при полосе 50-7000 Гц продвигает внедрение широкополосных технологий в различные устройства. Де-факто, поддержка широкополосного режима с частотой дискретизации 16 кГц, наряду со стандартным 8 кГц узкополосным режимом, является одним из обязательных требований к современным эхоподавителям. Более высокая частота дискретизации означает и значительное увеличение количества вычислительных операций, требуемых для компенсации эха, поэтому алгоритмы эхоподавления для широкополосного режима проектируются таким образом, чтобы вычислительная нагрузка на процессор оставалась бы сравнимой с узкополосным режимом.
Аудиозадержка
Задержка является важнейшей характеристикой аудио подсистемы. Известно, что субъективное качество речи и сложность восприятия при двустороннем общении сильно ухудшается при увеличении задержки до величин 200-250 мс. Однако требуется заметить, что общая задержка влияет и на восприимчивость человеческого уха к эху. В частности, рекомендация ITU-T G.131 приводит примерную зависимость требуемого уровня эхоподавления в зависимости от задержки, которая показывает, что при увеличении задержки от 50 до 250 мс требуется дополнительно подавлять эхо на 20 дБ.
В мобильных устройствах обычно используются ОС Linux, Android, Symbian, которые не обеспечивают малую задержку ввода-вывода в полнодуплексном режиме. Общая задержка в аудио тракте может составлять значительные величины – до 200-300 мс – и поэтому эхоподавители для таких платформ должны иметь повышенное подавление эха.
Совместное эхо и шумоподавление
Особенностью применения мобильных устройств является использование их в условиях высокого уровня внешних шумов и достаточно быстро меняющейся шумовой обстановки. При этом шумы носят разнообразный характер и могут быть как широкополосные, так и частотно-селективные. Казалось бы, в офисных помещениях шумов должно быть немного, но возникают дополнительные шумы, являющиеся гармониками сетевых частот, производимые люминесцентными и энергосберегающими лампами. Их спектр весьма заметен даже на частотах выше 1 кГц. В целом, типичный уровень шумов может составлять величину порядка 10-15 дБ от уровня речи. В таких условиях, эхоподавитель должен обеспечивать совместное эхо и шумоподавление, в противном случае могут возникать разнообразные негативные эффекты такие, как: замедление скорости сходимости, ухудшение качества речи, ухудшение подавления в режиме двойного разговора, замедление адаптации шумоподавителя на изменение внешнего шума в присутствии значительного эха или двойного разговора, возникновение так называемого музыкального шума в паузах, металлизация речи и изменение её тембра.
Ресурсные ограничения
Ресурсные ограничения являются важнейшим лимитирующим фактором для мобильных устройств. Минимизация потребления ресурсов является важнейшим источником экономии потребления энергии и увеличения времени непрерывной работы устройства от аккумуляторов. Еще совсем недавно считалось, что наиболее распространенные в сегменте мобильных устройств процессоры класса ARM не способны решать задачу эхоподавления. Однако, появление нового поколения таких процессоров с поддержкой системы команд для обработки сигналов (ARM9e, ARM11, расширения WMMX, Neon и проч.) и повышение тактовых частот, наряду с появлением новых алгоритмов эхоподавления, сделало это реальностью.
Безусловно, эхоподавление, особенно в широкополосном режиме, для таких процессоров остается весьма ресурсоемкой задачей – типичное потребление ресурсов для процессора класса ARM11 составляет 50…100 MIPS, что при тактовой частоте 600 МГц соответствует 8…17% загрузки. Постепенно производители внедряют многоядерные архитектуры и специализированные акселераторы, в которых ресурсоемкие алгоритмы такие, как эхоподавление, кодирование речи и прочие переносятся в специализированное ядро, оптимизированное для таких вычислений. При этом расход энергии существенно снижается.
Таким образом, особенности мобильных устройств накладывают перечень требований к эхокомпенсатору. Он должен:
- иметь слабую чувствительность к нелинейным и интермодуляционным искажениям;
- поддерживать эхопуть до 512 мс;
- иметь средства работы на различных частотах дискретизации сигнала;
- обладать высокой скоростью адаптации как эхо так и шумоподавителя;
- обеспечивать улучшенное подавление эха при больших задержках;
- иметь средства борьбы с нежелательными резонансами, а также иметь возможность коррекции частотной характеристики микрофонного тракта;
- иметь приемлемое потребление ресурсов.
Гибридное эхо
Гибридное эхо получило своё название от термина «гибрид», которым называют устройство(диф.систему), применяемое в телефонных сетях общего пользования для согласования двухпроводной линии, ведущей от телефонной станции к абоненту, с четырехпроводной линией, традиционно применяемой в телефонных сетях для связи между телефонными станциями [1].
Природа образования гибридного, или электрического, эха — непредусмотренная передача электрического сигнала из линии передачи данных в линию приема.
В современных сетях могут использоваться самые разные схемы подключения абонентской линии к аппаратуре передачи голоса между телефонными станциями; более того, операторы связи разных стран могут использовать отличающиеся друг от друга методы подключения абонентов. Кроме этого, в современных сетях голосовой сигнал часто проходит от одного абонента к другому через несколько разнородных коммутаторов, среди которых могут быть как новые цифровые, так и более старые аналоговые.
Эти преобразования могут приводить к появлению эха, и в большинстве случаев абоненты не слышат его только потому, что коммутаторы операторов связи оснащены аппаратурой эхоподавления.
Реализации в ПК
В персональных компьютерах алгоритмы эхоподавления встроены в Skype, Flash Player (с версии 10.3) и драйверы некоторых звуковых карт.
Ссылки
- Акустические эхоподавители для мобильных устройств, Назаров А.Г., к.т.н
- How to Choose an Acoustic Echo Canceller, Polycom
- Nonlinear residual acoustic echo suppression for high levels of harmonic distortion, Bendersky, D.A. Stokes, J.W. Malvar, H.S. Buenos Aires Univ., Buenos Aires
- A hybrid acoustic echo canceller and suppressor, Fredric Lindström, Christian Schüldt, Ingvar Claesson, 2007 (недоступная ссылка)
- Nonlinear Echo Suppression Technology Enabling Quality Handsfree Talk for Compact Equipment, Hoshuyama Osama
Примечания
- ↑ 1 2 Гольдштейн B.C., Пинчук А.В., Суховицкий А.Л. IP-телефония . — Москва: Радио и Связь, 2001. — С. 336.
- ↑ Дэвидсон Дж., Питерс Дж., Бхатия М., Калидинди С., Мукхержи С. Основы передачи голосовых данных по сетям IP . — 2. — Москва: Вильямс, 2007. — С. 396.
- ↑ Эхозаградители КЭЗ-А.Ц02. Техническое описание и инструкция по эксплуатации . — Москва, 2002. Архивировано 4 марта 2016 года.