Технологии обработки звука в реальном времени. Что есть и чего ждать?
22.07.20
Не вдаваясь глубоко в хронологию развития аудио-технологий, коротко расскажем про основные этапы становления интерфейсов для ввода-вывода аудио и перейдем к современной части, где не обошлось без пресловутого искусственного интеллекта и машинного обучения. Более конкретно — о той части разработок которые призваны улучшить работу аудио-систем во время общения пользователей.
История
По части разработок в области аудио долгое время ничего не менялось и даже TRS ( в народе — миниджек), до сих пор остается актуальным, хотя этой технологии более 70 лет. Он относительно компактный и надёжный для мобильных устройств, поэтому до сих пор не был вытеснен полностью.
С популяризацией цифрового аудио на первый план выходят поддержки кодеков и передачи аудио без сжатия. Проводные интерфейсы вроде USB и Lightning и беспроводные, последние ревизии Bluetooth, заметно повысили качество звука. Но всё это касалось воспроизведения фактического файла, без какого либо вмешательства в его структуру.
Самым новым этапом стала обработка звука в реальном времени. Причем речь не о качестве или изменениях частотных амплитуд, но об уровне обработки алгоритмами. Конкретнее — подавление шумов при голосовой связи по мессенджерам и голосовых чатах в играх.
Проблематика вопроса
Мы отдаём себе отчёт в том, что все, что касается качества звука и термины, которыми его описывают профессионалы аудио, могут быть субъективными. Кому то понравится звучание наушников за $15, кому-то за $150. А, например, оценка влияния цены кабеля на качество звучания вообще скатывается в конкуренцию экспертными мнениями и регалиями. Заключения экспериментов и слепые тесты имеют самые разные толкования.
Но с чем согласятся все пользователи, так это с актуальностью разработки технологий которые могли бы повысить качество записи аудио, особенно голоса. Одним из наиболее популярных направлений, стала обработка звука во время онлайн-общения. О нескольких решениях мы и расскажем.
«Тензорный» звук NVIDIA
Весной этого года компания NVIDIA представила технологию шумоподавления RTX Voice, призванную улучшить качество звука во время общения по мессенджерам и в играх. Разработчики заявляют новый продукт использует искусственный интеллект для борьбы с различными фоновыми шумами — от щелчков клавиатуры до гула офиса, шума машин за окном и прочего. Что касается потребления ресурсов, то энтузиасты уже оценили его в 10-15 % от производительности видеокарты, что может стать критичным в «тяжелых» играх. Однако технология всё ещё находится на стадии бета-тестов, а сам по себе ИИ подразумевает постепенное усовершенствование, так что эти цифры могут заметно измнится.
Дистрибутив можно скачать с сайта NVIDIA, там же есть очень подробная инструкция по установке и настройке. Так что опробовать работу алгоритма может каждый желающий. Любопытно, что оценить работу можно просто открыв любое видео на YouTube и активировав RTX Voice. На практике алгоритм NVIDIA успешно очищает от фоновых шумов, включая музыку и гул окружающей среды. Исключение составляют совсем сложные ситуации, когда звуковой фон чрезмерный. Тогда голос спикера может пропадать или приобретать «металлический» оттенок.
В данный момент NVIDIA RTX Voice поддерживает работу со следующими программами: XSplit Broadcaster, XSplit Gamecaster, Twitch Studio, Discord, Google Chrome, WebEx, Skype, Zoom и Slack.
Универсальный подход к шумоподавлению от ASUS
Компания ASUS также представила свою технологию интеллектуального шумоподавления. Она реализована программно, как в качестве обновления для материнских плат и гарнитур с цифровым подключением, так и в составе отдельных адаптеров. Одним из примеров гарнитуры с такой технологией является модель ROG Theta 7.1, тест которой, вы можете найти на нашем сайте.
Эффект от работы технологии аналогичен тому что получается при использовании решения NVIDIA, однако разработчики ASUS заявляют что потребление ресурсов уже процессора, составит менее 4 %, а видеокарты менее 1 %.
Компания уже анонсировала старт продаж микрофона AI Noise-Canceling Mic. Это компактный адаптер USB-C/3,5 мм с интегрированной технологией интеллектуального шумоподавления. В оснащение адаптера входит интегрированный 96 кГц/24-битный центральный аудио процессор.
Адаптер подключается к гарнитуре через 3,5-мм аудиоразъем. В комплект также входит переходник с USB-C на USB-A. В устройстве используется встроенный аппаратный контроллер, поэтому заявляется что адаптер не влияет на производительность мобильного устройства, ПК или ноутбука, к которому он подключен.
Другие вендоры и сервисы
MSI представила программу Sound Tune с поддержкой технологии искусственного интеллекта. Тренировка ИИ проводилась на базе Deep Neural Network (DNN) с использованием 0,5 млрд данных синтетических разговоров с шумом (Synthetic Noisy Speech Data). MSI Sound Tune в данный момент совместима с Zoom, Skype, Slack, Microsoft Teams, WebEx и Hangouts.
Сервис для онлайн-общения Discord также обновился поддержкой фильтрации посторонних шумов. Тем более что именно его чаще всего используют игроки для общения во время совместных игровых сессией. Для реализации функции был использован интегрированный в программу сервис Krisp.ai.
Перспектива
Спрос на подобные технологии не мог не подстегнуться переходом на удалённый режим работы из-за карантина. Сотрудникам часто приходится участвовать в онлайн-конференциях и видео-созвонах, а звуковые условия бывают самыми разными и неподходящими.
Использование же голосовой связи на улице не меняло свой тренд. Задувающий в микрофон ветер и шум транспорта всегда были главными врагами связи голосом. Здесь как раз пригодятся универсальные наработки, как раз желательно программные, чтобы пользователь не зависел от типа используемого устройства.
Редактор
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Обзор Asus Zenbook S 16 (UM5606): новая волна
Новый ноутбук Asus Zenbook S 16 выполнен в корпусе из необычного металла, построен на базе свежей платформы AMD, адаптированной для ИИ, и имеет отличную автономность. Расскажем об этом премиальном ноутбуке подробнее
Электрический кроссовер Cadillac Vistiq 2025 с автономностью 483 км, имеет моторы на 615 л.с. и цену от $78,8 тыс.
автомобиль электротранспортАвтомобиль Cadillac Vistiq 2025 оснащен аккумулятором Ultium емкостью 102 кВт-ч, который обеспечивает ориентировочный запас хода в 483 км, но официальный показатель EPA еще не подтвержден
Gigabyte выпустила видеокарту AMD Radeon PRO W7800 AI TOP с 48 ГБ памяти GDDR6
AMD Gigabyte видеокартаОригинальная AMD Radeon Pro W7800 вышла весной 2023-го и оснащалась 32-гигабайтным видеобуфером. Gigabyte представила видеокарту Radeon PRO W7800 AI TOP с 48 гигабайтами GDDR6.