27 февраля / 2024
Звук для подкаста: с чего начать?
Текст: Анастасия Гурьянова
Редактор: Елизавета Романова
Иллюстратор: Катрин Еремеева
Как работать над звуком в медиа? Рассмотрим технические инструменты для производства аудио и раскроем секреты работы со звуком на примере выпуска подкаста «Молодость простит» о проблемах взросления
Для удобства можно создавать папки, чтобы помещать в них файлы после каждого этапа работы
В полном цикле производства аудиодорожки выпуска подкаста можно выделить несколько этапов:
1) Подбор саунд-дизайна (можно сделать заранее);
2) Запись героев;
3) Монтаж записи и расстановка саунд-дизайна;
4) Улучшение звука (реставрация);
5) Сведение;
6) Мастеринг;
7) Добавление обложки и метаданных (информации к аудиофайлу).

Порядок строгий, но можно менять третий и четвертый пункты. Например, деликатный процесс улучшения звука (реставрация) предполагает удаление помех и шумов, чтобы, кроме речи, ничего лишнего в записи не было. Кто-то сначала делает такую обработку, а потом занимается монтажом, обрезкой ненужного и расстановкой фрагментов, саунд-дизайна. Но во время монтажа как раз можно выяснить, над какими проблемами придется работать, что сэкономит время. Сведением считают соединение всех дорожек, например разных голосов и музыки, в один трек. Сюда часто входит эквализация — работа с амплитудой волн на разных частотах, хотя в случае подкаста это удобно делать с реставрацией. В завершение манипуляций с аудио всегда делают мастеринг — обеспечение стабильного звучания трека на акустических системах, подготовка к тиражированию.

Простой цикл производства, подбор саунд-дизайна, запись и добавление метаданных рассмотрены в предыдущей части материала L!
Инструменты монтажной программы

Приступим к монтажу выпуска «Молодость простит» и рассмотрим интерфейс PreSonus Studio One. В других DAW (специальных программах для работы с аудио) функции аналогичны. Для создания монтажного проекта нужно выбрать Create a new Song. В настройках проекта важно задать разрядность звука (бит) и частоту дискретизации (Гц) по параметрам исходной записи. Например, Жене и Насте присылают из студии аудио в формате WAV с глубиной 24 бита и частотой дискретизации 48 кГц.
PreSonus Studio One. Задание аудиовыхода в Preferences с настройками программы
Если в программе не задан аудиовыход, ничего слышно не будет. При работе в DAW удобно использовать проводные мониторные наушники. В случае использования наушников по беспроводному соединению может потребоваться специальная настройка программы.
Интерфейс проекта в Studio One. Создание новых аудиодорожек по щелчку правой кнопки мыши по левой панели
Сверху панель инструментов. Справа панель Browse с плагинами во вкладке Effects. Слева параметры аудиодорожек. Посередине рабочая область. Щелчком правой кнопки по аудиофрагменту откроются инструменты. Действия с помощью клавиш быстрого доступа (shortcuts) в разных DAW обычно работают на английской раскладке. Практически любое действие можно отменить, например, стандартным сочетанием клавиш Ctrl+Z (Command+Z). Чтобы поместить записи и саунд-дизайн в проект, следует перетащить их из папки в окно программы или воспользоваться функцией Import File. В DAW аудио визуально отображается в виде графика, называемого осциллограммой звука (waveform). На нем отображается зависимость амплитуды звука, то есть его громкости, от времени. Проигрывание звука запускается и останавливается пробелом.

Приступим к редактированию загруженных аудио. Стоит отключить параметр для ритмической музыки Toggle Snap (привязка к темпу, shortcut N или на панели инструментов сверху), который перемещает фрагменты только в кратных интервалах и может быть включен по умолчанию. «Курсор» (Arrow Tool, shortcut 1) — инструмент выбора и перемещения фрагментов. «Ножницы» (Split Tool / Cut, shortcut 3) разрезает аудио на самостоятельные фрагменты.

Фейд — это восходящее с нуля или нисходящее к нулю изменение громкости. Например, чтобы плавно добавить фоновую музыку. А кроссфейд — это технология смешивания нисходящего и восходящего фейдов с целью плавного перехода. Это поможет соединить части диалога. Любое количество фрагментов можно придвинуть друг к другу и создать кроссфейды между всеми сразу, выделив их и выбрав функцию Create Crossfades (shortcut X, в меню по щелчку правой кнопки). Merge Events (shortcut G, в меню по щелчку правой кнопки) соединит разрозненные фрагменты в один, но функцией Dissolve Audio Part их можно разделить снова. Чтобы сделать фейд или изменить плавность кроссфейда, следует перемещать маркер на верхнем правом или левом углу фрагмента.
Кроссфейд между двумя фрагментами с помощью функции Create Crossfades. В заключение применена Merge Events
На этапе монтажа можно распределить голоса героев по разным дорожкам, чтобы экспортировать и затем обрабатывать по отдельности. Если какой-то фрагмент будет превышать громкость в 0 дБ, при экспорте запись может сохраниться с цифровыми дефектами: хрустами, щелчками, исчезновениями звука и прочими нежелательными изменениями. Поэтому перед экспортом аудиодорожки из DAW следует проверить, выставлена ли ее громкость, как и аудиофрагментов на ней, на отметку 0 дБ. Также к дорожке может быть применен плагин, который грубо подавляет сигнал выше заданной отметки, — лимитер на подавление до 0 дБ. В настройках экспорта аудио выбираются параметры точно такие же, какие были как у исходника. Например, у записи выпуска из студии это WAV, 24 бита и 48 кГц. Переформатирование в mp3 будет только в конце. Позже пригодится копия этого сохраненного монтажного проекта.
Смонтированный проект. Синие сверху — дорожки саунд-дизайна: у них разные настройки частот и панорамы. По дорожкам, отмеченным цветами, удобно расставлять реплики разных людей, чтобы позже выгружать их и обрабатывать по отдельности. Ниже вспомогательные дорожки. Туда можно откладывать элементы, которые пригодятся во время монтажа
Качество звучания

Выпуск смонтирован, но со звуком стоит поработать. Цель — выделить речь, чтобы ничто не отвлекало и чтобы она была пригодной для долгого прослушивания. Саунд-дизайн обычно соответствует нужным стандартам и в обработке не нуждается. А в записи в основном мешают посторонние шумы, реверберация (отражение звука от поверхностей) и динамические перепады. Если, например, пытаться повышать или понижать громкость речи вручную, фоновый шум и прочие недостатки тоже станут заметнее. Лоскут из шумов будет напоминать переключение между станциями на радиоприемнике.
аудио-пример

Сделайте ваш звук тише. Фрагмент необработанной записи. Естественная разница в громкости иногда может быть проблемой при воспроизведении на технике и мешать комфортному прослушиванию на протяжении выпуска
Чтобы пропустить сложный этап работы над чистотой записи, можно попробовать обработать ее в нейросети, например в Adobe Enhance Speech или в ai-coustics. Но с русским языком они работают плохо. Сейчас постоянно появляются все более совершенные модели. Если хорошего результата не получится, следует сделать обработку вручную. Обработки лучше сводить к необходимым, чтобы речь не потеряла качества.

На примере работы с iZotope RX получится рассмотреть проблемы с записью и стратегии по их устранению. Программа содержит широкий ряд профессиональных инструментов для улучшения звука. Но аналогичные инструменты существуют и в виде отдельных плагинов, которые можно приобрести в интернете и подключить к DAW.
Спектрограмма со словами Жени в iZotope RX
В iZotope RX аудио отобразится в виде спектрограммы. Это график, на котором по вертикали отображается частота (высота звука в Гц), по горизонтали — время, а яркость соответствует амплитуде звука (громкости в дБ) на определенной частоте. По спектру можно определить качество записи и представить ее содержание. Абсолютная тишина отображается черным цветом. Однообразный тусклый цвет спектра показывает фоновый шум. Яркие горизонтальные полосы представляют собой громкие частоты и их производные гармоники — так выглядит и речь. Довольно часто в записях выделяется сосредоточение громкости на нижних частотах, вызывающее лишнюю гулкость. Частоты ниже 20 Гц не входят в диапазон слышимости человека и в подкастах не используются.

Для речи удобна логарифмическая шкала, ее можно выбрать в настройках отображения спектрограммы. Снизу расположены инструменты просмотра и выделения, а справа — плагины. Почти все плагины имеют набор стандартных предустановок с понятными названиями. Обработка применяется к выделенным фрагментам по кнопке Render, a кнопка Preview позволяет слышать предварительный результат. Проигрывание звука запускается нажатием по пробелу.

На верху панели справа расположена функция Module Chain, которая позволяет автоматически повторять ранее выбранные обработки из проекта в проект. Это удобно для работы с однотипными записями. Внутри окна Module Chain можно создать и сохранить последовательность плагинов с их настройками, а затем применять и корректировать их под конкретные аудиофайлы.

Сначала стоит убрать наводки — уплотнения низкочастотного гула в самом низу спектра, возникающие в самой электросети или из-за внешних полей. С помощью De-hum можно убирать однообразные звуки с узким диапазоном. С фоновым шумом справится Spectral De-noise. Нужно выделить промежуток в записи, когда герои молчат и посторонних звуков нет, нажать кнопку Learn, чтобы в алгоритме появился образец шума, и применить подавление этого шума ко всей дорожке.

Затем можно воспользоваться специальными плагинами. Например, De-rustle уберет грубые внешние шумы, шелест одежды. Breath Control сделает вдохи и выдохи между словами менее явными. De-ess предназначен для сглаживания шипящих и свистящих звуков. Dialogue Contour для работы с интонациями. И так далее.

Когда восстановление закончено, следует подобрать оптимальное соотношение амплитуды волны, то есть громкости звука, для разных частот голоса. Это сделает эквалайзер. Повышая громкость одних частот и понижая громкость других, можно придать словам четкость, сделать голос более естественным. Эквалайзер также подходит для подавления нижних частот, не несущих полезной информации.
Реплика в iZotope RX без обработки и после. Визуально остались недочеты (наверху), однако они никак не проявляют себя в звуке и не повлияют на качество выпуска
Следует обратить внимание, сколько каналов включает дорожка записи, над которой произведены обработки. Стереофоническая аудиодорожка отличается от монофонической тем, что несет в себе не один, а два независимых друг от друга канала — для левой и правой частей воспроизводящей системы (например, наушников или колонок). В DAW каналы обычно отображаются в виде параллельных осциллограмм в одной дорожке. После изменений, особенно после обычного эквалайзера, стерео может исказиться в худшую сторону из-за сдвигов фазы колебаний обоих каналов. Это значит, что энергия колебания молекул среды, то есть энергия звука, может взаимно подавляться левым и правым каналами. Такая ошибка снижает качество записи и иногда явно появляется при проигрывании стереофонического звука в монорежиме (сложение стереоканалов в один общий). Поэтому после обработки стереозвука необходимо исправить сдвиги по фазе. В RX есть плагин Phase с режимом автоматического исправления.
В результате сложения правого и левого каналов первой дорожки получается хороший и четкий монозвук на второй дорожке. При сложении каналов третьей дорожки можно заметить, что они подавляют друг друга и находятся практически в противофазе
Когда звучание записи станет подходящим, нужно выровнять громкость с помощью Leveler — так все фразы станут не слишком громкими и не слишком тихими. В конце — нормализация на –2 дБ. Подобные действия необходимо совершить со всеми голосами по отдельности.
Сведение

Следует сделать копию монтажного проекта и загрузить обработанные аудио на место нарезанных, чтобы настроить саунд-дизайн. Звуки разводятся по частотам и иногда по панораме, чтобы они не смешивались с голосом. Панорамированием называют создание ощущения пространства: в стерео можно отдельно настроить правый и левый каналы. Возможно также добавить дорожки, чтобы дописать музыку и эффекты самостоятельно. Громкость музыки на фоне голоса лучше ставить ниже 28 дБ. В конце весь проект со всеми дорожками выгружается снова в несжатом виде.
Те же нарезанные реплики, что и после первичного монтажа, но уже обработанные и сведенные в виде отдельных треков
Что было после первичного монтажа
Финальная стадия

Сейчас аудиофайл на 35 мин весит более гигабайта, потому что работа была над 24-битным звуком в 48 кГц. Это чересчур подробный и тяжелый файл, и загрузить его на стриминги не получится. Spotify и Apple Music, например, передают 16-битный звук с частотой дискретизации 44,1 кГц и менее. Значит, нужно сжать трек так, чтобы он не потерял в качестве и не возникло ошибок.

Выпуск будет соответствовать стандартам детализации, громкости и не занимать много места, если в RX к нему применить Loudness Control (контроль громкости), дизеринг (технический шум) на 16 бит и ресемплинг (передискретизация) на 44,1 кГц. После этих шагов экспортировать файл из программы можно в формате mp3, 16 бит и 44,1 кГц. Аудио звучит так же, но занимает всего 100 Мбайт. Осталось добавить метаданные, которые рассмотрены в предыдущей части материала. Теперь можно выгрузить выпуск для прослушивания в интернет!
Спектрограмма готового выпуска. Яркие вертикальные вставки до низа спектра — это места с саунд-дизайном. В конце намеренно добавлен незаметный технический шум, отмеченный голубым фоном в спектре, — дизеринг. Он нужен, чтобы запись не исказилась при сжатии
В подкасте «Молодость простит» использовались также советы нью-йоркского продюсера Ника Месситта, опубликованные в гайде от iZotope для создания подкастов. Что получилось в итоге, можно послушать в выпуске с Аленой Лапшиной, редактором московского отдела издания «Щука».
Вам понравилась статья?
Что почитать еще?