Российский клуб гитаристов

Авалон
Школа Гитаристы Инструменты/Оборудование Звукозапись Магазин

 

MP3 "Король сетевого звука"

Александр Хорев

Помните те времена, когда слово CD произносилось с благоговейным трепетом, а обладатели проигрывателей компакт дисков считались самыми респектабельными членами социального общества? Своим появлением компактные диски произвели подлинную революцию в области звукозаписи. Через десять лет в мире аудио произошла еще одна революция. В политике такие революции называются “бархатные”. Проходят они тихо без “шума и пыли”, но последствия от них зачастую в корне меняют весь общий порядок вещей. Нечто подобное произошло в мультимедийном мире с появление на свет формата передачи аудио данных, под скромным названием MP3.

Немного истории

С того самого момента, как Интернет помимо текстов научился передавать графику и изображения, неугомонные энтузиасты стали пытаться его озвучить. В принципе компьютеру нет никакой разницы, что передавать в качестве комбинации цифр, — звук, текст, фотографии, но проблема заключалась в том, что цифровой звук в формате CD (WAV) слишком громоздкий для Интернета. На какое-то время единственной приемлемой технологией передачи музыкальной идеи на расстояние стала технология MIDI.

Файлы MIDI, попав в компьютер, начинали дирижировать синтезатором звуковой карты. Если звуковая карта имела прилично звучащий набор General MIDI, то на выходе мог получиться весьма неплохой результат. Малый объем MIDI-файлов являлся основным и скорее всего единственным достоинством этого метода. Вся музыка в Интернете была закована в оковы MIDI, и, разумеется, не могло быть и речи о передаче звуков какого-либо другого происхождения. Для того чтобы передать звук цифрового формата, его нужно было “ужать” до приемлемых размеров. Компромиссным вариантом решения этой проблемы явился первый сетевой формат передачи аудиоданных Real Audio (RA), разработанный компанией RealNetworks.

Здесь я вынужден сделать небольшое отступление. Давайте немного поговорим о сетевых форматах. Принцип передачи данных (в том числе и музыки) по сети заключается в том, что информация делится на не зависящие друг от друга пакеты (фреймы), которые, в свою очередь, и отправляются по нитям “всемирной паутины” к своему адресату. Компьютер получателя при помощи служебной информации, содержащейся в этих пакетах, собирает их в исходной последовательности. Передача данных занимает определенное время, а такой подход позволяет не дожидаться, когда скачается весь файл, и музыка начинает играть сразу же по мере поступления первых фрагментов, а следующие подгружаются в фоновом режиме. Таким образом, музыка поступает в компьютер в виде непрерывного потока. Принципы организации этого потока определяются сетевым протоколом и являются одинаковыми независимо от формата передаваемой информации. Скорость соединения является “бутылочным горлышком” с определенной зависимостью: чем шире поток, тем больше времени требуется для его прохождения. Ширина потока, по научному — битрейт (bitrate), измеряется в кбит/с, то есть число килобит в секунду. Теперь, когда мы получили представление о том, как организована передача музыки через Интернет, вернемся к “нашим барабанам”.

Несмотря на то, что качество самого звука было, мягко говоря, неважным, поскольку формат RA имел очень низкий битрейт — максимум 16 кбит/с и не мог передавать стереосигнал, это был прорыв. В сети впервые зазвучала реальная музыка, а не ее имитация. Интернет стал быстро наполняться огромным количеством музыкальных сайтов, на которых можно было найти и скачать “тонны” музыки в этом формате. Real Audio стал монополистом. Естественно, такое положение дел не давало покоя конкурентам, да и среди пользователей начался ропот. Действительно, сколько можно слушать любимые произведения с качеством настенного репродуктора? Но для того, чтобы изменить ситуацию, нужен был принципиально новый подход. И он был найден специалистами небольшой немецкой фирмы Fraunhofer IIS. Ими была разработана сложнейшая многоступенчатая система сжатия аудиоданных. Сжатый с ее помощью звук превосходил по качеству RA на несколько порядков. Однако внедрение нового, пусть и революционного формата, было не под силу небольшой фирме, и новый формат чуть было не ушел “на полку”. И лишь когда на уникальную технологию обратила внимание европейская корпорация Thomson, детище Fraunhofer IIS увидело свет. Именно при помощи гиганта Thomson новый формат был утвержден ISO (европейской комиссией по стандартам), получив название — MPEG 1 layer-3. Сделаем еще одно отступление, чтобы рассказать, почему новый формат получил такое название.

В далеком 1988 г. с целью создания единого формата сжатия видеоданных был сформирован комитет Moving Pictures Expert Group (сокращенно MPEG). К 1993 г. работа была закончена, и миру явился один из самых массовых форматов видеосжатия стандартизированный ISO как MPEG 1. Несмотря на то, что вышеупомянутый комитет продолжал работы по выпуску более совершенных технологий, MPEG 1 оказался долгожителем и только сейчас начинает сдавать свои позиции более новым форматам. Любой видеоформат, если только он не предназначен для кодирования немого кино, должен поддерживать звук. За время своего существования MPEG 1 сменил несколько поддерживаемых им звуковых форматов. Разработанный компанией Fraunhofer IIS звуковой формат, как самый передовой на тот момент, сразу же нашел применение в самой распространенной системе видеосжатия и, поскольку был уже третьим по счету, получил название Layer-3. Таким образом, полное название формата получилось MPEG 1 layer-3 или сокращенно MP3. Последующие форматы семейства MPEG получили распространение только в профессиональной среде, не считая самого нового MPEG 4, который постепенно вытесняет все остальные форматы видеосжатия из мультимедийного пространства. Однако MP3 в этой технологии места уже не нашлось, его заменили более совершенные AAC и VQF. Теперь, когда мы разобрались с родословной, давайте поговорим о том, как работает MP3.

Психоакустическая модель

Формат MP3 изначально разрабатывался для передачи аудиоданных через Интернет с высокой скоростью и является потоковым. Как мы уже говорили выше, качество и скорость передачи звука напрямую зависят от ширины потока (битрейта). Кодирование сигнала можно проводить в несколько этапов. На каждом этапе снижается битрейт и за счет уменьшения ширины потока повышается скорость передачи. Разумеется, снижение битрейта сопровождается потерей качества, но MP3 был тем и уникален, что в этой технологии снижение битрейта не приводит к пропорциональному снижению качества.

На первом уровне кодирования используются только математические алгоритмы сжатия (подобно программам-архиваторам). Такие алгоритмы позволяют кодировать сигнал с коэффициентом 4:1 и при битрейте 320 кбит/с сохраняют исходное качество. Четырехкратное сжатие — это граница, после которой происходит вмешательство в структуру полезной информации. Но битрейт 320 кбит/с явно не удовлетворяет требованиям скоростной передачи. Если пойти привычным путем и дальше снижать объем за счет снижения количества битов, то это приведет к пропорциональному снижению качества, и когда поток станет приемлемым для передачи через Интернет, от какого-либо качества не останется и следа. Эта зависимость и стала тупиком для многих разработчиков, бившихся над этой проблемой. Но специалисты Fraunhofer IIS нашли весьма оригинальный выход. Они решили: пусть дальнейшая потеря бит неизбежна, но давайте попробуем из потока информации выделить те части, потеря которых будет наименее заметна. Для решения этой задачи была разработана подробная психоакустическая модель восприятия звука человеческим слухом. На основе этой модели были выделены участки спектра звука, изменения в которых практически незаметны.

Как известно, минимальный порог слышимости человеческого слуха нелинеен. Кривая порога чувствительности была впервые описана в законе Флетчера и Мэнсена (не путать с Мерлином Менсоном) в виде кривой, максимум чувствительности в которой приходится на полосу от 2 до 5 кГц. Поскольку сжатию подвергается код, полученный при простом описании синусоиды звука, он содержит и описание той части спектра, которая лежит за пределами минимального порога слышимости. Возникает резонный вопрос: зачем кодировать звуки, которые все равно не будут услышаны? Таким образом, отказавшись от той части кода, которая описывает неслышимые звуки, мы получаем уменьшение объема при субъективном сохранении качества.

Следующая особенность человеческого слуха, взятая на вооружение разработчиками MP3, заключается в эффекте маскирования. Что это такое? Представьте себе, что вы слушаете магнитофонную запись на домашнем музыкальном центре с громкостью чуть больше средней. В паузах между песнями вы слышите отчетливое шипение, которое пропадает, как только начинает играть музыка. Это и есть эффект маскирования, при котором громкие звуки маскируют слабые, находящиеся в диапазоне минимальной слышимости. Также разработчики обратили внимание на так называемый “эффект оглушения”. Это еще одна особенность человеческого слуха. Заключается она в том, что если происходит резкое уменьшение громкости, то ухо какое-то мгновение не воспринимает последующих звуков. Отказ от описания этих звуков также приводит к уменьшению объема кода.

Теперь давайте обратим внимание на то, что мы имеем дело со стереосигналом. Описание каждого канала по отдельности было бы непозволительной роскошью. Можно, конечно, просто отказаться от стереозвучания, получив код вдвое меньшего объема. Но есть и альтернативный вариант, который также с успехом применяется в технологии MP3. Как известно, человеческий слух не определяет пространственную картину ниже определенной частоты. Эта особенность человеческого слуха легла в основу широко распространенного приема, получившего название Joint-stereo. Заключается прием в том, что низкие частоты кодируются как монофонический сигнал с добавлением ряда служебной информации, с помощью которой затем восстанавливается приблизительная панорамная картина. После такого “соковыжимания” снова следуют математические процедуры. На окончательной стадии кодирования MP3 использует классический алгоритм Хаффмана. Этот математический алгоритм, как правило, позволяет сжать аудиоданные еще на 20% и является превосходным дополнением к персептивным методам сжатия.

Весь вышеперечисленный ряд мер позволяет снизить битрейт до 128 кбит/с при сохранении качества, близкого к хорошей магнитофонной записи. Дальнейшее снижение битрейта неминуемо приводит к заметному ухудшению качества. Но если по каким-то причинам есть смысл принести качество в жертву объему, то технология позволяет пойти дальше. Еще одно распространенное мнение: порог чувствительности человеческого слуха к высоким частотам находится где-то на уровне 16 кГц. Некоторые кодеки изначально обрезают все присутствующие выше этой величины звуки. Разумеется, рассуждения о частоте порога слуха всегда будут носить спорный характер, поскольку разные люди воспринимают разный диапазон частот. Например, доподлинно известно, что молодые люди слышат более высокие частоты, а затем со временем чувствительность слуха снижается. Однако такой подход может вполне пригодиться в тех случаях, когда необходимо найти компромиссный вариант между качеством и объемом, или при низком качестве исходного материала. Таким образом, в результате такой вот кодировки мы слышим не сжатый звук, а слегка урезанный.

Битрейты и качество

Формат MP3 очень гибкий. Пользователь может сам выбрать, в зависимости от поставленной задачи, подходящий битрейт в диапазоне 320—64 кбит/с. Как уже было сказано выше, битрейт 320 кбит/с полностью отвечает качеству оригинала. Многие меломаны уже давно оценили этот факт и собирают собственные музыкальные коллекции на CD-R или жестком диске именно с этим битрейтом. Насколько оправданно использование такого высокого битрейта — вопрос открытый. Скорее всего, гурманы-меломаны просто перестраховываются и пишут с запасом, поскольку отличить на слух 320 кбит/с от 256 кбит/с (коэффициент сжатия 6:1) под силу только человеку с очень хорошим слухом и то на аппаратуре действительно высокого класса. Интересен тот факт, что для оценки субъективного порога потери качества разработчики прибегли к помощи команды специалистов в области звука. Прослушав ряд тестовых композиций, “дегустаторы” пришли к единому мнению — качество звука при битрейте 256 кбит/с субъективно (поскольку при таком уровне сжатия уже действуют алгоритмы удаления “ненужной” информации) соответствует качеству оригинала. Однако самое большое распространение (как альтернатива CD) получили диски с битрейтами 190—162 кбит/с. Качество воспроизводимого звука при использовании аппаратуры бытового уровня практически не уступает CD, но на аппаратуре профессионального уровня, по моему мнению, вмешательство в динамику звука уже слишком очевидно. В Интернете самое большое распространение получил битрейт 128 кбит/с (коэффициент сжатия 12:1), качество звучания при таком потоке вполне сопоставимо с хорошей кассетой. Плюс к этому, при таком битрейте очень легко определить итоговый размер записи, поскольку одна минута звучания занимает примерно 1 Mбайт. Именно этот битрейт и стал со временем альтернативой RA. Более низкий битрейт (64 кбит/с) вполне подойдет в тех случаях, когда исходное качество не является идеальным и кодирование с более высоким битрейтом было бы неоправданным.

Кодеки

Слово “кодек” происходит от английского слова codec (coder/decoder). Кодек — это программа, описывающая алгоритм сжатия аудиоданных. Ответить на вопрос, какой кодек хороший, а какой нет, вряд ли можно однозначно, поскольку работа кодека строится на той или иной психоакустической модели. Разработкой этих моделей занимается изобретатель метода компания Fraunhofer IIS. Для каждого битрейта существуют свои семейства кодеков, превосходящие в своем классе другие. Это происходит потому, что они разработаны на основе адаптированных к определенному битрейту моделей. Высокие битрейты, например, не требуют серьезного вмешательства в код PCM (математическое описание синусоиды), в то время как кодеки, работающие с низкими битрейтами, могут полностью пренебрегать частотами выше 16 кГц. Здесь мы заведомо не будем касаться описания характеристик тех или иных кодеков, поскольку цель этой статьи — рассказать об основных принципах работы формата MP3. Скажу лишь, что подобной информации предостаточно на страницах компьютерных журналов и в Интернет. Давайте лучше поговорим о том, к чему же привело появление MP3 в аудиомире.

Бархатная революция, или что тут началось...

Созданный специально для Интернета формат, в силу своей гибкости, со временем захватил не только предназначавшееся ему пространство, но и произвел революцию практически во всех других сферах деятельности, связанных с хранением аудиоинформации. Как только народ понял, что на обычном компакт-диске можно сохранить в шесть-двенадцать раз больше музыки, позиции CD сильно пошатнулись. На возможности нового формата мгновенно обратили внимание “пираты”. В течение буквально нескольких месяцев сформировался рынок дисков формата MP3, записанных по принципу — все альбомы такой-то группы на одном диске. Представляю, в каких выражениях прокомментировали бы подобное явление, например, музыканты группы “Metallica”, увидев диск, на котором собраны все альбомы, выпущенные за годы существования коллектива, ценою в 120 рублей, что составляет менее 4 долларов! (Интересно, “наши” уже развернулись на Брайтоне?) Но не будем обсуждать этическую и юридическую стороны вопроса, в конце концов, формат разрабатывался не для пиратов. Так или иначе, MP3 шагает по планете. Практически все крупнейшие производители аудиооборудования полным ходом осваивают производство проигрывателей дисков этого формата. Развитие этой технологии привело к перевороту на рынке пишущих CD-приводов, которые превратились из диковинного и довольно недешевого чуда во вполне привычную вещь. Дальше — больше. Производители аудиотехники не могли не отреагировать на столь бурное развитие технологий CD-R и CD-RW. На сегодняшний день топ-модели так называемых “лазерок” (включая автомобильные!) вынуждены поддерживать не только CD, DVD, MP3, но также CD-R и CD-RW. Потоковая суть формата позволила ему вместе с Интернетом проникнуть в мобильные системы, и сегодня уже никого не удивишь сотовым телефоном, проигрывающим музыку формата MP3. Но это сегодня. А что это чудо может принести нам завтра?

Всем давно известно, что диапазон FM-частот не резиновый, и сегодня плотность размещения радиостанций в этом диапазоне близка к максимальной. А что, если и в радиовещании применить потоковый принцип, наподобие Интернет-радио? Догадались? В таком случае по радиоканалу будут передаваться не непрерывная волна в привычном нам понимании, а пакеты информации подобно тем, о которых я рассказывал в начале. Прикол заключается в том, что в таком случае по одному каналу можно передавать пакеты, принадлежащие разным потокам одновременно, тем самым пропускная способность канала увеличивается в несколько раз. По схожему принципу сейчас работают мобильные телефоны, что позволяет многократно увеличить пропускную способность частотного диапазона в целом. На практике это означает, что слушатель сможет не просто выбирать радиостанцию, а скачивать на жесткий диск радиоприемника (!) целый пакет программ и уже затем выбирать и слушать то, что ему по душе, всегда имея возможность перемотать назад или сохранять понравившиеся моменты. Справедливости ради скажу, что, возможно, форматом такого радиовещания будет не MP3, а какой-нибудь его потомок, адаптированный под нужды радио, или совсем другой формат. Но нельзя не признать тот факт, что толчком к развитию подобных технологий послужило появление MP3.

Ближайшие конкуренты

Война форматов, которая так счастливо (судя по рекламе) закончилась для фирмы Samsung, для всех остальных, похоже, только начинается. Разумеется, формат MP3 как один из первых не лишен недостатков, да и с момента его появления конкуренты не сидели сложа руки. Соблазн отобрать пальму первенства очень велик, и многие разработчики предпринимают неустанные попытки подвинуть “короля сетевого звука” с насиженного места. Далее речь пойдет о ближайших конкурентах MP3, то есть только о тех форматах, которые работают на схожих принципах и могли бы стать альтернативой, поскольку описание всех существующих на сегодня форматов аудиосжатия потребует отдельной статьи, если не книги.

Формат аудиосжатия MPEG-2 AAC (Advanced Audio Coding) разрабатывался все той же Fraunhofer при участии еще целого ряда заинтересованных сторон (AT&T, Sony, NEC и Dolby) как преемник MP3. Алгоритмы сжатия также построены на принципе психоакустического моделирования, но содержат большое количество усовершенствований. В результате некоторой доработки алгоритмов заметно улучшилось качество выходного сигнала. Так, например, качество звучания музыки при потоке 96 кбит/с практически полностью совпадает с 128 кбит/с у MPEG-1 layer 3, а при битрейте 128 кбит/с формат AAC начисто обставляет по качеству своего предка. Однако, несмотря на все преимущества, этому формату вряд ли суждено стать наследником. Родители-соучредители этого безусловно перспективного проекта по завершении работ, по-видимому, не договорившись, растащили свое детище на части, разобрав принадлежавшие им исходные коды, и на базе разработанных стандартов создали свои совершенно не совместимые друг с другом форматы. В результате такой “здоровой” конкуренции на свет появилась мешанина форматов под названием “семейство форматов AAC”, а именно: Homeboy AAC, AT&T a2b AAC, Liquifier PRO AAC и Astrid/Quartex AAC. Как я уже сказал выше — все они несовместимы, имеют собственные кодеры и различаются по качеству.

Соучастие японцев в деле под названием AAC было не первым их появлением на сцене. Старейшим конкурентом MP3 считается формат TwinVQ (VQF), разработанный одним из подразделений корпорации NTT (Nippon Telegraph and Telephone Corp.). Этот формат очень схож со своим основным конкурентом. Он так же является потоковым и так же работает по принципу психоакустического моделирования, но в его основе лежит совершенно иная модель. Не удивительно, что мнения японцев и европейцев в вопросе о том, какая часть звукового спектра нужная, а какая нет, очень сильно разнятся. Во что вылилось это расхождение на практике? По качеству звучания TwinVQ превосходит MP3 на низких частотах, но немного проигрывает на верхах. В композициях с большим динамическим диапазоном VQF вносит гораздо меньше искажений в форму сигнала. В целом качество звука в этом формате сопоставимо с AAC, при этом размер файла на 30—35 % меньше, чем у MP3, однако платой за это будет большая ресурсоемкость и более долгий процесс кодирования.

Лицензией на право распространения этого формата владеет японский гигант звуковой индустрии фирма Yamaha. Поддержка и раскрутка формата производится со свойственной Yamaha добросовестностью. Разрабатываемое компанией программное обеспечение для работы с этим форматом выгодно отличается от других, как по качеству кодирования, так и по удобству пользования. В Интернете уже имеется немало музыки в этом формате, но ее количество едва ли сопоставимо с количеством музыки в формате MP3. При помощи этой новой технологии можно примерно на треть уменьшить объем своей компьютерной фонотеки (если, конечно, не лень возиться), так как новый формат идеально подходит для архивирования аудиоданных.

Помните фильм “Армагеддон”? На планету надвигается смертельная опасность в виде гигантского астероида, от которого нельзя убежать и нельзя укрыться. Точно так же и в мире компьютеров нельзя избежать встречи с вездесущим гигантом по имени Microsoft. Пленив однажды всю компьютеризированную часть населения, компания Microsoft не собиралась разжимать свою железную лапу. И скажите, пожалуйста, как можно было пройти мимо такой наглости, которую учинил в ее “огороде” MP3, оттяпав себе порядочный кусок мультимедийного пространства? В борьбе с “некоронованным королем” Microsoft прибегла к давно испытанной тактике: зачем изобретать, когда хватает денег купить (например, Microsoft Internet Explorer и даже технология DirectX — это купленные, доработанные и разрекламированные чужие идеи). Ну, да не будем судачить, а вернемся немного назад. В 1998 г. специалисты, работавшие над проектом TwinVQ, с целью доводки формата пригласили к сотрудничеству компанию Voxware. Общими усилиями формат был доработан и приобрел законченный вид. Однако специалисты Voxware решили не останавливаться на достигнутом. Компания приобрела права на использование элементов технологии TwinVQ и разработала собственный формат. Новорожденный получил скромное название Voxware Audio CODEC v4.0. Новый кодек позволял достигать качества MP3 128 кбит/с при битрейте всего 64 кбит/с! Но больше всего он подходил для сжатия голосовой информации, на что незамедлительно обратили внимание производители оборудования для телефонных сетей. Сама Voxware к тому моменту охладела к идее, и все бы этим и закончилось, если бы в это время Microsoft не сбивалась с ног в поисках эффективного оружия для борьбы с зарвавшимися конкурентами. Доработанный Voxware Audio CODEC v4.0 явился миру как новый и самый прогрессивный формат сжатия аудиоданных под скромным названием WMA (Windows Media Audio).

Действительно, WMA позволяет кодировать звук аналогичного с MP3 качества при вдвое меньшем объеме. Несмотря на это, не знаю, почему, но хочется надеяться, что новый формат Microsoft “разработала” в первую очередь для собственных нужд, так как до сих пор пользовалась огромными, по нынешним временам, WAV-файлами. Но сдается мне, что эта неугомонная корпорация все-таки попытается заставить нас всех еще раз приобрести “Белый альбом”—“Битлз”.

Журнал IN/OUT #38