MP3

MP3 (більш точно, англ. MPEG-1/2/2.5 Layer 3 ; Але не MPEG-3) - це кодек третього рівня, розроблений командою MPEG, ліцензований формат файлу для зберігання аудіоінформації.

MP3 є одним з найбільш поширених і популярних форматів цифрового кодування звукової інформації з втратами. Він широко використовується в файлообмінних мережах для оціночної передачі музичних творів. Формат може програватися практично у всіх популярних операційних системах, на більшості портативних аудіоплеєрів, а також підтримується всіма сучасними моделями музичних центрів і DVD-плеєрів.

У форматі MP3 використовується алгоритм стиснення з втратами, розроблений для істотного зменшення розміру даних, необхідних для відтворення запису і забезпечення якості відтворення звуку дуже близького до оригінального (на думку більшості слухачів), хоча аудіофіли говорять про відчутне розходження. При створенні MP3 із середнім бітрейтом 128 кбіт / с в результаті виходить файл, розмір якого приблизно рівний 1/11 від оригінального файлу з CD-Audio. Саме по собі нестиснене аудіо формату CD-Audio має бітрейт 1411,2 кбіт / с. MP3-файли можуть створюватися з високим або низьким бітрейтом, який впливає на якість файлу-результату. Принцип стиснення полягає в зниженні точності деяких частин звукового потоку, що практично невиразно для слуху більшості людей. Даний метод називають кодуванням сприйняття. [1] При цьому на першому етапі будується діаграма звуку у вигляді послідовності коротких проміжків часу, потім на ній видаляється інформація, не помітна людським вухом, а залишилася інформація зберігається в компактному вигляді. Даний підхід схожий на метод стиснення, використовуваний при стисненні картинок в формат JPEG. [ уточнити ]


1. Історія

MP3 розроблений робочою групою інституту Фраунгофера ( ньому. Fraunhofer-Institut fr Integrierte Schaltungen ) Під керівництвом Карлхайнца Бранденбурга і університету Ерланген-Нюрнберг у співпраці з AT & T Bell Labs і Thomson (Джонсон, штоллен, Деері та ін.)

Основою розробки MP3 послужив експериментальний кодек ASPEC (Adaptive Spectral Perceptual Entropy Coding). Першим кодувальником у формат MP3 стала програма L3Enc, випущена влітку 1994. Через один рік з'явився перший програмний MP3-плеєр - Winplay3.

При розробці алгоритму тести проводилися на цілком конкретних популярних композиціях. Основний стала пісня Сюзанни Веги " Tom's Diner ". Звідси виник жарт, що" MP3 був створений виключно заради комфортного прослуховування улюбленої пісні Бранденбурга ", а Вегу стали називати" мамою MP3 ".


2. Опис формату

Як і формат JPEG, MP3 використовує спектральні відсікання, згідно психоакустичної моделі. Звуковий сигнал розбивається на рівні по тривалості відрізки, кожен з яких після обробки упаковується в свій фрейм (кадр). Розкладання в спектр вимагає безперервності вхідного сигналу, тому для розрахунків використовується також Попереднє і наступний фрейм. У звуковому сигналі є гармоніки з меншою амплітудою і гармоніки, що лежать поблизу більш інтенсивних - такі гармоніки відсікаються, так як середньостатистичне людське вухо не завжди зможе визначити присутність або відсутність таких гармонік. Така особливість слуху називається ефектом маскування. Також можлива заміна двох і більше довколишніх піків одним усередненим (що як правило і призводить до спотворення звуку). Критерій відсікання визначається вимогою до вихідного потоку. Оскільки весь спектр актуальний, високочастотні гармоніки не відсікаються, як в JPEG, а тільки вибірково видаляються, щоб зменшити потік інформації за рахунок розрідження спектру. Після спектральної "зачистки" застосовуються математичні методи стиснення та упаковка у фрейми. Кожен фрейм може мати кілька контейнерів, що дозволяє зберігати інформацію про декілька потоках (лівий і правий канал або центральний канал і різниця каналів). Ступінь стиснення можна варіювати, в тому числі в межах одного фрейму. Інтервал можливих значень бітрейта складає 8-320 кбіт / c.


3. MP3 і якість Audio-CD"

У минулому була поширена думка, що запис з бітрейтом 128 кбіт / c підходить для музичних творів, призначених для прослуховування більшістю людей, забезпечуючи якість звучання Audio-CD. В дійсності все набагато складніше. По-перше, якість отриманого MP3 залежить не тільки від бітрейту, але і від кодуючої програми ( кодека) ​​(стандарт не встановлює алгоритм кодування, тільки описує спосіб представлення). По-друге, крім превалюючого режиму CBR (Constant Bitrate - постійний бітрейт) (в якому, простіше кажучи, кожна секунда аудіо кодується однаковим числом біт) існують режими ABR (Average Bitrate - усереднений бітрейт) і VBR (Variable Bitrate - змінний бітрейт). По-третє, межа 128 кбіт / c є умовною, оскільки вона була "винайдена" в епоху становлення формату, коли якість відтворення звукових плат і комп'ютерних колонок як правило було нижче, ніж в даний час.

На даний момент найбільш часто зустрічаються MP3 файли з бітрейтом 192 кбіт / c, що може побічно говорити про те, що більшість вважає цей бітрейт достатнім. Реально сприймане "якість" залежить від вихідного аудіофайлу, слухача і його аудіосистеми. Деякі меломани віддають перевагу стискати музику з "максимальною якістю" - 320 кбіт / c, або навіть переходити на кодеки без втрат, наприклад FLAC. Також серед меломанів існує думка, що деякі семпли (фрагменти аудіозапису) не піддаються якісному стисненню з втратами: на всіх можливих бітрейтах не складає особливих труднощів відрізнити стиснене аудіо від оригіналу. Однак є й серйозні заперечення [2] :

Цілком очевидно, що (візьмемо із запасом) бітрейта 256 kbps в переважній більшості випадків має бути більш ніж достатньо для комфортного сприйняття музики з CDA-джерела (44 kHz/16 bit / stereo). Це очевидно не тільки з мого доморослого тесту, але й з аналізу професійних сліпих тестів (наприклад, німецького видання "c't", червень 2000 р.): навіть у них експертам не завжди вдається "вгадати" стиснутий до 256 kbps звук, причому тестування проходить у спеціально підготовлених приміщеннях і на дорогому обладнанні, а експерт знає, що треба "слухати", щоб відчути стиск.


4. Режими кодування і опції

Існує три версії MP3 формату для різних потреб: MPEG-1, MPEG-2 і MPEG-2.5. Відрізняються вони можливими діапазонами бітрейту і частоти дискретизації:

  • 32-320 кбіт / c при частотах дискретизації 32000 Гц, 44100 Гц і 48000 Гц для MPEG-1 Layer 3;
  • 16-160 кбіт / c при частотах дискретизації 16000 Гц, 22050 Гц і 24000 Гц для MPEG-2 Layer 3;
  • 8-160 кбіт / c при частотах дискретизації 8000 Гц і 11025 Гц для MPEG-2.5 Layer 3.

4.1. Режими управління кодуванням звукових каналів

Так як формат MP3 підтримує двоканальне кодування (стерео), існує 4 режими:

  • Стерео - двоканальне кодування, при якому канали вихідного стереосигнала кодуються незалежно один від одного, але розподіл біт між каналами в загальному бітрейті може варіюватися залежно від складності сигналу в кожному каналі.
  • Моно - одноканальне кодування. Якщо закодувати двохканальний матеріал в цей спосіб, відмінності між каналами будуть повністю стерті, оскільки два канали змішуються в один, він кодується і він же відтворюється в обох каналах стереосистеми. Єдиним плюсом даного режиму може бути тільки вихідна якість в порівнянні з режимом Стерео при однаковому бітрейті, оскільки на один канал доводиться удвічі більша кількість біт, ніж в режимі Стерео.
  • Двоканальне стерео ( англ. Dual Channel ) - Два незалежні канали, наприклад звуковий супровід різними мовами. Бітрейт ділиться на два канали. Наприклад, якщо заданий бітрейт 192 кбіт / c, то для кожного каналу він буде рівний тільки 96 кбіт / c.
  • Об'єднане стерео ( англ. Joint Stereo , M / S Stereo) - на думку деяких , Найоптимальніший спосіб двоканального кодування. Наприклад, в одному з режимів Об'єднане стерео лівий і правий канали перетворяться в їх суму (L + R) і різниця (L-R). Для більшості звукових файлів насиченість каналу з різницею (L-R) виходить набагато менше каналу з сумою (L + R). Також тут свою роль відіграє сприйняття звуку людиною, для якої відмінності в напрямі звуку набагато менш примітні. Тому об'єднане стерео дозволяє або заощадити на бітрейті каналу різниці (L-R), або поліпшити якість на тому ж бітрейті, оскільки на канал суми (L + R) відводиться більша частина бітрейта. Існує думка, що даний режим не підходить для звукового стереоматеріала, в якому в двох каналах відтворюється суб'єктивно абсолютно різний матеріал, оскільки він стирає відмінності між каналами. Але сучасні кодеки використовують різні схеми в різних фреймах (включаючи чисте стерео) в залежності від вихідного сигналу.

4.2. CBR

CBR розшифровується як Constant Bit Rate, тобто постійний бітрейт, який задається користувачем і не змінюється при кодуванні твору. Таким чином, кожній секунді твору відповідає однакова кількість закодованих біт даних (навіть при кодуванні тиші). CBR може бути корисний для потоків мультимедіа даних по обмеженому каналу; в такому випадку кодування використовує всі можливості каналу даних. Для зберігання даний режим кодування не є оптимальним, так як він не може виділити достатньо місця для складних відрізків вихідного твору, при цьому марно витрачаючи місце на простих відрізках. Підвищені бітрейти (вище 256 кбіт / c) можуть вирішити дану проблему, виділивши більше місця для даних, але зате і пропорційно збільшуючи розмір файлу.


4.3. VBR

VBR розшифровується як Variable Bit Rate, тобто змінюється бітрейт або змінний бітрейт, який динамічно змінюється програмою-кодером при кодуванні в залежності від насиченості кодованого аудіоматеріалу і встановленої користувачем якості кодування (наприклад, тиша закодується з мінімальним бітрейтом). Цей метод MP3-кодування є найпрогресивнішим і досі розвивається і поліпшується, оскільки аудіоматеріал різної насиченості може бути закодований з певною якістю, яка звичайно вище, ніж при установці середнього значення в методі CBR. Плюс до того, розмір файлу зменшується за рахунок фрагментів, що не вимагають високого бітрейта. Мінусом даного методу кодування є складність передбачення розміру вихідного файлу. Але цей недолік VBR-кодування незначний у порівнянні з його достоїнствами. Також мінусом є те, що VBR вважає "незначною" звуковою інформацією більш тихі фрагменти, таким чином виходить, що якщо слухати дуже голосно, то ці фрагменти будуть неякісними, в той час як CBR робить з однаковим бітрейтом і тихі, і голосні фрагменти.

Формат VBR постійно поліпшується, завдяки постійному вдосконаленню математичної моделі кодеків, зокрема, після виходу оновленої версії вільного MP3-кодека LAME (версія 3.99.3), кодування із змінним бітрейтом, за заявою самих розробників, якісно краще CBR і тим більше ABR.


4.4. ABR

ABR розшифровується як Average Bit Rate, тобто усереднений бітрейт, який є гібридом VBR і CBR: бітрейт в кбіт / c задається користувачем, а програма варіює його, постійно підганяючи під заданий бітрейт. Таким чином, кодек буде з обережністю використовувати максимально і мінімально можливі значення бітрейта, оскільки ризикує не вписатися в заданий користувачем бітрейт. Це є явним мінусом даного методу, оскільки позначається на якості вихідного файлу, яке буде трохи краще, ніж при використанні CBR, але набагато гірше, ніж при використанні VBR. З іншого боку, цей метод дозволяє найбільш гнучко задавати бітрейт (може бути будь-яким числом між 8 і 320, проти виключно кратних 16 чисел методу CBR) і обчислювати розмір вихідного файлу.


4.5. Кодеки

Типи програм, необхідні для перетворення форматів файлів. Найбільш поширені кодеки MP3:

  • mp3PRO -codec (використовує частотне перетворення SBR).
  • LAME -codec
  • fraunhofer-codec

5. Структура файлу

Структура файлу

MP3-файл складається з декількох фрагментів (фреймів) MP3, які, в свою чергу, складаються з заголовка і блоку даних. Така послідовність фрагментів називається елементарним потоком. Фрагменти не є незалежними елементами ("резервуар байт"), і тому не можуть бути вилучені довільно. Блок даних MP3-файлу містить стислу аудіо інформацію у вигляді частот і амплітуд. На наведеній діаграмі показано, що заголовок MP3 складається з маркера, який служить для знаходження вірного MP3-фрагмента. За ним слідує біт, що показує, що використовується стандарт MPEG і два біти, дають використання layer 3; іншими словами, це визначає MPEG-1 Audio Layer 3 або MP3. Наступні значення можуть змінюватись в залежності від типу MP3-файлу. Стандарт ISO / IEC 11172-3 визначає діапазон значень для кожної секції заголовка, разом із загальною його специфікацією. Більшість MP3 файлів в даний момент містять ID3-метадані, які передують або слідують за MP3-фрагментом; вони також відображені на діаграмі.


5.1. Теги

Теги (від англ. tag - Ярлик, мітка, бирка) - мітки в межах MP3-файлу (на початку та / або наприкінці). У них може бути записана інформація про авторство, альбомі, рік випуску і інша інформація про трек. У більш пізніх версіях тегів можливо зберігання обкладинок альбомів та текстів пісень. Існують різні версії тегів (див.: ID3).

6. Недоліки

Технічні недоліки. Кількість каналів звуку обмежена двома, на відміну від AAC і Vorbis.

Юридичні обмеження. Патентом на MP3 володіє компанія Alcatel-Lucent, яка вимагає ліцензування деяких способів використання формату. Термін дії пов'язаних з MP3 патентів закінчується в 2007-2017 роках. Майже повний стандарт з'явився у відкритому доступі 6 грудня 1991. У США винаходи публічно розкриті більше року не можуть бути запатентовані. Однак для патентів, оформлених до 8 червня 1995 року, існувала можливість збільшити їх терміни дії. Відомі патенти, що стосуються розшифровки MP3, припинили дію в США до грудня 2012; за іншими даними, якщо враховувати тільки патенти, заявка на які була подана до грудня 1992 року, це може статися у вересні 2015 року. [3] [4]


Примітки

  1. Nikil Jayant, James Johnston, Robert Safranek. (October 1992). "Signal Compression Based on Models of Human Perception". Proceedings of the IEEE 81 (10): 1385-1422. DOI : 10.1109/5.241504 - dx.doi.org/10.1109/5.241504. Перевірено 2008-06-30.
  2. Фобоманія - www.computerra.ru/388570/ Журнал " Компьютерра ", 14 грудня 2008
  3. Cogliati, Josh Patent Status Of MPEG-1, H.261 and MPEG-2 - www.kuro5hin.org/story/2008/7/18/232618/312. Kuro5hin (20 липня 2008). This work failed to consider patent divisions and continuations.
  4. http://www.osnews.com/story/24954/US_Patent_Expiration_for_MP3_MPEG-2_H_264 - www.osnews.com/story/24954/US_Patent_Expiration_for_MP3_MPEG-2_H_264