MPEG-1 Audio Layer II

Не слід плутати з MPEG-2.

MPEG-1 Audio Layer II (скор. MP2, іноді називається Musicam) - один з трьох форматів (рівень 2) стиснення звуку з втратами, визначених у стандарті MPEG-1 [3]. Застосовується в цифровому радіомовлення DAB і застарілому стандарті Video CD, який в 90-і роки використовувався для розповсюдження фільмів на оптичних компакт-дисках і існував до широкого розповсюдження DVD.

Кодер MPEG-1 Audio Layer 2 розвинувся з аудіокодека MUSICAM ( англ. Masking pattern adapted Universal Subband Integrated Coding And Multiplexing - Універсальне смугове кодування і мультиплексування з адаптацією до шаблону маскування), розробленого CCETT, Philips і IRT в 1989 як частина досліджень EUREKA 147 європейських міжурядових розробок для систем цифрового радіомовлення для стаціонарних, портативних і мобільних приймальних пристроїв (заснований в 1987). Основні параметри MPEG-1 Audio були успадковані з MUSICAM, включаючи банк фільтрів, обробку в тимчасовій області, розмір аудіокадра і т. д. Однак, після додаткового удосконалення, алгоритм MUSICAM не був використаний у фінальній версії стандарту MPEG-1 Layer II. [4 ]


1. Основні параметри

  • MPEG-1 Audio Layer II визначений у стандарті ISO / IEC 11172-3 (MPEG-1 Частина 3)
    • Частота дискретизації: 32, 44.1 і 48 кГц
    • Бітрейти: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 і 384 кбіт / с.
  • Розширення формату було представлено в MPEG-2 Audio Layer II та визначено в стандарті ISO / IEC 13818-3 (MPEG-2 Part 3) [5] [6]
    • додаткові частоти дискретизації: 16, 22.05 та 24 кГц
    • додаткові бітрейти: 8, 16, 24, 40 і 144 кбіт / с, для формату 5.1 - близько 1 Мбіта / с.
    • підтримка мультиканальною - до 5 повних каналів і каналу низькочастотних ефектів.
  • Підтримується змінний бітрейт (VBR)

2. Кодування і декодування звукових сигналів MPEG-1 Layer II

2.1. Метод кодування

Вхідний цифровий звуковий сигнал розділяється на кадри (фрейми), кожен з яких кодується і декодується незалежно від інших кадрів. Розмір кадру для рівня Layer II становить 1152 відліку.

Смуга аудіосигналу за допомогою цифрових смугових фільтрів розбивається на 32 піддіапазону. Всі піддіапазони мають однакову ширину, яка залежить від частоти дискретизації вхідного сигналу. Після поділу частота дискретизації зменшується в 32 рази, так що число відліків в кадрі в кожному піддіапазоні одно 36.

Потім виконується квантування даних. Попередньо визначаються масштабні множники, які залежать від максимального значення сигналу. При цьому масштабний множник визначається для груп по 12 відліків у кожному піддіапазоні, причому множник може бути загальним для двох або трьох груп. Таким чином, для кожного піддіапазону в кадрі визначається до трьох масштабних множників. Перед квантуванням значення сигналу поділяються на відповідні масштабні множники.

Потім в блоці квантування і кодування виконується квантування даних. В основі стиснення звукової інформації на рівні Layer II лежить метод, званий адаптивним розподілом бітів. Цей метод полягає у виконанні квантування з різним числом двійкових розрядів квантування для різних частотних піддіапазонів. При цьому використовується рівномірне квантування. Повне число бітів, що виділяються на всі піддіапазони в даному кадрі, залежить від частоти дискретизації вхідного сигналу і від заданої вихідної швидкості передачі двійкових символів, тобто від необхідного ступеня стиснення звукової інформації. Розподіл бітів по піддіапазону здійснюється блоком психоакустичної моделі.

Після квантування виконується кодування отриманих даних. Квантовані відліки сигналу у кожному піддіапазоні об'єднуються по три, і отримані послідовності бітів кодуються з використанням таблиць кодів зі змінною довжиною. Крім того за допомогою відповідних таблиць кодуються дані про розподіл бітів по піддіапазону і дані про масштабні множниках.

Щоб виконати розподіл бітів в блоці психоакустичної моделі аналізується спектр вихідного звукового сигналу (не розкладеного на піддіапазони). Для цього проводиться швидке перетворення Фур'є ділянок цього сигналу по 1024 відліків, після чого обчислюється спектр потужності звукового сигналу і величини звукового тиску в кожному частотному піддіапазоні.

Потім аналізуються тональні (синусоїдальні) і нетональние складові звукового сигналу, визначаються локальні та глобальні пороги маскування і обчислюються відносини сигнал / маскуючий сигнал для всіх піддіапазонів, на підставі яких проводиться розподіл бітів по піддіапазону.

У тих піддіапазонах, в яких спотворення звуку, що викликаються квантуванням, менш помітні для слухача або маскуються великим рівнем сигналу в інших піддіапазонах, квантування робиться більш грубим, тобто для цих піддіапазонів виділяється менше бітів. Для повністю маскованих піддіапазонів бітів зовсім не виділяється. Завдяки цьому вдається істотно зменшити кількість переданої інформації при збереженні досить високої якості звуку.


2.2. Декодування

Дані, що містяться в кадрі, декодуються у відповідності з порядком їх слідування і таблицями кодів, які містяться в програмі роботи декодера. Декодовані дані про розподіл бітів і про масштабні множниках використовуються для декодування і деквантованія звукових даних. Після деквантованія відліки сигналів піддіапазонів множаться на відповідні масштабні множники.

Після декодування і деквантованія відліки сигналів всіх піддіапазонів об'єднуються у вихідний цифровий сигнал.


Примітки

  1. ISO / IEC 11172-3:1993 - Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit / s - Part 3: Audio - www.iso.org / iso / iso_catalogue / catalogue_tc / catalogue_detail.htm? csnumber = 22412. ISO (1993). Читальний - www.webcitation.org/66Mo3Q1qB з першоджерела 23 березня 2012.
  2. ISO / IEC 13818-3:1995 - Information technology - Generic coding of moving pictures and associated audio information - Part 3: Audio - www.iso.org/iso/iso_catalogue/catalogue_ics/catalogue_detail_ics.htm?csnumber=22991. ISO (1995). Читальний - www.webcitation.org/66Mo4vybd з першоджерела 23 березня 2012.
  3. ISO / IEC 11172-3:1993 Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit / s - Part 3: Audio - www.iso.org/iso/iso_catalogue/catalogue_tc/ catalogue_detail.htm? csnumber = 22412
  4. Facts about MPEG Compression - www.telos-systems.com/techtalk/mpeg/default.htm
  5. MPEG-2 Audio Layer I / II - mpeg.chiariglione.org/technologies/mpeg-2/mp02-aud/index.htm
  6. MPEG Audio Frame Header - www.mpgedit.org / mpgedit / mpeg_format / mpeghdr.htm

Література

  • Смирнов А. В. Основи цифрового телебачення: Навчальний посібник. - М.: Гаряча лінія-Телеком, 2001. - 224 с.: Іл.