meziNárodní obrození mp3

Tomáš Neubauer, 7. 2. 2004

Jde zvuk zazipovat? Jsou všeobecně podceňované komprimované formáty použitelné v profesionální praxi? Rozezná lidské ucho kompresi? Proč je WMA tak rozšířené? Kdo je nástupcem dosluhujícícho mp3? Co to je watermarking? Kdo by vyhrál v souboji mp3 vs ogg? Co mají opice společného s audio kompresí? Těchhle pár otázek jsme si položili, než jsme se pustili do Tématu měsíce prvního letošního čísla. Doufám, že jsem na ně přinesl uspokojivé odpovědi.

Co slyšíme?

Vlastnosti zvuku ovlivňují dva faktory. Jednak je to frekvence, která nám říká, kolikrát za sekundu přejde zvuková vlna od svého nejnižšího bodu k nejvyššímu a zpět, obvykle měřená v Hz (pro snadné porozumění se omlouvám za definici z učebnice přírodovědy pro čtvrtý ročník ZŠ). Rozsah lidského sluchu (šťastnějšího jedince) je v mezích 15-20 000 Hz a je dán pružností stěny ušního bubínku, který přenáší zvukové vlnění dále přes kovadlinku, kladívko a další nářadí až do mozku. Zvířata mají zvukové orgány mnohem citlivější - tím se vysvětluje i srdcervoucí vytí hlavně psů (kočku jsem ještě výt neslyšel, má asi sluch ještě horší než člověk). Tento údaj je právě v digitálních záznamech zvuku a ve zvukové kompresi stěžejní při tzv. maskování, ale to až níže. Dalším z faktorů je amplituda, jež zjednodušeně určuje hlasitost zvuku (opět přírodověda). Je to polovina vzdálenosti od nejnižšího k nejvyššímu bodu zvukové vlny. Amplituda se měří v decibelech (dB). Citlivost našich ušních bubínků v decibelech je velice těžko určitelná, záleží totiž ještě na frekvenci daného zvuku. Dá se ale přibližně říci, že lidské ucho (přesněji řečeno ušní bubínek) je schopno zaznamenat zvuk spektra 0-120 dB.

Už za II. světové války prováděli vědci experimenty mimo jiné i se znázorněním zvuku pomocí čísel (převážně tzv. čísla diskrétní). Bylo tak činěno pomocí vzorkování zvuku několikrát za sekundu. U každého takového vzorku byla následně měřena jeho amplituda. Tyto pokusy vedly ke zformování prvních teorií o digitálním záznamu zvuku. Tou hlavní se stala teorie, podle níž musí být vzorkovací frekvence (angl.sampling rate), která určuje počet vzorků za sekundu, alespoň dvakrát vyšší, než jaká je nejvyšší zaznamenaná frekvence daného zvukového vzorku. Takže bylo jasné, že když v roce 1970 začaly společnosti Philips a Sony zkoumat možnosti dalších zisků a přišly na digitální audio a CD, jedním z parametrů, tedy vzorkovací frekvencí většiny digitálních nahrávek, se stalo 44 100 Hz, protože tato frekvence byla dvojnásobkem maxima slyšitelného lidským uchem.

Každý vzorek použitý při vzorkování (=samplování) je šestnáctibitové číslo v rozmezí -32 768 a 32 767. Toto číslo indikuje amplitudu vlny u každého ze vzorků. Zvuková vlna, která bude pravidelně oscilovat mezi maximálními hodnotami -32 768 a 32 767 bude to nejhlasitější, co může tento rozsah zaznamenat. Oscilace mezi hodnotami -1 a 1 bude zase to nejtišší, a v případě nuly se bude jednat o absolutní ticho. Standard vzorkování zvuku 44 100 Hz byl pojmenován Pulse Code Modulation (PCM) a je tím nerozšířenějším standardem pro současné vzorkování zvuku. Jen ti nejsnaživější posluchači se špičkovým vybavením a smečkou hudebně nadaných psů budou schopni objevit rozdíl mezi takto vzorkovaným zvukem a analogovým originálem.

Je tedy docela jednoduché, pomocí dnešního softwaru, převést jakýkoli analogový zvuk pomocí počítače do digitální podoby. Výsledkem tohoto převodu bude zatím ještě nekomprimovaný zvuk s uživatelsky nastavenou vzorkovací frekvencí. Dejme tomu, že převedeme klasické Audio CD (CD-DA). Protože je Audio CD (CD-DA) vzorkované 44 100 Hz, nemá smysl ho převádět na vyšší vzorkovací frekvenci (nesmějte se, někteří audiofilové tak opravdu činí a nenechají si to vymluvit, co kdyby CD skrývalo přece jen něco navíc). Máme tedy na disku WAV soubor nesoucí informace o zvuku (jsou identické s těmi zaznamenanými na CD).

Mimochodem, ono to i s převodem zvuku z CD na disk do WAV není absolutně bez chyby. Problém je tu opět ve standardu. Proces převodu Audio CD (CD-DA) do WAV díky specifikaci nemá hardwarové implementovanou tzv.advanced data correction (rozšířenou opravu chyb, pozn. autora). To se při transferu hudby z CD na disk v počítači promítne v drobných chybách, způsobených nečistotami na CD a škrábanci v rozmezí neslyšitelného jednoho až dvou bitů. Podobným chybám třeba silněji poškrábaného CD se vyhneme použitím software, který má vlastní softwarové techniky korekce chyb, např. Exact Audio Copy (www.exactaudiocopy.de).

Trošku matematiky na úrovni výše zmiňované přírodovědy nám pomůže k vypočítání velikosti tohoto zvukového souboru. Každý vzorek má 16 bitů, nebo dva byty podle definice 8 bitů = 1 bajt. Každou sekundu proběhne 44 100 vzorků, a protože je dnes skoro vše nahráváno stereo (kromě odposlechu, ten ale prý podle CIA stereo stejně přeskočí a výstup štěnic bude rovnou v 5.1), musíme počet vzorků vynásobit dvěma. Tím dojdeme k číslu 176 400 bajtů, které udává velikost jedné sekundy digitálně uloženého zvuku na našem disku. Přesně 10 584 000 bajtů, přibližně 10 MB je potřeba k uložení jedné minuty zvuku nehledě na typ zvuku - ticho se vzorkuje stejně jako fanfára. Minuta zvuku a deset mega na disku nemusí pro mnohé znít zase tak strašně, dnešní průměrně velké disky mají kapacitu desítek (stovek) gigabajtů. Představme si ale modelovou situaci filmového průmyslu v Holywoodu. Díky snaze vynahradit divákovi béčkovou kvalitu filmů technickými vymoženostmi (o něž se divák mnohdy stejně neprosí), není dnes neobvyklé, aby byl zvuk uložen ve více kanálech než jen ve stereu. Většina systémů domácího kina má dnes pro jistotu sedm zvukových kanálů plus jeden basový (7.1), aby mohl film snáze vydělávat i po stažení z kin. Kolik místa na disku zaplácne minuta celkem osmi kanálů? A když ještě vezmeme v úvahu, že zvuk pro projekci filmů v klasickém kině u moderních Holywoodských filmů, jako je Pán prstenů nebo Matrix, je vzorkován frekvencí vyšší než 96 kHz a že vzorek nemá už jen 16 bitů, ale rovnou 24, potom může jedna minuta zvuku znamenat stovky megabytů a celý dvouhodinový film mnoho giga. Aby tedy investorům a produkci filmů nespadly zisky zbytečnými náklady za novou výpočetní techniku, několik podobných "velkofilmů" pracuje se stejnou audio kompresí jako vy doma.

Už od začátku vznikaly v oblasti kompresních algoritmů a enkoderů dva odlišné proudy. Komerční, který byl první a jehož výsledky jsou mezi uživateli rozšířenější (viz formát WMA níže), a proud nekomerční, označován jako open-source, který umožňuje komukoli (kdo tomu aspoň trošku rozumí) podílet se na vlastnostech a vývoji. Hned v zárodku se objevuje několik hlavních rozdílů. Komerční produkty jsou obvykle vyvíjeny za účelem zisku, a veřejnost je proto již dlouho před uvedením masírována leckdy i nepravdivými informacemi. Open-source sféra je naproti tomu o něco objektivnější, i když i tady jsou subjektivita a informační kampaně velice obvyklé. Open-source software je ale vždy vyvíjen samotnými uživateli, a proto obsahuje minimum chyb a je maximálně funkční. Právě testování a zpětná vazba je často to, co komerčním vývojářům chybí. Odedávna vždy soupeřily tyto dva tábory mezi sebou, a to i ve sféře uživatelského softwaru. Dnes můžeme tento boj nejlépe pozorovat mezi Linuxem a Windows. Soupeření na poli kompresních formátů dnes více připomíná válku. Nevěřte proto bezhlavě všem informacím, které se k vám o kompresi a formátech donesou. V tomto článku jsem se snažil postupovat co nejobjektivněji, čerpal jsem vždy z více než dvou různých zdrojů, vždy z těch nejméně zaujatých.

Proč tak obšírný úvod? Je potřeba si uvědomit, co vedlo k tak masovému nástupu mp3 a zvukové komprese. Masový nástup počítačů na začátku 90. let minulého století (u nás se dá o masovém nástupu mluvit až ke konci 2. tisíciletí) a rozvoj digitální komunikace dal uživateli mnoho mocných nástrojů. Dříve bylo jedinou možností kopírování zvuku dubbing kazety nebo pásky, nemluvě o opotřebení a horšícímu se zvuku. Je ale pravda, že piráti pracovali velice efektivně i s páskami a kazetami. Dnes je možné uložit zvukový záznam v identické podobě jako originál (a ještě ke všemu v domácím prostředí a na počítači z roku "raz dva"). S příchodem internetu se lidé začali více než o kvalitu (která byla vždy do jisté míry v přijatelných mezích) zajímat o velikost. Průměrná délka skladby byla před rokem 1970 tři minuty, dnes jsou to minuty čtyři. Při deseti mega za minutu by trvalo přenesení čtyř minut po tehdy (u nás dnes) nejrozšířenějším vytáčeném připojení příliš dlouho. Objevily se tedy dva mechanismy komprese audio nahrávek, které umožňovaly jednodušší manipulaci a archivaci. O bezztrátové a ztrátové kompresi digitálních nahrávek se více dozvíte níže.

Bezztrátová komprese

Bezztrátová komprese využívá několik kompresních algoritmů na zmenšení původní velikosti při stoprocentním zachování integrity a podoby původního zdroje. To znamená, že po dekompresi bude zvuk naprosto identický s originálem. V dnešní době je poměr komprese (angl. compression ratio) dosažitelný bezztrátově, přibližně 1 : 2. Technika komprese je stejná jako u datové komprese textu, například pomocí algoritmů zip či rar... Protože ale ani zip ani rar nejsou koncipovány pro kompresi zvuku, používají se k těmto účelům algoritmy jiné. Jak už je zvykem, formátů je hned několik na výběr. Každý má svůj klad, ale žádný nezahrnuje všechny výhody těch ostatních, a proto se nedá říci, že by byl některý ve všem výrazně lepší než ostatní (tabulka). Neexistuje totiž ani dostatečná podpora a rozšířenost. K úspěchu jakékoli kompresní technologie je potřeba její nezávislost na platformě (Windows, Linux, MacOS), rychlost komprese a dekomprese, stabilita a příslušná dokumentace, která umožní přístup k formátu i ostatním komerčním/nekomerčním subjektům. Nejrozšířenějším bezztrátovým formátem, alespoň podle jeho zastoupení na výměnných serverech a diskusních fórech je monkey's audio (www.monkeysaudio.com). Jeho největší výhoda, kromě vysoké popularity v rámci bezztrátových kompresních formátů, je nejlepší kompresní poměr. S onou popularitou u monkey's audio je to trošku problematické. Hodně jí pomohla jistá image, kterou si výrobce vybudoval. Může to znít absurdně, ale některým audiofilům maskot formátu, jako je opice, vážně lichotí. Dalším z těch úspěšných je wavpack, který zase nad ostatními vyčnívá rychlostí komprese (www.wavpack.com). Tím nejuniverzálnějším se dnes jeví Free Loseless Audio Codec, zkráceně flac (flac.sourceforge.net). Flac je jedním ze zdárných příkladů výsledku práce open-source komunity. Jedná se tedy o multiplatformní software a je zdarma.

Teorie bezztrátové komprese

Pokusím se nastínit práci bezztrátového kodeku. Pro zájemce o více detailů je k dispozici výše zmíněná stránka, kde je vše rozpitváno do nejmenších detailů. I když se bude jednat o práci algoritmu vyvinutého pro flac, ostatní algoritmy jsou u jiných bezztrátových formátů téměř totožné. Flac (stejně jako všechny kompresní algoritmy) pracuje v několika krocích.

Zvukový soubor je v prvním kroku rozdělen do jednotlivých bloků. Ty se mohou lišit velikostí a jejich podobu určuje několik faktorů včetně vzorkovací frekvence, spektrální charakteristiky v daném čase.

Dalším krokem je kanálová dekorelace, při níž dochází k porovnávání obou stereo kanálů mezi sebou. Dále se snaží enkodér jednotlivé bloky matematicky vyjádřit. Ne vše se ale dá vyjádřit matematicky přesně, a právě tyto případy řeší poslední krok, při němž jsou matematické nepřesnosti (předpoklady) popisovány zvlášť. Velice zjednodušeně se dá říci, že bezztrátová komprese spočívá v matematickém popisu audio souboru podle pravidel, která jsou určována každým kodekem zvlášť. Vždy je potřeba enkodér, jenž nekomprimovaný zvuk komprimuje, a posléze je potřeba dekodér, který komprimovaný zvukový soubor opět uvede do stavu před kompresí.

Jaké jsou tedy výhody bezztrátových kompresních kodeků, a k čemu se dají použít? Není asi divu, že jejich popularita není tak vysoká. Nelze s nimi pracovat v reálném čase. Jak je vidět v tabulce, komprese i dekomprese je dost časově náročná. Všechny testy byly prováděny na počítači s Athlonem 900 MHz, a proto se dá také říci, že i práce s nimi je podmíněna novějším hardware, především rychlejším procesorem a diskem. K čemu se ale hodí dokonale, je archivace. Všichni, kdo archivují, či hromadně digitalizují vysoce kvalitní nahrávky, najdou v bezztrátové kompresi určitě využití. Bezztrátově komprimovanými formáty se v komunitách na internetu zabývají především profesionálové a audiofilové. Existuje několik diskusních fór, například www.hydrogenaudio.org, která jsou díky motivovaným uživatelům studnicí dalších informací.<

br>

Ztrátová komprese

O kolik to bylo v oblasti bezztrátové komprese zvuku jednodušší, o tolik složitější je problematika komprese ztrátové. Formátů je tady opravdu velké množství, a díky přítomnosti firem Microsoft, RealAudio a dalších, které vyvíjejí své vlastní kodeky a agresivně je protlačují na trh, je tato oblast mnohem živější a rychleji se měnící. Existuje tu ale také mnohem početnější sféra nekomerčního open-source. Díky peer to peer sítím, pirátství a dalším ať legálním či nelegálním způsobům sdílení hudby, se staly ztrátově komprimované hudební soubory, především mp3, jedním z nediskutovanějších témat posledních několika let. Úzce souvisí se softwarovým pirátstvím (dochází ke stejnému porušování autorských práv), a právě "nelegální" manipulace s hudebními soubory přiřadila v některých zemích obrovskou část populace ke zločincům a podvodníkům. Je zde nutno podotknout, že společenské dopady tohoto vývoje jsou minimální, zatímco ztráty společností, kterým tímto vývojem klesly zisky až několikanásobně, jsou obrovské.

Média (jimiž čas od času proběhne zmatená zpráva o stavu českého i světového hudebního průmyslu) u nás si neuvědomují provázanost nelegálního kopírování CD s vlivem internetu v podobě snadné dostupnosti komprimovaných audio skladeb a kompatibilním kapesním přehrávačům. Dnes už v mnoha případech odpadá potřeba klasických CD. Manipulace s nimi je náročnější a kvalita na uživatelské úrovni srovnatelná třeba s mp3. O tomto vývoji svědčí i statistická data. V roce 1997, kdy se stále ještě vypalovačky vyskytovaly v cenových výšinách deseti tisíc korun za kus a internet ve střední Evropě se začínal otevírat průměrnému uživateli, dosahovaly zisky hudebního průmyslu u nás zhruba tří miliard korun. O pět let později, roku 2002, kdy stojí vypalovačka v průměru patnáct set, internet užívá třicet procent populace, na sídlištích je převaha broadband internetového připojení přes přípojku kabelové televize a na našem trhu je minimálně padesát různých kapesních přehrávačů mp3, jsou zisky českého hudebního průmyslu čtyřikrát nižší, na úrovni sedmi set padesáti milionů.

Stačí si jen uvědomit tu obrovskou změnu. Už od vynálezu audio nosičů měli přístup k jejich tvorbě a výrobě jen a pouze jejich výrobci. Nikdy nemohlo dojít k tomu, aby si posluchač sám zkopíroval gramofonovou desku. Každý nahraný nosič tedy vynášel nahrávacímu průmyslu částku, na kterou se dalo spolehnout. S nástupem magnetické pásky se situace mírně změnila. Už bylo možné si nahrát vlastní pásku, a dokonce si vyrábět kopie, ale ty byly vždy méně kvalitní než sériově vyráběné originály. Proto nahrávací společnosti, netuše dalšího vývoje, nijak zvlášť neřešily případy porušování autorských práv koncovým uživatelem. Jsem si jist, že pokud by nahrávací průmysl toto období nezaspal a pokusil se o lobování a prosazení jistých zákonů a postihů už v sedmdesátých a osmdesátých letech, dnešní problémy uživatelským pirátským kopírováním by nenastaly v tak obrovském měřítku.

Proto je potřeba najít nový způsob, jak na hudbě vydělávat. Nemá cenu si nalhávat, že muzikant hraje v kapele jen proto, že ho to baví. Pokud to myslí vážně, jeho tvorba a vystupování mu musí alespoň zajistit vhodné podmínky. Profesionálnímu muzikantovi, kterého hudba zároveň uživí, se podařilo najít vzácnou kombinaci "zábavného s užitečným". Je potřeba se na problém podívat přímo. CD je jako hudební distribuční kanál mrtvé. Nepomůžou ani policejní razie u "pirátů velkovýrobců" v Rusku, ani nejdokonalejší systémy protipirátské ochrany (poslední nejdokonalejší super extra ochranu MediaMax CD3 společnosti SunnComm Technologies Inc. lze obejít pouze přidržením klávesy shift, více na www.cs.princeton.edu/ ~jhalderm/cd3). Ať je vývojář CD ochrany sebechytřejší, vždycky se najde někdo lepší (viz tab. 5). Všechny ochrany proti kopírování jedině omezují ty, kteří si CD legálně koupí. CD totiž obvykle nejde přehrát na počítači, a donutí tak uživatele zapátrat na internetu, a co si doma na počítači nepustí z vlastního CD kvůli ochraně, si radši stáhne ve formátu mp3.

Cesta vede skrz kompresní formáty. Pokud by distributor byl schopen zajistit kvalitní kompresi do formátu, který efektivně využívá (tzv.rights management), a současně by umožnil uživateli doma převod takto komprimovaných souborů na klasické Audio CD (CD-DA), jednalo by se o ideální způsob pro obě strany. Distributor by se nemusel zabývat náklady spojenými s lisováním CD a distribucí v obchodech, a uživatel by jistě uvítal nižší cenu nahrávek. Současně by také uživatel neměl potřebu pirátského kopírování (díky ceně přes tři sta korun za album se to dnes vyplatí i s rizikem právního postihu) a hlavně by mu to tento systém ani neumožňoval. Po převodu levně koupených komprimovaných souborů na formát Audio CD (CD-DA) doma by opětná komprese tohoto CD do formátu bez ochrany práv znamenala další ztrátu na kvalitě a nahrávka už by byla pro poslech téměř nepřijatelná.

Na otázku, který formát je ten nejlepší, opět nelze podat uspokojivou odpověď. Běžný uživatel internetu bude určitě protestovat. "Nejlepší je přece mp3," řekne ten, kdo strávil určité množství času na internetu a pár stažených písniček už má za sebou. Co stáhne, hned si přehraje; a jeho hudební soubory neopustí útroby počítače pod stolem. Je to asi pravda. Pro tento typ uživatele je opravdu mp3 ideálním formátem komprese. Jeho počítač je osazen průměrným hardwarem, i když obsahuje nejnovější procesor a nejrychlejší disk. Díky elektronickým šumům, mnoha zdrojům magnetického vlnění, několika větrákům, které jsou v každé počítačové skříni, díky nekvalitním audio výstupům, částečkám prachu a spoustě dalších faktorů (včetně pochybné kvality bakelitových repráčků vedle monitoru) není divu, že audio přehrávané z mechaniky a Audio CD (CD-DA) bude znít stejně jako stažená empétrojka. Informace o tom, že komprimovaný soubor jakékoli kvality a jakéhokoli datového toku se rovná kvalitě CD, je manipulací s fakty, a každému, kdo ví alespoň trošku o způsobech ztrátové komprese (slovo ztráta je už v samotném názvu), dojde, že když zvukový soubor ztrátově zkomprimuje, něco se z něj ztratí, a nemůže tak být identický s originálem na CD. Ztrátových kompresních kodeků, které stojí za zmínku podle své použitelnosti, ztráty na kvalitě originálu, rychlosti a kompresního poměru, je jen několik. Jedná se o Musepack (mpc), Ogg Vorbis (ogg), MPEG-1 Layer 3 (mp3) a Advanced Audio Coding (aac). Další formáty jako Windows Media Audio (WMA), VQF či RealAudio (RA) se mezi uživateli myslícími to s hudbou vážně příliš neprosadily, a i přes snahy jistých komerčních subjektů neprosadí díky nekompatibilitě, špatnému poměru kvality a velikosti komprimovaného výstupu nebo jen předsudkům uživatelů. Je zde třeba rozlišit prosazení se z důvodu kvality či efektivity (případ mp3) a prosazení se násilím (případ WMA). Kdyby nebyl WMA vkládán do všech operačních systémů společnosti Microsoft (vydaných roku 1998 a později), formát by uživatelsky zanikl.

Teorie ztrátové komprese

Pokusím se demonstrovat, jakým způsobem ke kompresi dochází na nejprofláknutějším formátu mp3. Komprese je tolik účinná v imitaci audio kvality původního CD díky metodě maskování. Pokud se ve stejný čas objeví silnější zvukový signál, který nedovolí posluchači zachytit signál slabší, je ten slabší při kompresi vymazán. Když nad námi například přelétává letadlo jen pár set metrů, hluk motorů nám brání v rozhovoru. Zvukové vlnění naší konverzace je rušeno silnějšími vlnami letícího letadla (zjednodušeně). Mp3 tedy hledá ve všech audio souborech podobné zvuky letadla, které maskují zvuky ostatní, a sází na to, že všichni mají natolik otupělý sluch, že nikdo nic nepozná. Výskyt tohoto jevu je obvyklý především v muzice. Hlasitý orchestr snadno zabrání jednotlivým muzikantům hrajícím velice tiše, aby byli slyšet obecenstvem. O to se snaží algoritmus při kompresi mp3. Místo dat, která bychom stejně neslyšeli, ukládá jen to, co papírově slyšet můžeme. Stejně jako u komprese bezztrátové, i zde dochází ke kompresi v několika krocích. Nejdříve projde zvukový signál filtrem, jenž rozdělí zvukovou stopu na jednotlivé frekvence. Současně prochází takto filtrovaný zvuk psychoakusticky modelovaným filtrem, zjišťujícím ono maskování neslyšitelných frekvencí těmi slyšitelnými. Posledním krokem je tzv.bit allocation, metoda, která se zbaví nežádoucího šumu. Po zpracování všech těchto informací dojde k oddělení neslyšitelného obsahu od samotného souboru, a komprimovaný mp3 je na světě. Při oddělování neslyšitelných frekvencí se také uplatňuje teorie, že lidské ucho není schopno zaregistrovat frekvence nižší než 15 Hz a vyšší než 20 kHz. Vše, co skladba obsahuje mimo tuto hranici, se vymaže také. Aplikací všech těchto pravidel a teorií mohou dosáhnout formáty mp3 nebo Ogg Vorbis zmenšení velikosti až na 10 % originálu při průměrné kvalitě. Kvalita zvuku se po kompresi vyjadřuje šířkou datového toku (angl. bitrate). Audio CD (CD-DA) má datový tok 1 411 200 bitů za sekundu (stereo), což se dá také vyjádřit jako 1411 kbps (kilobits per second, kilobitů za sekundu, pozn. autora). Typicky komprimované soubory (nehledě na použitý kodek) budou mít datový tok 64-256 kbps a uložená informace, tedy zvuk, bude znít našemu uchu většinou stejně jako originál.

Ztrátové kompresní formáty

MPEG-1 Audio Layer 3 (mp3)

Vše začalo v 80. letech 20. století v německém Fraunhofer Gesellschaft (FhG). Dieter Seitzer, profesor v Eralgenu začal pracovat na algoritmu, který měl výrazně zmenšit velikost hudební nahrávky při zachování velké většiny jejích kvalit. V roce 1989 si FhG nechal nový systém patentovat v Německu a o několik let později byla mp3 začleněna do ISO standardu MPEG jako MPEG-1 Audio Layer 3. FhG také vyvinul první softwarový mp3 přehrávač, už v roce 1990, ale na veřejnosti se díky nestabilitě neuchytil. Díru do světa udělali dva univerzitní studenti s přehrávačem Winamp, založeném na dosovském jádru AMP, jež vytvořil Tomislav Uzelac, vývojář firmy Advanced Multimedia Products (AMP).

Dnešní formát mp3, vyvíjen dohromady FhG a společností Thompson, byl ve své době (před několika lety) přelomový. Dokázal přesvědčit spoustu lidí o své užitečnosti a vlastnostech. Protože se jednalo o první ztrátový kompresní kodek, spousta lidí si i dnes spojuje datový tok mp3 s kvalitou komprimovaného zvuku. Je třeba si uvědomit, že formát či standard mp3 je sice jen jeden, enkodérů (tedy algoritmů), které do mp3 zvuk komprimují, je celá řada a existují mezi nimi výrazné rozdíly v kvalitě, rychlosti a kompresním poměru. Když jsem se poprvé setkal před několika lety s formátem mp3, už tehdy (bez hlubších znalostí tématu) jsem si je podvědomě rozdělil na ty vyvíjené - jako open-source - a na zbytek, vyvíjený jednou firmou či vědeckým ústavem (FhG).

Hlavní čtyři kodeky, jejichž použitím získáme komprimovaný audio soubor standardu mp3, jsou podle abecedy Blade/BladeEnc (www.bladeenc.com), Fraunhofer (www.iis. fhg.de/amm/index.html), LAME/LAME Ain't an Mp3 Encoder (lame.sourceforge.net) a Xing (www.xingtech.com). Každý má své pro a proti. Fraunhofer je patentem FhG a Thompson, a není proto stejně jako Xing (koupený nedávno společností RealAudio) zdarma. O Xing je známo, že vyniká svou rychlostí, ale na úkor kvality. LAME je na druhou stranu díky svému open-source zázemí považován za špičku, co se možností nastavení týče. Fraunhofer je oficiálním kodekem patentu MPEG-1 Layer 3, a podle několika objektivních testů papírově nejlepším.

Co všechno tedy mp3 dokáže? Nejlepším řešením pro zjišťování možností mp3 je beze sporu LAME. Aby byly věci ještě zmatenější, existuje několik způsobů práce kodeku, které může uživatel nastavit, a ovlivnit tak kvalitu, rychlost komprese, kompresní poměr a další. Úplně na začátku pracoval kodek jen s uživatelským nastavením datového toku. Před kompresí si uživatel určil, jak velký má být datový tok, a přímo tak ovlivnil poměr velikosti a kvality. Tato metoda nazývaná jako ABR (average bit rate, průměrný datový tok, pozn. autora) zajistila každé vteřině komprimovaného zvuku stejný datový tok. Tento (dnes již překonaný) způsob komprimace měl několik vad. Především v tichých místech skladby, kde byla třeba jen slabě slyšet basa, měla sekunda takto nenáročného zvuku stejnou velikost jako pasáže, kde rozjíždí kytarista sólo a bubeník se vyžívá na činelech. Samozřejmě se to projeví i na komprimovaném zvuku, tiché místo zbytečně přidá skladbě na velikosti, a tam, kde je zvuk nejkomplikovanější, je například poznat komprimace na kvalitě. Novější kodeky (vývojáři přicházejí pořád s novými verzemi) objevují několik metod, jak se podobným paradoxům vyhnout. Metoda zvaná VBR (variable bit rate, proměnlivý datový tok, pozn. autora) dá kodeku volnost v určování datového toku, a tak v tichých oblastech skladby bude pásmo datového toku užší a v hlasitých či bohatých částech skladby bude širší. Vždy se ještě v nastavení před komprimací určí, jaká má být spodní a horní meze datového toku.

Jak je to tedy s datovým tokem u mp3? V FhG nedávno po dlouhém testování pomocí přístrojů i lidí s citlivým sluchem zjistili, že od datového toku 256 kbps výše je kvalita komprimovaného zvuku nerozeznatelná od originální nahrávky na CD. Je tedy moudré komprimovat zvuk buď přímo VBR, kdy se spodní hranice pohybuje blízko tohoto minima a horní hranice je ještě o něco výše, nebo ABR s datovým tokem minimálně 256 kbps. Je třeba si zapamatovat, že tato pravidla datového toku jsou platná jen pro mp3. Ostatní kodeky pracují s jinými psychoakustickými filtry a vztah datového toku a kvality bude vždy jiný.

Windows Media Audio (WMA)

Dalším velice rozšířeným zástupcem kodeků ztrátové komprese je WMA. Důvod, proč je WMA rozšířen, netkví bohužel v jeho kvalitách, ale v politice výrobce. Kodek WMA vyšel z dílny společnosti Microsoft, stejně jako řada operačních systémů (OS). V každém operačním systému Microsoftu od verze 95 je implementován přehrávač multimedií. Postupem času si Microsoft uvědomoval, kolik lidí využívá tento implementovaný přehrávač radši, než aby instalovali jiný, třeba i lepší. Tito průměrní uživatelé se nehnali za funkcemi, stačila jim jednoduchost rozhraní a přítomnost přehrávače hned po instalaci OS. Microsoft toto chování obrátil ve svůj prospěch. Od první verze existoval vlastní formát Windows Media (tehdy převážně používaný pro streamování videa a hudby po internetu), zvaný ASF. Postupem času chtěl Microsoft ukousnout část z koláče ztrátových kodeků a uvedl WMA kodek jako součást svých Windows Media přehrávačů. Každý Windows Media přehrávač verze 7 a výše (Windows 2000 a později) má proto možnost komprimovat audio do WMA. Při obrovské penetraci OS od Microsoftu není divu, že je WMA dalším z nejrozšířenějších kodeků. Příležitostný uživatel a laik, kterých je stále ještě většina, radši sáhne po implementované funkci svého OS a nebude se tolik ptát po kvalitě. Zaslechl přece někde na internetu, že WMA při zachování kvality CD komprimuje zvukové soubory v porovnání s mp3 polovičním datovým tokem. Nedošlo mu ale, že tato informace pochází z reklamní kampaně samotného Mirosoftu a že proklamovaná kvalita CD po komprimaci se rovná přibližně horší kvalitě FM přenosu. Hlavní rozdíl mezi WMA a ostatními formáty je v možnosti zachování autorských práv. Ten, kdo začne využívat WMA, například si zaplatí 99 centů za skladbu na serveru MusicMatch nebo Napsteru 2.0, se proto musí smířit s tím, že se skladbou nepůjde manipulovat tak snadno jako se zcela volně šiřitelnými mp3. Každý uživatel si přehraje koupenou skladbu jen pomocí softwaru, který nabízí každý server zvlášť nebo pomocí přenosného přehrávače. Díky osobnímu ID a heslu unikátnímu každému uživateli/zákazníkovi je monitorováno, kolikrát si skladbu poslechl, kolikrát ji vypálil na CD a kolikrát nahrál do přenosného přehrávače. Cílem tohoto systému je právě omezení této manipulace. Skladbu si lze na počítači sice přehrávat neomezeně, ale například po vypálení na pět CD už pošesté vypálit nepůjde. Důležitost WMA pro Microsoft demonstruje i jeho poslední verze WMA9. Ta zvládne například komprimaci vícekanálového zvuku Dolby ProLogic.

Microsoft se zde snaží konkurovat již zažitému AAC, o němž si přečtěte níže. Další novinkou je WMA Loseless, který umožňuje (podle slov Microsoft) všem audiofilům komprimovat své nahrávky bez ztráty na kvalitě. Jedná se o dalšího zástupce bezztrátové komprese, jež ale nijak kvalitativně nepřevyšuje flac, a další zde již zmíněné bezztrátové kodeky. Jediným významným kladem je, že všechny budoucí verze OS od Microsoftu budou vybaveny jak WMA9, tak WMA Loseless, budou v podstatě naservírovány průměrným spotřebitelům, a stanou se tak dalším standardem. Objektivně je potřeba podotknout, že WMA opravdu v malém nároku posluchače na kvalitu předčí mp3. Dokazuje to hlavně několik testů mezi mp3 datového toku 128 kbps, jenž se kvalitou rovná WMA datovému toku 64 kbps. Pokud je posluchač kritický a citlivý na uši, musí akceptovat jisté hranice. Pod výše zmíněných 256 kbps se komprimovaný zvuk pro náročného posluchače nedostane. Musíme být soudní, přece jen 80% úspora místa na disku při 256 kbps je více než dostatečná.

Advanced Audio Coding (AAC)

Kodek Advanced Audio Coding je přímým nástupcem mp3. Byl původně vyvinut stejně jako mp3 německým FhG a z mp3 vychází. Při jeho vývoji byly vypuštěny problematické části mp3 a přidány funkce a možnosti, o nichž se při vývoji mp3 ještě ani nevědělo. Stejně jako u mp3, existuje i u AAC několik nezávislých verzí, které se od sebe mírně liší. Verze stojící za zmínku jsou celkem tři, a kromě FhG (www.iis.fraunhofer.de/amm/index.html) se jedná ještě o FAAC (www.audiocoding.com) a Psytel (ke stažení na cd-rw.org/software/audio_software/audio_ encoders/psytel_aac_enc.cfm). Většina uživatelů profesionálů převážně používá poslední dva. Jsou ve srovnání s FhG vyvíjeny v open-source prostředí. Psytel AAC je nejkvalitnějším kodekem, k němuž se může koncový uživatel volně dostat. Je vyvíjen Ivanem Dimkovićem a jeho práce a samotný kodek AAC je považován za vrchol současného oboru ztrátové komprese. Kodek umožňuje práci až s 48 samostatnými kanály a vzorkovací frekvencí až 96 kHz (včetně 15 kanálů určených pro přenos nízkých frekvencí s vzorkovací frekvencí až 120kHz a 15 datových kanálů s možností využití několika jazykových mutací uložených v jednom jediném souboru). Formální tesy s mp3 dokázaly, že AAC s datovým tokem 96kbps se kvalitou vyrovná mp3 komprimovaným 128kbps. Formát AAC byl vybrán pro systém DRM (Digital Radio Mondiale, digitální rozhlasový přenos na krátkých, středních i dlouhých vlnách AM, pozn. autora).

Muse Pack (MPC)

Musepack je ztrátový kompresní formát vyvíjený Andree Buschmannem na základech starších algoritmů mp2 (MPEG-1 Audio Layer 2). Disponuje podporou jednoduchého sterea a v současné stream verzi 7 (sv7) vzorkovací frekvencí 44 100Hz. Podle několika neformálních testů se ukázal musepack jako nejkvalitnější ze všech dostupných ztrátových formátů v datovém toku nad 160 kbps. Jeho vlastnosti a základní algoritmus ho odsuzují pouze k tomuto jedinému vítězství nad ostatními. V datovém toku pod 160 kbps je horší než většina ostatních kodeků. Vývojáři se pokusili nastavení vlastností kodeku co nejvíce zjednodušit, a proto nabízí kodek jakýchsi sedm stupňů. Nejnižší, nazvaný telephone, komprimuje nejméně kvalitní monoaureální zvuk nejvíce využitelný v audio knihách a při komprimaci mluvené řeči. Sedmý stupeň, pojmenovaný braindead, byl uveden až v sv7 a (podle očekávání) se nachází na opačné straně spektra než telephone. Nabízí tedy nejkvalitnější komprimovaný výstup v rámci možností mpc.

Ogg Vorbis (OGG)

Vývoj tohoto kodeku ze sféry open-source započal roku 1993 v rámci projektu Squish. Jeho vývoj byl motivován snahou o postupné vytlačení a nahrazení komer- čních formátů mp3 a WMA. Díky zásahu mnoha programátorů a vývojářů je vývoj ogg velice živý a neustále se objevují nové verze. Se zlepšováním kvality komprimovaného výstupu jsou i soubory komprimované nejnovější verzí stále kompatibilní se starými přehrávači. Nejnovější verze a současně první stabilní verze je ogg 1.0. V mnoha ohledech se ogg podobá projektu LAME, s nímž má i mnoho společného. Obě iniciativy jsou open-source, a protože je LAME považován za favorita domény mp3, je přímým konkurentem ogg. Při kompresi v nejvyšší kvalitě se oba formáty v podstatě shodují. Vývojáři oggu se rozhodli zjednodušit kompresi pod 2 kHz a zkvalitnit zvuk ve středech a výškách až do 16 kHz. Na grafu si můžete všimnout, že LAME reprodukuje zvuk do 2 kHz lépe než ogg, v rozmezí 2 a 16 kHz je ale LAME horší a vyniká ogg. V druhém grafu je porovnávána nejvyšší kvalita komprimovaného zvuku s průměrným tokem 256 kbps. Je zřetelný rozdíl mezi 256 kbps ABR a vyššími frekvencemi. Zvuk je o něco ostřejší. Výrazný rozdíl u oggu 350 kbps je daný právě vyšším datovým tokem, LAME a vlastně i celý mp3 zvládá maximálně 320 kbps. Z obou grafů tedy jasně vyplývá, že mezi 256 a 320/350 kbps není takový rozdíl. Oba formáty jsou si velice blízko, a dá se konstatovat, že jsou kvalitativně identické. Pokud se tedy člověk rozhoduje mezi těmito dvěma formáty a jde mu především o kvalitu a současně o kompatibilitu, přikláním se na stranu mp3. Co se týče komprese vyšší a kvality nižší, vlastně nejnižší poslouchatelné, ogg se snaží podávat dobrý výkon především ve výškách nad 16 kHz. Při porovnávání ve sluchátkách zněl ogg příjemněji. Trend je zde podobný případu vyššího datového toku. Ogg je specialista na výšky a hloubky, LAME umí středy. Tato minianalýza se dotýká jen výsledku sonogramu. Při porovnávání poslechem se v toku nad 256 kbps nevyskytují žádné rozdíly. Pokud hovoříme o 128 kbps, je lepší vybrat ogg, zní přirozeněji.

Závěr

Má tedy komprese v hudbě budoucnost? A je to budoucnost jen pro spotřebitele, nebo usnadní práci a ušetří peníze i hudebníkům? Ani odborná veřejnost v tomto ohledu není zajedno. Profesionální aplikace (Nuendo, Samplitude) s nimi ochotně pracují a moderní zařízení jako například GNX (BNX) 3 od Digitecha (testované na stránkách Muzikusu) či Korg PXR4 prostřednictvím mp3 usnadňují život a tvorbu. Rozhodnutí, jestli je budete využívat, je jen a pouze na vás.

Jaroslav Suchánek (zvukař)

Pamatujete si, kdy jste se poprvé setkal s mp3?

V roce 1999 jsem četl článek, kde se tvrdilo, že to je dobré. Vyrobil jsem si pár svých oblíbených nahrávek v mp3. Jinak empétrojky moc neposlouchám.

Kvalita vás tedy moc nepřesvědčila.

Něco jiného je dneska, a před čtyřmi lety, kdy se to dalo poslouchat jen z kompjůtru. Dneska ale už existují DVD přehrávače, které umí i mp3, a v případě kvalitní aparatury si myslím, že kvalitně komprimovaný zvuk v domácím prostředí vyhovuje.

Poznáte po sluchu komprimovanou nahrávku?

Poznám, ale záleží na tom, jaká to je nahrávka. Musí to být styl mě blízký a nahrávka, kterou znám. Rozdíly poznám hlavně v dynamice a i při nejnižší kvalitě komprimovaného zvuku.

Používáte mp3 ve studiu? Používal byste kompresi, pokud by to umožňovalo vybavení?

MP3 ve studiu nepožívám. Komprese mě obere o to, co jsem nasnímal kvalitní technikou ve studiu. Kompresi použiji jen v krajním případě, kdy je potřeba poslat vzorek někomu mailem.

Ondřej Soukup (skladatel)

Posloucháte, nebo archivujete hudbu v mp3?

Jen velice okrajově. Nemám na to přehrávač a hlavně mp3 zase tolik nepotřebuji a kašlu na to, chci cédéčka a ne mp3. Je to asi jen o mé pohodlnosti.

Co kvalita? Rozeznáte poslechem skladbu v mp3?

Myslím, že podobné starosti mají jen magoři hifisté, kteří potřebují slyšet každé cinknutí. Když je dobrá nahrávka, komprese ji přeci zase tolik poškodit nemůže. Podívejte se, co nám lezlo ještě před pár lety z gramofonů.

Co použití mp3 při nahrávání?

Ne, používám je jen jako pracovní formát. Když například dělám hudbu k reklamě a agentura ji okamžitě potřebuje, tak jim jí pošlu samozřejmě jako mp3. Občas mi někdo pošle v tomto formátu demo snímek. Mp3 je pro spotřebitele, 200 hodin hudby se vejde do krabičky od sirek - ideální stav.

Jan P. Muchow (skladatel)

Používáte mp3?

Ano, mp3 používám dost. Nedá se říci, že bychom používali komprimované audio přímo v procesu tvorby. Hodně využívám komprimace například u remixů. Často je potřeba, aby si je poslechlo více lidí. Je pak jednodušší poslat malý soubor třeba mailem než stopu na CD poštou. Když je ale možnost bezproblémového předání CD, má před mp3 klasické audio na CD přednost. Pro posluchače přidáváme stopy v mp3 na naše alba. Posluchač si pak může se zvukem sám doma pohrát.

Rozeznáte poslechem komprimované audio od nekomprimovaného?

Většinu rozeznám. Většina lidí si u komprimace s výslednou kvalitou zvuku dnes moc hlavu neláme. Pokud je ale komprese dostatečně kvalitní, rozdíl asi nepoznám.

Myslíte si, že jednoho dne nahradí pokračovatelé mp3 klasická CD?

Určitě, už dneska je silná komunita uživatelů přenosných přehrávačů jako Apple iPod.

Má mp3 místo i při nahrávání ve studiu?

Určitě má. Záleží jen na kvalitě komprese. Například u výše zmíněných remixů je mp3 ideální formát.

Protipirátské systémy a technologie ochrany autorských práv

Watermarking (ukládání identifikačních bitů)

Základní technologií ochrany autorských práv je tzv. watermarking (používání "vodoznaku", pozn. autora). Stejně jako vodoznaky v bankovkách a na úředních listinách, je do skladby zapracováno několik bitů, které neovlivní zvuk samotné skladby a jsou stejně jako u bankovek rozeznatelné přehrávačům a vypalovacímu software. Postupem času se objevilo několik základních pravidel, jak by měl vodoznak v nahrávkách vypadat. V první řadě nesmí nijak ovlivnit zvuk skladby. Potom musí být přítomen v celé skladbě a každém vzorku. Kdyby tomu tak nebylo, a vodoznak by byl pouze například na začátku či uprostřed skladby, stačilo by celý označený úsek ze skladby "vystřihnout". Vodoznak také nesmí být příliš veliký, aby významně nezvětšil velikost komprimované skladby. Zpracování a proces hledání vodoznaku při přehrávání nesmí být náročný na výpočetní výkon. Zde se nejedná o problém PC, do segmentu komprimovaných nahrávek vstupují přenosná zařízení, která nedisponují tak výkonnými procesory jako osobní počítače. Standardizací watermarkingu se dlouhodobě zabývá Secure Digital Music Initiative (SDMI) (www.sdmi.org), fórum, složené ze stovek zainteresovaných subjektů. Zatím neexistuje obecný standard, jak optimálně a efektivně spravovat oprávněnost manipulace se zvukovými soubory.

DRM (Digital Rights Management)

Ochrana jednotlivých zvukových souborů, aktivnější než watermarking, je DRM. Je to snaha ovládat způsob používání a manipulaci se souborem pomocí různých omezení. Součástí DRM jsou snahy o systém protipirátské ochrany, tedy omezení kopírování souborů, a to pomocí šifrování. Jedním z hlavních podmínek je dohoda všech zainteresovaných subjektů na jednom standardu, který pak bude všemi, stejně jako dnes standard Audio CD (CD-DA), nabízen koncovému uživateli. Podle teorií by měl systém fungovat asi tak, že vydavatel při kompresi skladbu zašifruje. Po koupi uživatelem (jenž si nekupuje skladbu, ale právo s ní manipulovat) může být nahrávka ovládána pouze pomocí software, který ji dokáže dešifrovat a současně monitorovat, zda došlo ke kopírování, k vypálení skladby na CD či jejímu poslání emailem. Všechny tyto typy činností jsou posléze uloženy buď jako součást samotné skladby (aby byly k dispozici přehrávači při příštím použití), nebo je vytvořen internetový účet, kterého se ovládací software pokaždé zeptá, jak se skladbou může uživatel naložit. Současný stav DRM je asi takový, že v kopírování a sdílení skladeb zabrání jen extrapoctivému uživateli s nulovými technickými znalostmi.

Psáno pro časopis Muzikus

1/2004

Tagy

elektronika