Dithering - z teorie zpracování digitálního záznamu

Dithering - z teorie zpracování digitálního záznam
Dithering - z teorie zpracování digitálního záznam

Podle anglicko-českého slovníku je význam slova dither 1. chvět se, 2. třást se, 3. kolísat, 4. váhat a 5. rozčileně přešlapovat. Ve zvukařském slovníku se ale slovo dithering používá v souvislosti s převodem digitálního signálu o vysokém rozlišení do nižšího, nejčastěji 16bitového CD formátu. Dithering je možné chápat obecně jako uložení zvukového souboru v nižším bitovém rozlišení nebo, a to je náš případ, jako speciální algoritmus převodu s potlačením nežádoucích jevů.

Dithering - z teorie zpracování digitálního záznam
Dithering - z teorie zpracování digitálního záznam

Formát digitálních audio dat

I když formát a způsob záznamu zvuku digitální cestou byl v časopise již nesčetněkrát popsán, určitě neuškodí malé opakování (nějak to do těch hlav přece musíme nasypat).

 

Zvuk se šíří vlněním určité hmoty, třeba vzduchu. Toto vlnění lze určitým způsobem zaznamenat, popřípadě záznam uměle vyrobit. Na rozdíl od analogového záznamu zvuku na magnetický pás, kdy jsou data absolutně kontinuální, je digitální záznam určitým výběrem některých bodů na spojité křivce. K pochopení nám stačí tužka a milimetrový papír. Když si na něj od ruky nakreslíte nějakou křivku, lze o ní říct, že se skládá z nekonečného počtu bodů - je kontinuální.

 

Chceme-li takovou křivku zapsat do digitální podoby, lze to provést zapsáním souřadnic, jimiž nakreslená křivka prochází. Říkáme tomu kvantování. Dokreslíme pouze počáteční čáry, od nichž se bude určovat vzdálenost. Hustota sítě je dána na vodorovné časové ose samplovací frekvencí - čím vyšší frekvence, tím hustší síť a lepší záznam vysokých kmitočtů. Používají se frekvence 44,1 kHz, 48 kHz, 88,2 kHz, 96 kHz a 192 kHz. Pro náš případ budeme uvažovat CD formát 44,1 kHz. Na svislé ose (amplituda) je hustota sítě dána počtem bitů, tj. počtem číslic binárního (dvojkového) čísla. Např. při použití osmibitového kvantování, kdy binární číslo může vypadat 01101101 (= 109 decimálně), bude maximální rozlišitelnost výchylky 256 hodnot. U 16bitového kvantování už bude mít síť hustotu 65 536 hodnot a u 24 bitů je to 16 777 216 hodnot. Takto hustá síť je už solidním základem pro profesionální zpracování zvuku. Čím vyšší je bitová hloubka, tím lepší je zaznamenaná dynamika audiosignálu.

 

Důvod převodu

 

na nižší rozlišení

U AD převodníků se v profesionálních studiích používá 24bitový převod, ale při editaci signálu v počítači je z důvodů vyšší přesnosti, dynamiky a nižšího zkreslení signál zpracováván 32bitově. Masteringové programy dokáží pracovat 64bitově a některé dokonce 128bitově (Prosoniq Dynasone)!

 

Jelikož výslednou hudbu budeme poslouchat na audiocédéčku ve formátu CD-DA (Compact Disc Digital Audio), které používá z komerčních důvodů 16bitovou hloubku, je nutno nějakým vhodným způsobem zredukovat počet bitů z 24 na 16. Pracovat od samého začátku v rozlišení 16 bitů by nebylo rozumné řešení, neboť bychom tím přišli o počáteční hodnotu dynamiky, potřebnou pro další kvalitní zpracování zvuku. Pokud by šlo jen o čistý záznam zvuku bez jakékoli další editace, je celý proces ditheringu zbytečný a byl by vhodnější přímý 16bitový záznam. Vše se tedy děje kvůli potřebě kvalitní editace zvuku - mixu a masteringu.

 

Analogie s obrazem

Možnosti ditheringu si nejprve ukážeme na podobnosti s obrazem, jelikož na fotografii je účinek na první pohled lépe vidět.

 

První černobílá fotografie má barevnou hloubku 8 bitů, to znamená, že obsahuje 256 odstínů šedi. Tuto fotografii budeme považovat za plnou barevnou hloubku (podobně, jako 24 bitů u zvuku).

 

Představme si, že z nějakých důvodů potřebujeme zmenšit počet barev v obrázku (podobně jako zmenšení bitové hloubky na 16 bitů u CD), a to na 4 barvy, v našem případě 4 stupně šedi. Tyto čtyři barvy se dají vyjádřit 2bitovým číslem. Po převodu z 8 na 2 bity bude obrázek vypadat takto:

 

Je vidět, že fotografie ztratila mnoho informací. Velmi se snížila prostorová hloubka a identifikace předmětu na fotografii je téměř na hranici rozeznání. Na dalším obrázku již vidíme podstatné zlepšení, hrníček už je prostorový a leží na rovné ploše. Přitom jde o stejný počet barev, tedy čtyři.

 

Tohoto zlepšení bylo dosaženo přimícháním šumu do obrázku před jeho převedením do 2 bitů. Obrázek má špatnou kvalitu, přesto je podstatně lepší, než obrázek bez šumu. Stačí jen trošku přivřít oči a obrázek je téměř shodný s jeho osmibitovým originálem.

 

A to je právě podstata ditheringu i u zvuku. Snížením bitové hloubky dojde k jeho poškození. Toto poškození lze zmírnit právě přimícháním šumu o velmi nízké úrovni před převodem do nižšího rozlišení. Zvuk sice částečně ztratí svoji původní dynamiku, ale zachová si prostorové a frekvenční vlastnosti.

 

Pokusy s jednoduchým signálem

Následky převodu čtyřiadvacetibitového audio vzorku na 16 bitů je nejlépe vyzkoušet na jednoduchém signálu o nízké intenzitě. Tak "destrukci" signálu nejen uvidíme, ale i dobře uslyšíme. V audio editoru, jako je SoundForge nebo WaveLab, nejprve vygenerujeme 24bitový vzorek o kmitočtu např. 1 kHz a úrovni kolem -60 dB (úroveň obálky 1 %, celková úroveň 10 %), samplovací frekvence 44,1 kHz. Na spektrálním analyzátoru uvidíte přesně tento čistý průběh:

 

Nyní si můžete vyzkoušet, jak bude takový vzorek vypadat, uložíme-li ho do 16bitového formátu. Jednoduše zvolte v editoru funkci Uložit jako... a uložte jej pod jiným názvem a ve vlastnostech souboru zvolte mono, 16 bitů a 44,1 kHz. Uložení bude okamžité, editor nebude vzorek nijak přepočítávat, odstraní pouze nejnižších 8 bitů z 24bitové informace. Vzorek bude degradován a výsledkem bude harmonické zkreslení, jemuž se odborně říká kvantizační chyba. Na analyzátoru je dobře vidět, a jestliže si připravíte vhodné podmínky pro poslech, pak i dobře uslyšíte.

 

Vhodnými poslechovými podmínkami je myšleno hlavně značné zesílení výstupu zvukové karty, která podporuje 24bitové přehrávání, povolení téhož rozlišení pro přehrávání v editačním softwaru, kvalitní reproduktory nebo lépe sluchátka a vypnutí všech systémových zvuků ve Windows (nechcete přece ohluchnout při kliknutí myší...). Kvantizační chybu je možné uslyšet i na 16bitové zvukovce, ale nebude zde možné porovnání z čistým 24bitovým vzorkem.

 

Ostré rozlámání spektra na vyšších kmitočtech je statické a je vnímáno spíše jako harmonické zkreslení než jako nějaký přidaný šum. Toto statické zkreslení je možné eliminovat právě přidáním šumu o velmi nízké úrovni - jen o malinko vyšší, než je úroveň zkresleného signálu.

 

Výsledkem je sice o něco vyšší hladina šumu, zato však daleko příjemnější pro ucho - spektrum už není statické a mění se v závislosti na náhodné složce šumu. Všimněte si také většího "rozvlnění" spektra na nižších středních kmitočtech - něco za něco. Aby šum nebyl v nahrávce slyšet, bylo vymyšleno vytvarování křivky šumu do takové podoby, že je pro lidské ucho méně nápadný. Náš sluch je nejcitlivější v oblastech spektra kolem 2 až 5 kHz, proto je zde šum potlačen a přesunut do vyšších kmitočtů. Zároveň není nutné přimíchávat šum v nižších pásmech, neboť tam je spíše na závadu a způsobí zkreslení. Tomuto vytvarování šumového signálu se říká noise shaping a existuje několik různých tvarů, které mohou být označeny jako Type 1, Type 2 a Type 3. Na obrázku už je vidět mnohem vyrovnanější křivka na nižších kmitočtech a přesun šumu z citlivého pásma 2 až 5 kHz do méně slyšitelných 16 až 18 kHz.

 

Na dalším obrázku s noise shaping Type 2 je navíc snížení šumu v oblasti velké citlivosti sluchu na směrovou lokalizaci - asi 12 až 13 kHz, ovšem za cenu podstatného zvýšení v oblasti nad 18 kHz.

 

Všechny tyto nevýhody a vedlejší nežádoucí účinky noise shapingu by měly být odstraněny v "revolučním" algoritmu firmy Apogee, který je známý jako dithering UV22. Upřímně řečeno, subjektivně lepší se mi jevil obyčejný noise shaping Type 1 s hladším a příjemnějším šumem a malinko menším zkreslením v nižším pásmu.

 

Už jen nepatrně malý rozdíl uvidíme a uslyšíme u podobného algoritmu UV22 HR, což je vylepšená a novější verze UV22.

 

Praktické použití

 

v masteringovém softwaru

Téměř všechny editační a masteringové programy mají v sobě zabudován alespoň jednoduchý dithering s několika tvary šumu. Například v programu WaveLab je možnost aplikace interního ditheringu přímo při vypalování CD prostou aktivací tlačítky pod Master faderem. Na výběr jsou zde dvě šumové křivky a tři typy noise shapingu. Bitovou hloubku použijete nejčastěji 16 bitů. Ovládání je jednoduché a nejde o žádnou podřadnou náhradu profesionálních aplikací. Pracuje spolehlivě, šum je velmi příjemný, křivky noise shapingu jsou dobře natvarovány.

 

V softwaru od firmy Steinberg se dnes s jistotou setkáte se zmíněným UV22 ditheringem, původně od firmy Apogee (nebo s jeho novější a údajně vylepšenou variantou UV22 HR). Jeho okno vypadá ještě jednodušeji. Tlačítky je možno zvolit normální nebo sníženou hladinu šumu, užitečným nápadem je možnost vypnutí šumu v mezerách mezi skladbami tlačítkem Autoblack.

 

Možnost ditheringu objevíte také v různých master plug-inech. Jako příklad vidíte okno programu iZotope Ozone, kde je navíc užitečný bit-meter pro kontrolu bitové hloubky, filter DC Offset pro filtraci stejnosměrného napětí a také vlastní noise shaping křivky MBIT+ s psychoakustickým maskováním šumu Psych5 a Psych9. Jde o propracovaný algoritmus s mnoha možnostmi nastavení a velmi dobrým výsledným zvukem. Možnost vypínání šumu v mezerách se zde aktivuje v zaškrtávacím políčku Auto-blanking.

 

Jako poslední příklad jsem vybral jednoduché okno Bounce s aktivací ditheringu v programu Emagic Logic. K dispozici jsou tři presety POW-r (Psychoacoustically Optimized Wordlenght Reduction). První je obyčejný dithering s minimalizací kvantizačního šumu, další dva jsou navíc s tvarováním a přesunem šumu do méně slyšitelných oblastí spektra. Jde opět o profesionální studiové algoritmy.

 

Kdy provádět dithering

Obecně lze říci, že dithering je třeba provádět vždy při převodu vyššího bitového rozlišení do nižšího. Nejčastější případ je převod 24bitového audio vzorku do 16bitového formátu CD. Častým omylem masteringových zvukařů je domněnka, že není třeba provádět dithering u 16bitových audio signálů. Většina editačních programů je minimálně 32bitová a při jakékoli aplikaci efektu, ale i při změně hlasitosti, fade-outu či mixu dvou nebo více "clipů" je zvukový soubor převeden a zpracováván v 32 bitech až do jeho uložení. 16bitový soubor bude přehráván jako 16bitový pouze v případě, kdy nebude aplikován žádný efekt nebo fade-out a Master Fader bude mít nastavenu hlasitost 0,00 dB, případně bude vyřazen z funkce.

 

Pro zjištění, jestli provádět dithering nebo ne, slouží již zmíněný měřič bitové hloubky Bit Resolution.

 

Je také důležité vědět, že dithering má smysl provést jen jednou (a to na konci celého řetězce audio editace) a že po jeho aplikaci už není možná jakákoli změna hlasitosti.

 

Závěrem

Když si vše vyzkoušíte na nějaké rockové písničce, zjistíte, že aplikací ditheringu (ve smyslu přidání a tvarování šumu) se zvuk změní jen minimálně. Máte pravdu, dithering se stane důležitým zejména u hudby, v níž jsou velké dynamické rozdíly, a kvantizační chyba bude slyšet pouze v nejtišších částech hudby. U klasické hudby a mluveného slova bude již dithering nutností.

 

A jestliže máte pocit, že jste se z článku nedověděli, jaké parametry ditheringu správně nastavit, je to tím, že veškeré nastavení je podřízeno sluchovému dojmu. Vybírejte z několika typů tvarů šumových křivek, až se vám výsledný zvuk bude zdát nejlepší. Přesto bych považoval za nejlepší řešení svěřit tuto operaci (a nejlépe celý mastering) zkušenému zvukaři.

 

Psáno pro časopis Muzikus