Digitalizace zvuku

Digitalizace zvuku - téma měsíce
Digitalizace zvuku - téma měsíce

Do pekel zatracovaná i do nebe vychvalovaná. Nikoho nemine. Šíleným tempem nabývá na funkcích. Řeč není o naší bývalé soudružce třídní, ale o digitalizaci zvuku.

Ta prokletá digitalizace. Je všude kolem nás. Co před třemi lety nebylo myslitelné, dneska zvládne jedna malá mašinka. Dělá z nás bohy a zároveň nás degraduje do role podřadných „stiskačů“ tlačítek. Je to magie...

 

Nevíme, jak to funguje. Malé černé součástky, propojené titěrnými obvody. Není nic vidět, slyšet ani cítit. Ten, kdo tohle vymyslel, musel bejt naprostej magor, říkáme si často. A přitom principy, na kterých jsou digitální mašinky založeny, bývají poměrně prosté.

 

V tomto tématu měsíce se pokusíme ukázat, jak to funguje uvnitř. Zkusíme vysvětlit, co znamenají pojmy ze světa digitálních přístrojů, k čemu jsou dobré některé technické parametry. Když si po přečtení budete schopni trochu blíže představit, jak to uvnitř pracuje, a budete se lépe orientovat při výběru své nové zvukové karty (anebo digitální přítelkyně), budeme spokojeni!

 

Proč vlastně?

Proč vlastně převádět analogový signál na digitální? Protože digitální nástroje mi dávají flexibilitu pro analogová zařízení naprosto nedosažitelnou. Protože jsou všude. Protože jsou levné... Takových protože můžeme vyjmenovat plno. Při tvůrčím procesu bychom si možná měli napřed spíše pokládat otázku, co vlastně chceme dělat, a teprve potom, jak. Digitální svět nabízí rychlou, snadnou a levnou manipulaci se zvukem. Je na nás, jestli nám to pomůže k realizaci našich snů.

Digitalizace zvuku - téma měsíce
Digitalizace zvuku - téma měsíce

Dneska už je digitální skoro všechno. Možná, že vstupuje do hry i kvantový vesmír. Koho by na začátku 19. století napadlo, že žijeme v realitě, kde není nic spojitého a kde ve skutečnosti vše probíhá ve skocích? Lidé jako Bohr, Schredinger, Pauli, Fermi dali našemu chápání a vnímání světa jiný rozměr.

 

Stejně tak nám jiný rozměr dala i digitální technika. Mobilní telefon, satelitní navigace, identifikační čip pro psa, film s Arnoldem v hlavní roli. To všechno jsou její děti a to všechno nám natrvalo změnilo život. Nemluvě o počítačích.

 

Muzikanti si všímají (kromě ženských) hlavně zvukových karet, virtuálních nástrojů, programů DAW, multiefektů a dalších vymožeností, které zvuk rozsekají na padrť a pak jej zase s láskou a péčí slepí dohromady. A tak se dostáváme k závěru, že otázka, co a jak chci s muzikou dělat, je asi zbytečná. Kabely jsou zapojeny, karta svítí a kontrolka harddisku problikává. Byli bychom blázni, pokud bychom nevyužili tu úžasnou svobodu při realizaci našich hudebních představ?

Zvykli jsme si na hodně. Na cédéčka, mp3 přehrávače, nahrávání muziky přes web, iPody a tak dále. A tak snad jediné, na co si zbývá zvyknout, je šílené tempo přibývání nových funkcí, převratných objevů a klesajících cen digitálních mašinek. Čtěme rychle, protože co platí dneska, může být zítra úplně jinak...

 

Zvuk

Začněme suchými pojmy. Žijeme v prostoru vyplněném molekulami vzduchu. Pokud se potápíme, jsme obklopeni molekulami vody. Molekuly vlivem okolního tepla neustále kmitají kolem své rovnovážné polohy. Toto kmitání se nazývá termické a ustává až při teplotě absolutní nuly (–273,15 °C).

 

Zvuk je vlnění šířící se elastickým kmitáním molekul. Pokud v místnosti zapnu zdroj zvuku (pustím třeba Sabbath Bloody Sabbath), membrána reproduktoru rozkmitá přilehlé molekuly. Ty přenáší kmitání (vzruch) postupně dále, až vyplní celý prostor. Náš sluch pak toto vlnění zpracuje jako hudbu. Tak to je zvuk.

 

Pro přenos zvukových vln nutně potřebujeme médium, ve kterém by se šířily. Takže ve vzduchoprázdnu si mp3 přehrávač nepustíme. Rychleji se přenáší v pevných látkách. Rychlost zvuku [v] je udávána vztahem (platí pro suchý vzduch):

 

v = 331,82 + 0,61·T [ms-1], kde T je teplota vzduchu ve stupních Celsia.

 

Je zřejmé, že vliv teploty nemá pro praktické užití velký význam, a proto si vystačíme s notoricky známou hodnotou 330 metrů za sekundu.

 

Lidský sluch

Tak jak to v té hlavě vlastně máme zařízené? Zvukový orgán se dělí na vnější, střední a vnitřní ucho. Vnější je jasné, to jsou ušní boltce. Přivádí zvukové vlny do zvukovodu a je na nich zajímavé snad jen to, že se ve středověku utínaly. Nás by mělo zajímat, že tvar boltců má vliv na to, co a jak slyšíme. Na obrázku vidíme graf citlivosti sluchu v rozsahu 360° kolem hlavy.

Zvuky přicházející zezadu vnímáme hůř než od zdroje po stranách. Navíc je citlivost sluchu závislá na frekvenci. Výšky, které se snadněji lámou a pohlcují na překážkách (dochází více k jejich útlumu při cestě k nám), mají rozdíly v grafu výraznější než basy.

Digitalizace zvuku
Digitalizace zvuku

Vliv boltců na naše vnímání si snadno můžeme vyzkoušet, když ze sebe uděláme čerta s odstávajícíma ušima. Měli bychom ostřeji slyšet zvuk přicházející zepředu, včetně většího podílu středů a výšek. Naopak zvuky z ostatních stran budou slyšet hůř. Z tohoto jednoduchého pokusu vidíme, že i taková prkotina, jako je tvar boltce, má vliv na naše vnímání hudby a zvuků obecně.

 

Vnější a střední ucho jsou od sebe odděleny bubínkem. Toto uspořádání nám kromě častého zánětu poslouží i tím, že odděluje sluchový orgán od okolí. Zajišťuje impedanční přizpůsobení sluchu a okolí. V tom je zaklíčován malý zázrak: slyšíme ve vzduchu i ve vodě.

 

Ve vnitřním uchu máme kolem dvacet tři tisíc nervových buněk (hudební kritici o něco méně). Ty vypadají jako malé struny s různými délkami, napnuté rozdílnými silami. Slouží ke kmitočtové analýze zvuku a k jeho přeměně na nervové vzruchy. Co se pak s touto informací děje dále v mozku, necháme bez odpovědi. Stejně to nikdo pořádně neví...

Frekvence

Už jsme zmínili, že vnímání hlasitosti je do značné míry závislé na frekvenci zvuku. Ženský křik nemusí mít nutně vyšší hladinu akustického tlaku než vaše odpověď. Přesto se zařízne do hlavy právě proto, že se nese na těch správných frekvencích. Popsaná závislost byla mnohokrát měřena pokusně. Dobrovolník (alias pokusný králík), měl určit, zda po sobě jdoucí zvuky jsou stejně hlasité; stiskl tlačítko apod. Toto měření se provádělo pro různé frekvence, generované s různou hladinou akustického tlaku. S jistotou dnes víme jen to, že pokaždé skončilo s rozdílnými výsledky od všech předchozích. Prostě – je to silně subjektivní. Vztah mezi naším vnímáním hlasitosti a silou vnějšího vzruchu je popsán Fechner-Weberovým zákonem. Ale realita se odklání od exaktních rovnic. Pomáháme si tedy grafickým vyjádřením, tzv. Fletcher-Munsonovými křivkami.

Digitalizace zvuku
Digitalizace zvuku

Je poměrně snadné je nakreslit, protože nápadně připomínají profil prsaté ženy skákající do vody. A je také snadné se v nich orientovat. Každá křivka ukazuje, jak velkou hladinu akustického tlaku musí zvuk mít pro tu kterou frekvenci, abychom jej stále vnímali se stejnou hlasitostí. Jinými slovy, jak musíme otáčet knoflíkem volume pro různé tóny, aby se nám všechny zdály stejně hlasité.

 

Maskování

Nejen vojáci z povolání vědí svoje o maskování. Maskováním nazýváme vlastnost lidského sluchu, kdy vnímání zvuku je potlačeno jiným, většinou hlasitějším, znějícím v blízkém frekvenčním pásmu. Jemné údery tympánu zaniknou při nástupu tělesa symfonického orchestru. Hovor na ulici je maskován okolním ruchem. Výkřik zpěváka na zlomek vteřiny přehluší celou kapelu.

 

Principiálně dochází k tomu, že jsou-li určité nervové buňky podrážděné zvukem odpovídajícím „jejich“ frekvenci, nedokážou vnímat/rozpoznat zvuky v podobném frekvenčním pásmu, pokud mají nižší intenzitu. Kdy a v které situaci k maskování dojde, závisí na mnoha parametrech. Významná je doba trvání signálů, jejich časový odstup, šířka frekvenčního pásma atd.

Uvedené závislosti jsou detailně popsány. Díky tomu umíme určit, kterou složku záznamu nebudeme vlivem maskování vnímat. Bylo také zjištěno, že k maskování dochází, i když oba zvuky neznějí současně. Pokud jsou krátké a mají dobu trvání kratší než 200 ms, dochází k maskování, je-li jejich odstup nejvíce 5 ms. Pro déle trvající signály musí být jejich odstup maximálně 10 ms. Pokud je zpoždění větší, vliv maskování slábne, až se nakonec přestane projevovat při hodnotách okolo 200 ms.

 

Kde se toho využívá? Téměř všude! Třeba  převod zvuku do formátu mp3 je z velké míry založen na maskování. Objem ukládaných dat je výrazně zmenšen nejen kompresními algoritmy, ale právě díky lišáckému využití popsané nedokonalosti lidského ucha.

Citlivost

Co se týče citlivosti lidských orgánů, jasně dominuje lidský zrak. Jeho rozsah vnímání intenzity světla je fantastický. Ale ani sluch se nemá za co stydět. Jako netopýr sice neslyšíme, zato naše spodní hranice vnímání má velmi blízko k termálnímu šumu. Nejmenší výchylka bubínku, kterou vnímáme jako zvuk, je v řádu 9 [mm], což je jen o něco nad amplitudou kmitání molekul.

Už víme, že citlivost sluchu je značně závislá na frekvenci zvuku. Nejvíce citliví bychom měli být v pásmu mezi 1 a 5 kHz, podle některých pramenů 1–3 kHz. Při vyšších úrovních hlasitosti se tato závislost zmenšuje, až úplně mizí při dosažení prahu hmatového vjemu (120 dB). Vnímání různé intenzity je uvedeno ve sloupku. Velryby jsou o krok před námi a dorozumívají se zvuky s intenzitou kolem 160 dB.

 

Frekvenční rozsah je standardně uváděn 50 až 20 000 Hz. Podle některých zdrojů novorozenci vnímají zvuk až o dvojnásobné frekvenci. Platí, že s věkem se citlivost na vyšší frekvence snižuje, stejně jako častým pobytem v hlučném prostředí. Pokud budete mít někdy možnost, vyzkoušejte, jak na tom jste! Možná budete překvapeni. Samozřejmě nemile...

 

Nedokonalost sluchu

Abychom obelstili oko a viděli pohyblivý film, stačí zobrazovat statické obrázky rychlostí dvacet pět snímků za vteřinu. Využíváme setrvačnost zraku. Abychom na plátně viděli 3D svět, stačí si nasadit brýle s červeným a modrým sklíčkem (schválně zapomínáme na speciální kameru a kinosál). Zrak vnímá vlnovou délku světla a díky barevným filtrům na našem nose získáme iluzi trojrozměrného světa.

I sluch má své hranice, své nedokonalosti. Pokud znějí dva zvuky dostatečně rychle za sebou, díky setrvačnosti ucha je nedokážeme odlišit a slyšíme je jako jeden. Signály začínáme vnímat odděleně až při jejich vzájemném zpoždění zhruba 20 až 50 ms. Závisí to mimo jiné opět na frekvenci. Proto je u kvalitních multiefektů možné nastavit zpoždění už od 10 ms. Jako hodnota, kdy nám dva zvuky bezpečně splynou do jednoho, se uvádí 5 ms.

Na rozdíl od zraku, ucho neumí vnímat fázový posun. Akord vždy vnímáme stejně a nezáleží na tom, v jakém pořadí tóny zahraji. Na osciloskopu vidím pokaždé jinou křivku, ale naše ucho slyší správně: je to pořád tentýž akord.

 

AD/DA převodníky obecně

Dosud jsme se zabývali snadno představitelnými věcmi. Takového hlemýžďě nebo kovadlinku jsme už každý viděli nejméně tucetkrát. Vody digitalizace zvuku jsou však kalnější, mnohem hůře je zde dohlédnout na dno. Proto funkci analogově/digitálního (AD) převodníku popíšeme nejprve obecně a na technické detaily se podíváme později.

Digitalizace zvuku
Digitalizace zvuku

Co je to zvuk, víme. Proč jej převést do digitální formy, víme také. Takže jak to vlastně šlape?

Úplně stejně jako filmová kamera s klasickým filmem. V ní je pohyb herců převáděn na velké množství statických obrázků. Digitální kamera se liší jen tím, že snímky digitalizuje (převede na něco jako jpg), udělá z obrázků čísla.

 

Když jsou tyto snímky zobrazovány dostatečně rychle, vidíme plynulý pohyb.

Digitalizace zvuku
Digitalizace zvuku

AD převodník nedělá nic jiného. Rozseká snímanou hudbu, třeba signál z mikrofonu, v čase na malé nudličky. Potom u každé z nich určí, jak je veliká, a přiřadí jí číslo. A to je celá digitalizace zvuku!

 

Ted se koukněme na zpětný převod. Selský rozum nám napovídá, že DA převodník postupně čte uložená čísla a převádí je na elektrické impulzy, které jdou na vstup zesilovače. Do našeho ucha by tak vlastně záznam přicházel v podobě velmi krátkých kousíčků zvuku. A jenom díky setrvačnosti sluchu bychom jej vnímali jako souvislou hudbu.

Digitalizace zvuku
Digitalizace zvuku

Selský rozum se sice nemýlí, ale v praxi to funguje jinak. DA převodník totiž obsahuje tzv. integrační člen, který sčítá (integruje) jednotlivé impulzy a převádí je na kontinuální signál. Dále provádí převzorkování, viz dále. A konečně, v cestě mezi DA převodníkem a naším uchem stojí zesilovač, reproduktor a vzduch. Každá z těchto komponent je sama o sobě nedokonalá: Reproduktor, molekuly vzduchu, elektrické součástky. Také mají setrvačnost, zkreslují, jsou teplotně závislé. A díky tomu všemu k nám muzika nepřichází jako „sekaná“, ale jako zvukové vlnění velmi podobné tomu, které bylo na začátku řetězce.

 

Převodníky pod lupou

Na obrázku vidíme blokové schéma AD/DA převodníku. Na začátku je dolní propust, která potlačí frekvence nad 20 kHz. Proč tu musí být, vysvětluje Nyquistův teorém. Vzorkováním signál rozdělíme na jednotlivé vzorky a při kvantizaci jsou převedeny na čísla v binárním tvaru. Digitální signál je pak zpracován procesorem (DSP, DAW...). Nakonec je digitální signál převeden zpátky na analogový a ošetřen dolní propustí

 

Vzorkování

V principu můžeme signál vzorkovat dvěma způsoby: klíčováním nebo impulzní modulací. Jaký je mezi nimi rozdíl, je patrné z obrázku.

Digitalizace zvuku
Digitalizace zvuku

Různé druhy vzorkování signálu

Při klíčování necháme procházet signál přes bránu, která se otevírá a zavírá podle taktu hodin. Špička impulzů je nepravidelná, kopíruje vstupní signál. Impulzní modulace nahradí signál krátkými impulzy (to je ale překvapení :-), jejichž amplituda odpovídá úrovni kvantovaného signálu. Úroveň impulzů (šířka a opakovací perioda) je vždy konstantní po celou kvantizační dobu.

Digitalizace zvuku
Digitalizace zvuku

První přístup je technicky snáze realizovatelný a po kvantizaci dosáhneme menší chyby. U druhého musíme do systému přidat generátor impulzů, ale díky „učesanému“ tvaru signálů máme méně práce při vlastní kvantizaci. Oba přístupy mají v praxi své místo.

 

Někdy se můžeme setkat s tzv. ideálním vzorkováním, které předpokládá, že doba vzorkování je nekonečně krátká. Jeho výstupem jsou ideální impulzy, s jednoznačně určenou amplitudou. Takový přístup je vhodný při provádění výpočtů a odvozování (kdy lze lecos zanedbat...).

 

Kvantizace

Při kvantizaci je vzorkovanému signálu přiřazeno číslo odpovídající amplitudě.

 

Z obrázku je patrné, že kvantovaný signál může mít nejednoznačnou úroveň, pokud se během jeho trvání amplituda mění. Tím, že mu přiřazujeme pouze jedno číslo, musí nutně dojít k chybě, kterou nazýváme kvantizační. Tato chyba má za následek přítomnost tzv. kvantizačního šumu ve výsledném signálu. Pokud není převodník vhodně navržen, může být přítomnost kvantizačního šumu velmi problematická.

 

Popsaná chyba je jednou z hlavních nevýhod principu převodu AD. Ale nevěšme hlavu, existuje několik metod, jak jí potlačit. Ty jsou popsány dále.

 

AD převodník, praxe

Paralelní převodník A/D

Na obrázku je jednoduché zapojení paralelního AD převodníku s váhovými rezistory. V praxi jimi dosahujeme maximální vzorkovací frekvence asi 1 GHz. Najdeme je v lékařství, při zpracování zvuku nebo v osciloskopech.

 

Odporový dělič (žebřík, váhy) rovnoměrně rozdělí referenční napětí mezi operační zesilovače a je připojen na jejich invertující vstup. Na neinvertující vstup OZ je v každém cyklu přivedeno vstupní napětí, tedy signál určený ke zpracování. Operační zesilovače pracují jako komparátory, takže pokud je signál vyšší než váhová část referenčního napětí, bude výstupem tohoto bitu logická „1“. Pokud je menší, dostanu logickou „0“. Výstupem každého taktu je tedy jedno slovo o N bitech.

 

Podobně lze s váhovými rezistory realizovat DA převodník.

Při realizaci využíváme bipolární tranzistory, ECL či logiku TTL.

 

DA převodník, praxe

Při realizaci AD/DA se často využívají spínané kondenzátory. Uvedené zapojení DA se nazývá převodník SC s váhováním nábojů. Jeho činnost je rozdělena do dvou cyklů.

Spínače na levé straně odpovídají jednotlivým bitům datového slova. Kondenzátor nad operačním zesilovačem pracuje jako integrátor a sčítá jejich váhované náboje. V prvním cyklu se kondenzátory vybijí (vynulují). Následně se sepnou ty spínače, jejichž bit je „1“. Tím dojde k nabití příslušných kondenzátorů a ke sčítání jejich nábojů na integrátoru. Na výstupu OZ se objeví výstupní napětí.

 

Podobně lze se spínanými kondenzátory realizovat i AD převodník.

 

Sigma-delta převodník

Dosud jsme se věnovali vícebitovým převodníkům. Při zlepšování jejich parametrů už narážíme na samou mez technické realizace (rychlost, bitová hloubka ad.). Proto si velkou popularitu získala jednobitový převodník využívající AD sigma-delta modulaci, někdy značená jako σ∆ nebo modulace. Je postavena na odlišném přístupu k problému než klasický převodník. Nevnímá signál jako celek (absolutně), ale hlídá změnu mezi dvěma po sobě jdoucími vzorky. Periodicky kontroluje amplitudu signálu, zda je jeho aktuální hodnota větší nebo menší oproti předchozímu stavu. Tuto změnu pak převádí na nuly a jedničky.

Digitalizace zvuku
Digitalizace zvuku
Digitalizace zvuku
Digitalizace zvuku

Sigma delta převodník má pouze dva stavy: „–1“ a „1“. Mínus jedna je reprezentována „0“, plus jedna pak „1“. Na jeho výstupu tak napětí neustále kmitá nahoru dolů jako pominutá kybernetická myška.

 

Vstupní signál a jeho převod Sigma-delta modulací

Na obrázku je ukázka vstupního signálu a jeho reprezentaci převodníkem. Zásadní výhodou je snížení kvantizačního šumu a lepší poměr S/N než klasický převodník. A nevýhoda je patrná na první pohled: Nutnost mnohem vyšší vzorkovací frekvence než u klasického AD. Pokud by tomu tak nebylo, neuměl by zachytit rychlé změny signálu. Proto se vzorkovací frekvence u sigma-delta modulace pohybuje řádově kolem MHz. Ale  to už není zas tak nic mimořádného.

Digitalizace zvuku
Digitalizace zvuku

Realizace

Abychom jedním sigma-delta převodníkem dosáhli stejných vlastností, jako má šestnáctibitový převodník, musela by být vzorkovací frekvence asi 200 MHz. Proto se praxi využívá zapojení s více sigma-delta převodníky najednou. Jsou zapojené semiparalelně a označujeme je jako převodníky signálu s vícenásobným tvarování šumu. Díky tomu lze například při zapojení tří stabilních sigma-delta převodníků (SDK konvertory) dosáhnout hodnot šestnáctibitového převodníku už vzorkovací frekvencí 2 MHz. Aby bylo vylepšení AD/DA kompletní, je v obvodu zařazen blok zajišťující převzorkování.

 

Jako součástková základna se díky rychlosti a vhodným vlastnostem opět uplatňují spínané kondenzátory a technologie CMOS.

 

Blokové schéma

Blokové schéma sigma-delta převodníku je na obrázku. Ze součtového článku vychází malé hodnoty napětí, úměrné kvantizačnímu kroku. Mohou být buď kladné nebo záporné (nezapomeňme, že nula je kladné číslo). Integrátor je sčítá s hodnotou zaznamenanou v předchozím cyklu. Postupně se tak na něm buď zvyšuje nebo snižuje zaznamenané napětí. Jako když stavím věž z kostek, a v každém kroku musím přidat nebo odebrat kostku. V závislosti na této změně generuje jednobitový AD převodník logickou „1“ (roste) nebo „0“ (klesá). Zároveň se hodnota uložená v integrátoru posílá na záporný vstup do sigma článku.

Technická realizace integrátoru se provádí zpožďovacím článkem.

 

Na vstup součtového členu přichází vlastní signál s kladným znaménkem a jeho opožděná hodnota se záporným znaménkem. Doba tohoto zpoždění je úměrná vzorkovací frekvenci. Rozdíl obou signálů jde do komparátoru napětí. Za ním je decimátor, který skládá sériový tok nul a jedniček do slov o N bitech.

 

Parametry převodníků

Protože hovoříme o zvuku, uvažujeme vstupní signály v rozsahu 50 Hz až 20 kHz. Požadovaná dynamika signálu by měla být kolem 100 dB. Vzorkovací frekvence by pak podle Nyquistova teorému měla být alespoň 40 kHz (dvojnásobek nejvyšší přenášené).

 

Hlavními parametry AD/DA převodníků jsou vzorkovací frekvence a bitová hloubka. Vzorkovací frekvence říká, jak rychle umíme zvuk rozsekat (na kolik nudliček v čase). Standard CD pracuje s 44,1 kHz, tedy vytvoří 44 100 vzorků za sekundu. Tím dojde k pokrytí celého slyšitelného pásma.

 

Bitová hloubka udává, jak přesně dovedeme rozsekané vzorky změřit (jejich amplitudu). Standardně se využívá 16 bitů, což odpovídá 98 dB. Tichu tedy přiřadíme nulu a nejhlasitější zvuk, který převodník dovede zpracovat, je číselně vyjádřen hodnotou 216 = 65 536.

S trochou nadsázky lze tedy říci, že pokud budeme generovat náhodná čísla v rozsahu 0–65 536 a posílat je rychlostí 44 100 vzorků za vteřinu do zesilovače, uslyšíme nahrávku ve studiové kvalitě. Jak by to asi mohlo znít, si hravě představíme při poslechu některých popových hitů, hraných z komerčních rádiích...

 

Odstup S/N

 

Kvalita převodníků je z velké míry dána odstupem signálu od šumu. Je vyjádřen parametrem S/N (Signal/Noise). Udává dynamický rozsah mezi šumem a užitečným signálem. Říká, jak velkou dynamiku může mít vstupní signál. Je ovlivněn na úrovni kvantizačního šumu, přičemž u vícebitových převodníků je tento šum závislý na vlastnostech vstupního signálu. U sigma-delta modulace tato závislost není.

 

Pro harmonický signál jej můžeme spočítat podle odvozeného vztahu:

 

S/N = 6,02 n + 1,76 [dB], kde n je počet bitů převodníku

 

Pro řeč či hudbu byl empiricky zjištěn méně optimistický vztah:

 

S/N = 6,02 n + 1,25 [dB]

 

Obecně tak můžeme říci, že každý bit navíc nám přinese zlepšení odstupu S/N o cca 6 dB, viz tabulka.

Například šestnáctibitový převodník má teoreticky odstup S/N roven 98 dB. V praxi je tento poměr o něco horší, asi 96 dB.

Je logické, že poměr S/N se zhoršuje, pokud nevyužíváme co největší dynamický rozsah převodníku. Proto bychom měli před nahráváním minimálně věnovat určité úsilí nastavení vstupní úrovně.

 

Zlepšení S/N

Cílem vývojářů je snížení kvantizačního šumu převodníků a zlepšení S/N. V praxi se používá několik přístupů nebo jejich kombinace.

 

Za nejlogičtější krok lze považovat zvyšování počtu bitů převodníku. Tento postup naráží na technické meze použitých součástek a také na to, že s vyšším počtem použitých bitů musí být nutně vylepšeny i vnitřní obvody celého zařízení: DSP, datová sběrnice apod. To má negativní vliv na náklady výroby takového zařízení. Prostě to bude pekelně drahé.

Další možností je tzv. nelineární kvantizace. Ta vychází z předpokladu, že úroveň signálu (hlasitost) je jen zřídka na nejvyšší úrovni, ale častěji se pohybuje na středních a nižších hodnotách. Z toho vyplývá myšlenka zjemnit kvantování pro rozsah, kde se signál nachází častěji, na úkor méně využívaného pásma.

 

Nelineární a lineární kvantování

Jiný postup využívá doplnění řetězce převodníku o řízený zesilovač. Ten má zesílení nastavitelné jenom v několika málo krocích, řekněme 1x, 10x a 100x. Jeho ovládání zajišťuje vlastní AD převodník. Při nastavení na „1x“ nedochází k žádné změně. Signál do obvodu vstupuje se stejnou úrovní, jako kdyby řízený zesilovač nebyl zapojen. Jakmile je detekován slabý signál, zesílení se mění na 10x nebo na 100x. Tím dosáhneme stejného efektu, jako když si na čtení vezmeme brýle (10x) nebo lupu (100x). Slabý signál je zesílen (takže jsou zesíleny i jeho změny), detekce je přesnější. Zesilovač je umístěn hned za dolní propustí. V takovém zapojení z AD převodníku nevystupuje jenom digitální signál, ale také informace o nastavení zesilovače (opět v digitální formě). Zapojení se využívá u zvukových karet nebo měřicích desek.

 

Dalšího zlepšení dosáhneme zvýšením vzorkovací frekvence. Teoreticky by mělo mít každé zdvojnásobení frekvence stejný vliv jako zvýšení počtu bitů o 0,5. V praxi je však dosažené zlepšení ještě o něco menší.

 

Zastavme se ještě u toho, proč u sigma-delta modulace dosahujeme menšího šumu. Pro přesné vysvětlení bychom museli pracovat se složitým matematickým aparátem, a proto si raději pomůžeme příměrem.

 

Představte si, že máte za úkol udělat koláč tak veliký, aby se přesně vešel na talíř. K dispozici máte malý plech na pečení (nízká vzorkovací frekvence fvz, klasický převodník), velký plech (vysoká fvz, sigma delta), dva stejně velké kusy těsta (šum) a dvě stejné porce jablečného pyré (vlastní zvuk). Komu jablka nejedou, může si představit švestková povidla. Na malém pekáči stačí těsto i pyré nanést rovnoměrně na celou plochu. Protože je přibližně stejně velký jako talíř, je úloha splněna. Ve druhém případě bude vrstva těsta podstatně tenčí, protože se rozteče na celou plochu pekáče. Zato pyré, kterého máme málo, dáme pouze na malou část koláče. Samozřejmě chceme, aby odpovídalo velikosti talíře. Zbylé těsto ponecháme bez jablek. Po upečení vykrojíme z plechu jen tu část koláče s náplní, odpovídající talíři.

Digitalizace zvuku
Digitalizace zvuku

Co ve výsledku dostaneme? Dva rozdílné koláče. Jablečného pyré (zvukového signálu) bude v obou případech stejně. Ale těsta (šumu) bude ve druhém případě méně, protože jsme jeho velkou část nechali ležet na plechu. Signál jsme odkrojili pomocí dolní propusti.

Principiálně jde o to, že šum je rozvrstven zhruba rovnoměrně v celém frekvenčním pásmu (0 až fvz). U klasického převodníku je to mezi 0–20 kHz, ale u sigma-delta třeba až do 2 MHz. Díky tomu se výkon šumu rozprostře na mnohem větší plochu. Přitom užitný signál leží jen v malé části jejího frekvenčního rozsahu. A protože na konci potravního řetězce stojí dolní propust, vyřízne se s užitným signálem menší porce šumu.

 

Převzorkování signálu

Jedná se o velmi důležitou metodu jak zlepšit odstup S/N. Převzorkování se využívá při převodu digitálního signálu zpátky na analogový a setkáme se s ním téměř ve všech audio aplikacích.

 

Snadno si představíme, že analogový signál na výstupu klasického DA převodníku je velmi kostrbatý. Jsou to vlastně různě vysoké obdélníčky spojené dohromady. Převzorkování signálu spočívá v tom, že mezi každé dva vzorky vložím jeden či více dalších, a to tak, aby se výstupní signál zjemnil a připomínal skutečnou analogovu křivku.

 

Techničtějším jazykem to není o nic složitější. Vstupní signál je nejprve digitalizován převodníkem se vzorkovací frekvencí fvz. Dochází k jeho zpracování v digitální mašině. A teď přijde změna: zpětný převod signálu na analogovou formu už není prováděn toutéž fvz, ale s vyšší frekvencí fvz DA , která je celistvým násobkem fvz. Na obrázku je ukázán případ, kdy máme fvz DA  trojnásobně vyšší než původní fvz. To ale znamená, že pro zpětné převedení digitálního signálu na analogový, musíme si vždy dva vzorky vymyslet. Protože prostě neexistují! V jazyce matematiky říkáme, že tyto vzorky interpolujeme. Pak stačí signál prohnat dolní propustí, a máme vyhráno.

 

Ač to zní trochu šamansky, tímto postupem získáme lepší odstup S/N, než kdybychom přímo na začátku použili vyšší vzorkovací frekvenci. Například u klasického CD využívá DA převodník frekvenci 352,8 kHz, což je osminásobek hodnoty 44,1 kHz.

 

Závěr

Téma měsíce se věnuje digitalizaci zvuku a souvisejícím oblastem. V tomto dílu jsme se zabývali zvukem, vlastnostmi lidského sluchu a konverzí AD/DA. Ukázali jsme různé principy převodníků a jejich praktickou realizaci. Zabývali jsme se odstupem signál/šum.

 

V dalším pokračování se budeme opět věnovat více oblastem najednou. Podíváme se na parametry skutečných přístrojů s AD/DA převodníky. Popíšeme, co se dá dělat se samotným digitálním signálem. Rozebereme analýzu, zpracování a záznam zvukových signálů. A protože se bavíme o digitalizaci zvuku, budou nás zajímat kompresní algoritmy. Tedy i jeho veličenstvo mp3.

 

Pokud vám článek alespoň trochu pomohl objasnit některé termíny z oblasti digitalizace zvuku, budeme spokojeni. Na mnohých místech se vědomě (nebo nevědomě :-) dopouštíme nepřesností za účelem větší srozumitelnosti textu. Některé pojmy, jako Nyquistův teorém jsme záměrně odbyli prostou definicí. Ale tak už to zkrátka chodí. Když se kácí les, létají třísky.¨

 

 

Při vysvětlování činností elektrotechnických součástek si často pomáháme veselými říkankami. Mezi studenty elektrotechnických škol je velmi populární poučka fázového posunu proudu a napětí v cívce: „S cívkou je to jako s dívkou. Nejdřív napětí a potom proud“.

 

LSB, MSB  Most Significant Bite, Last Significan Bite. Nejvýznamnější, respektive nejméně významný bit. Binární číslo je složeno z několika nul a jedniček. MSB ukazuje na první bit (hlavní bit, určující řád čísla) a LSB ukazuje na poslední bit (nejmenší část čísla). Neplést s LSD.

 

Víte, že existuje Ohmův akustický zákon? Podle něj vnímáme sluchem pouze čisté tóny a jejich harmonické. Složené tóny vnímáme zvlášť jako jednotlivé čisté tóny, takže nezáleží na jejich fázovém posunu. Přeloženo do češtiny, pokud hraji rozložený akord, je posluchači jedno, v jakém pořadí tóny zahraji. Přitom na osciloskopu bych vlivem sčítání signálů viděl úplně odlišné křivky.

Psáno pro časopis Muzikus