Nebojte se funkcí v DAW - Co vše jde se zvukem ve světě nul a jedniček...
DAW
Převod z audio na MIDI
Díl 1/2
Jeden z častých dotazů v souvislosti s hudebním softwarem zní: „Jak mohu nahrávku (nejčastěji mp3) převést do MIDI?“ Existují tři odpovědi a všechny, ač jsou různé, mají pravdu. Všechny tři odpovědi si rozdělíme do dvou dílů našeho seriálu. A navíc začneme odpovědí nejvíce pesimistickou a budeme se přesouvat k optimističtějším, abyste se měli na co těšit.
Odpověď první
První, jednoduchá odpověď zní: „Nejde to!“ Na této odpovědi je velký kus pravdy. Uživatel s podobným dotazem si obvykle představuje, že soubor ve formátu mp3 jednoduše nechá zpracovat určitým procesem (algoritmem), jehož výsledkem bude hotový MIDI soubor, ideálně s vybranými zvuky nástrojů, které budou nejpodobnější zvukům v originále (pomocí MIDI kontrolérů), skladba bude rovnou v podstatě smíchaná (budou nastaveny poměry hlasitostí jednotlivých MIDI stop) apod. Toto skutečně zatím možné není a asi ještě dlouho nebude.
Většina softwarů, které se o převod ze zvukového signálu na MIDI data dnes pokoušejí, pracují pouze s monofonním (tedy jednohlasým) signálem. Tyto algoritmy bývají obvykle optimalizovány pro lidský hlas, respektive zpěv, protože právě ten chtějí uživatelé v nejčastějších případech převést na MIDI data. Zároveň se ale jedná o jeden z nejtěžších úkolů převodu z audio na MIDI. Lidstvo je na svůj jedinečný komunikační prostředek, kterým se zásadně liší od zvířat, velmi citlivé a zvyklé. Lidské ucho (a mozek) je nastaveno tak, že je nejcitlivější na frekvence, které jsou pro řeč nejdůležitější. I sebemenší odchylky od „normální řeči” lidské ucho pozná. Takže pro člověka je analýza zpěvu jedním z nejsnazších úkolů a o to větší očekávání má od počítače. Navíc je v lidské mluvě ale obsažena spousta rušivých jevů, které analýzu znesnadňují (především jsou to souhlásky).
V každém případě i v pozadí těchto (pouze monofonních) algoritmů pro analýzu probíhá velká matematika, lítají tam integrály, Fourierovy transformace a další věci, o kterých muzikant nechce ani slyšet. Výsledky převodů monofonních signálů na MIDI jsou více či méně úspěšné, a to v závislosti na algoritmu samotném, ale i v závislosti na kvalitě samotné nahrávky, rušení z okolí, technice zpěvu (nebo hry na nástroj) a dalších faktorech. V každém případě bych zde rád zmínil - a předešel tak případným zklamáním - že výsledek není v podstatě nikdy stoprocentní.
Ze signálu zpěvu lze analyzovat v podstatě pouze samohlásky. Souhlásky nemají konkrétní výšku tónu. Záleží tedy i na jazyku, kterým je nahrávka nazpívaná. Čím vyšší je v daném jazyku poměr samohlásek vůči souhláskám (a mimochodem, tyto jazyky jsou obecně lidmi považovány za libozvučnější a krásnější), tím bude analýza úspěšnější. Problemtické jsou samozřejmě začátky i konce jednotlivých tónů, a to (opět) i kvůli souhláskách. Software jednoduše neví, zda daná souhláska patří k tónu předchozímu nebo následujícímu.
Kritickým místem analýzy jsou glissanda, tóny záměrně (nebo nezáměrně) podladěné nebo nadladěné. Glissanda, velká vibrata, ale i různé ozdůbky a hlasové modifikace. S tím vším si sice dnešní algoritmy umějí nějak poradit (jsou schopny takový signál „tupě“ analyzovat), ale pokud se tento záznam převede do MIDI, najednou zjistíme, že tam vlastně nepatří. Řada softwarů si s těmito jevy umí během analýzy poradit. Lze například nastavit, že všechny tóny mají být automaticky zarovnány na nejbližší skutečný tón, vibrato má být ignorováno atd. Ale pak zase mohou nastat jiné nechtěnné efekty, jako je „přeskakování tónů“, třeba během glissanda, a to obvykle v naprosto nelogickém místě.
Řada DAW už má tuto funkci v sobě rovnou integrovanou. Pokud funkci integrovanou nemá, lze si vypomoci nástroji jiných výrobců. Špičkou v oboru (jak v tomto dílu zmíním několikrát) a leadrem na tomto poli je firma Celemony se svým prodktem Melodyne. Ten lze v DAW použít buď jako klasický plug-in (VST, AU, RTAS a AAX) nebo jej lze připojit přes ReWire rozhraní a nebo lze využít moderní nadstavby plug-inů ARA (pokud to umožňuje i vaše DAW). A nebo jej lze použít jako samostatně běžící aplikaci (stand-alone).
V příštím díle se podíváme na dvě optimističtější odpovědi na otázku převodu audiosignálu na MIDI data.