用「多重音高偵測」,記錄人耳辨識困難的合音
音高資訊除了表現於旋律以外,更是伴奏、和聲與對位結構中的基本資訊,也就是「和弦辨識 (chord recognition) 」與「多重音高偵測 (multi-pitch estimation, MPE) 」技術。
近年來多重音高偵測技術的發展重點,大多仍集中於西方古典音樂,因為此類音樂的資料庫相對完整,每種樂器的聲響型態較容易標準化,在分析樂曲時就相當便利。但因為西方古典音樂大多有完整樂譜,往往是最不需要這項技術輔助研究的。相反的,大量在缺乏譜例記載的傳唱民謠,需大量人力從事轉譜工作以方便判讀分析,多重音高偵測技術在此時便派上用場,並且能給予譜例之外更多的資訊。
以布農族的祈禱小米豐收歌 Pasibutbut,也就是著名的「八部合音」(註一)為例。為什麼稱之八部,據說是因為「泛音唱法」(註二),即一個人可以同時唱出兩個音高的聲音,除了唱出基音以外,還增強某一個高階泛音的能量。
但現今所看到音樂學家所整理的譜例,大多仍是記為四部,這是因為演唱的編制確實只有四個聲部:最高音、次高音、中音和低音。至於泛音唱法之下多出的聲部,有些人聽得出來,有些人則感知不到;且不同的錄音版本差很大,很難明確指出是哪八個聲部,各自音高為何。
蘇黎透過訊號的時頻圖 (spectrogram) 資料佐證,可以清楚看見泛音唱法的特徵:每一個聲部都在偶數的倍頻上產生更多能量。經過多重音高偵測 (即 CFP transcription result) ,去掉多倍頻的泛音,除了基音外,也很容易看見第一泛音(基音的二倍頻)的位置上有能量存在,顯示了新的音高成份,演算法呈現的結果證實了泛音唱法的存在。
藉由計算瞬時頻率的技術,也就是「多重音高偵測」,便能把每一個聲部的音高軌跡精準算出,將能協助民族音樂的採譜工作。
音樂視覺化!將視覺和聽覺同步表現
蘇黎團隊目前所研究的「多重音高偵測技術」,以適用於各種音樂訊號為目的,其能有效刻劃出每一種聲響結構,並且將聲響即時轉化成樂譜。
多重音高偵測技術不僅可以應用於民族音樂學等領域的採譜處理問題,它的即時處理以及視覺化能力,也能在教育、娛樂等應用領域中有龐大潛力,將複雜的演奏即時轉為視覺表現。
在聆聽音樂的同時建立視覺與聽覺的關聯,以增強對音樂元素如音高、和弦的認知,是豐盛音樂表演 (enriched music performance) 所努力的方向。