誰說人工智慧冷冰冰，絕對奏不出感動樂曲？中研院奇招訓練，結果讓所有人都驚艷-風傳媒

誰說人工智慧冷冰冰，絕對奏不出感動樂曲？中研院奇招訓練，結果讓所有人都驚艷

用「多重音高偵測」，記錄人耳辨識困難的合音

音高資訊除了表現於旋律以外，更是伴奏、和聲與對位結構中的基本資訊，也就是「和弦辨識 (chord recognition) 」與「多重音高偵測 (multi-pitch estimation, MPE) 」技術。

近年來多重音高偵測技術的發展重點，大多仍集中於西方古典音樂，因為此類音樂的資料庫相對完整，每種樂器的聲響型態較容易標準化，在分析樂曲時就相當便利。但因為西方古典音樂大多有完整樂譜，往往是最不需要這項技術輔助研究的。相反的，大量在缺乏譜例記載的傳唱民謠，需大量人力從事轉譜工作以方便判讀分析，多重音高偵測技術在此時便派上用場，並且能給予譜例之外更多的資訊。

以布農族的祈禱小米豐收歌 Pasibutbut，也就是著名的「八部合音」(註一)為例。為什麼稱之八部，據說是因為「泛音唱法」(註二)，即一個人可以同時唱出兩個音高的聲音，除了唱出基音以外，還增強某一個高階泛音的能量。

但現今所看到音樂學家所整理的譜例，大多仍是記為四部，這是因為演唱的編制確實只有四個聲部：最高音、次高音、中音和低音。至於泛音唱法之下多出的聲部，有些人聽得出來，有些人則感知不到；且不同的錄音版本差很大，很難明確指出是哪八個聲部，各自音高為何。

布農族 Pasibutbut 八部合音的時頻圖：橫軸代表時間，縱軸代表聲音的頻率，發亮的能量條則是聲音。（圖／蘇黎；聲音來源／臺灣音樂資訊交流平台，研之有物提供）

蘇黎透過訊號的時頻圖 (spectrogram) 資料佐證，可以清楚看見泛音唱法的特徵：每一個聲部都在偶數的倍頻上產生更多能量。經過多重音高偵測 (即 CFP transcription result) ，去掉多倍頻的泛音，除了基音外，也很容易看見第一泛音(基音的二倍頻)的位置上有能量存在，顯示了新的音高成份，演算法呈現的結果證實了泛音唱法的存在。

藉由計算瞬時頻率的技術，也就是「多重音高偵測」，便能把每一個聲部的音高軌跡精準算出，將能協助民族音樂的採譜工作。

音樂視覺化！將視覺和聽覺同步表現

蘇黎團隊目前所研究的「多重音高偵測技術」，以適用於各種音樂訊號為目的，其能有效刻劃出每一種聲響結構，並且將聲響即時轉化成樂譜。

多重音高偵測技術不僅可以應用於民族音樂學等領域的採譜處理問題，它的即時處理以及視覺化能力，也能在教育、娛樂等應用領域中有龐大潛力，將複雜的演奏即時轉為視覺表現。

使用多重音高偵測技術，鋼琴每彈下一個音，電腦會自動定位音高，在螢幕上再度轉化成鋼琴鍵，圖中的橫軸則為時間軸，清楚地看出該時間點演奏者按下哪一個鋼琴鍵，演奏完畢便完成曲譜的轉譯。（圖／魏一傑、吳曉筑，研之有物提供）

在聆聽音樂的同時建立視覺與聽覺的關聯，以增強對音樂元素如音高、和弦的認知，是豐盛音樂表演 (enriched music performance) 所努力的方向。

1 2 3 全文閱讀

誰說人工智慧冷冰冰，絕對奏不出感動樂曲？中研院奇招訓練，結果讓所有人都驚艷

用「多重音高偵測」，記錄人耳辨識困難的合音

音樂視覺化！將視覺和聽覺同步表現

哈佛大學成功將GIF動圖存在細菌上！核爆、輻射資料都不會消失，未來還可以…

為何這一代年輕人都愛蘇打綠？12首正能量好歌，不討好主流市場、唱出真正音樂高度！

天才莫札特的傳奇一生：從小練琴到半夜也不停、進王宮表演驚呆眾人、35歲死因成謎

這段每天都會聽到的音樂，創作者卻不為人知？原來iPhone鈴聲背後有這樣的故事…

「這就是人性，有溫度」5秒內找到顧客需要的東西，UNIQLO的數位布局創造高提袋率

超怪異發明》戴上「這個」可以盡情的在辦公室聊八卦，其他同事只會聽到小小兵語！