相傳莫札特十四歲時聽到複雜的教堂樂曲,便能默記全曲並寫成樂譜。在這個充滿神秘色彩的故事中,除了隱含人們對音樂「天份」這道門檻的敬畏以外,自動採譜也成為 AI 人工智慧研究者所挑戰的重要夢想。
中研院資訊科學研究所的蘇黎,專攻音樂資訊檢索 (Music Information Retrieval, MIR) ,以「多重音高偵測技術」為基礎,發展出自動採譜的人工智慧,以更輕鬆簡單的方式來協助我們學音樂、理解音樂和製作音樂。
目前市場上已經有許多人工智慧在音樂上的應用,例如人們用 Soundhound 音樂識別軟體來搜尋當下聽到的歌,或試聽線上串流平台推薦的歌曲,或透過軟體快速找到自己想要聽的歌。這方面的發展已接近成熟,但主要都是針對「聆聽」的行為。
若想透過人工智慧進一步了解音樂的深層意涵,例如作曲家的創作思維,演奏家的詮釋技法,乃至於樂評家的觀點,那麼,一個擁有像莫札特般卓越音樂聽力,可以協助自動採譜,並將聽見的音樂變成容易親近演奏的完整樂譜的人工智慧,會是關鍵性的一步。
人類如何認識音樂?音高 94 關鍵!
試著哼唱莫札特的〈小星星〉,想起小學教室裡的風琴伴奏,而那架風琴的 Do 還老是走音。在這樣簡單的歌曲裡頭,事實上已經包含了許多複雜的資訊,如速度、節奏、音高、和弦、器樂及人聲的音色等多樣要素,別忘了還有走音的 Do 這個偏差因子。
因此,人工智慧對大編制樂曲如交響樂的自動採譜,必須面對大量且交疊的資訊,難度仍然很高。所以要把聽到的樂曲轉成可以看到的譜,還是要找出其中特徵最穩定,也能決定旋律的關鍵—「音高」。
「音高」為樂曲所有要素中最基本的特徵,樂譜上的資訊,大多與音高有關。
說起音樂訊號的本質,蘇黎認為音高是音樂訊號中的最基本的資訊之一,而音高偵測正是音樂訊號處理的基本技術。
舉個大家都有的生活經驗:當朋友打電話來,有時我們會覺得對方的聲音好像不太一樣。這是因為線路與裝置在訊號傳輸過程中改變了朋友說話的音色,讓我們的聽覺受到混淆。但對方聲音在電話裡的語調,也就是音高,不論是上揚還是下降,並不容易受影響。
因此,我們即使因為雜訊而不認得對方的聲音,但往往還能聽懂對方講話的內容。也因為音高擁有這樣的基本特性,所以如何辨識音高可以說是分析聲音資訊的一項基本技術。
此外,音高資訊並不僅包含絕對音高,還包含音與音相對的關係,甚至是那轉音之時,各種詮釋的可能。
就如同有人唱著〈小星星〉的曲調,即使沒一個音在音準上,我們仍然聽得出這是〈小星星〉的曲調。這是因為我們認得旋律軌跡 (melody contour) 的樣態,也就是「曲調的起伏」。只要曲調起伏的趨勢與原曲相似,我們就能如 Soundhound 音樂識別軟體一樣聽得出來。