close

撰文/樊語婕

科研發光《前進未來 青年講堂》臺北場第二場座談在華山1914文創產業園區登場,邀請到玉山金控科技長暨台大資訊系教授張智星,主講「AI用於音樂與語音的處理」,分享充滿節奏與旋律的AI音樂世界!

 

台大資工系設有「多媒體資訊檢索實驗室」(Multimedia Information Retrieval Lab,簡稱MIR Lab),由張智星領導,致力於將機器學習運用在現實世界的各種應用,包含各式媒體、音樂、音訊、語音、影像等處理與辨識。

 

AI用於音樂的處理可以有各種可能性,例如分離歌聲與伴奏,分離完成就可以應用於卡拉OKAI必須辨識音樂的起始點,包括一個鼓棒打下去、一個鋼琴鍵按下去,都稱為是一個起始點。現今的AI已經能夠進行起始點辨識、產生音樂節奏遊戲、做到和弦辨識,還能夠進行音樂學習。

 

音樂檢索也是AI應用的領域,張智星自1998年開始研究至今。當人們想到一首音樂之後,可以利用哼唱選歌,輕易地把樂曲找出來,現在這樣的技術已經不稀奇,音樂搜尋引擎Midomi擁有各式APP可以完成這樣的任務。除了哼唱選歌之外,還有第二種找歌的方式,就是將音訊視作如同指紋一般,當人們聽到一首音樂時,只要把手機打開接收音樂,一樣可以幫忙辨識這是什麼樂曲。

 

大量機器訓練 歌聲伴奏分離

十年前人們在YouTube擷取一首歌之後,不可能做到將歌聲和伴奏分開,其困難度就等同於要分離奶茶中的奶與茶!隨著電腦能力越來越強,AI可以做到的功能越來越多,張智星說明,只須收集許多清唱的歌聲與音樂,當作標準答案,混在一起輸入至類神經網路裡,經由大量歌曲的大量機器訓練,從流行歌曲中分離歌聲和音樂就成為可能。

 

張智星帶領MIR Lab團隊,以YouTube的音樂為媒材,希望將人聲去除或是分離人聲與歌聲,就能夠應用於卡拉OK娛樂。在實際運作後,團隊發現除了去除人聲外,還必須進行歌詞對位,將清唱的人聲歌詞對位,創造能夠隨著時間變色的歌詞,更要將歌聲轉譜,把歌唱的音樂變成一個一個音符,才能對準音符,了解歌唱得好不好、音高好不好、音長是否正確,以及是否有著滑音、抖音、轉音等細節。上述的相關技術幫助團隊贏得科技部價創計畫,學生更從創新創意升級創業,創立一家新創公司!

 

AI智慧助陣 音樂多元應用

音樂相關的AI應用非常有趣,只須將音樂進行去人聲、歌詞對位、歌聲轉譜等過程,未來所有YouTube上的音樂都可以成為卡拉OK素材!未來的技術更將朝向人聲與合音分離、音色評分、咬字評分、表情評分……等眾多待完成的目標邁進。

 

目前AI已經能夠分離人聲與伴奏,並能夠擴大應用,例如有人在路邊講話時,出現車聲等背景聲,就可以將人聲抽離出來、把車聲壓掉,應用於助聽器或電視台等面向。以電視台為例,在改編運用舊有影片時,可以將原本的英文人聲壓掉改成中文,更能同時保留原始背景音樂。

 

張智星預告,未來期待將音源分離改為在晶片上運算,他也引領現場聽眾想像,未來手持藍芽卡拉OK麥克風,點選 YouTube歌曲後,自動將人聲壓掉,立刻就可以歡唱卡拉OK!此外,哼唱轉譜、歌詞自動對位、歌唱評比、人臉表情辨識、歌聲表情辨識、歌唱風格辨識、防疫遠端合唱等,也都在進行當中,期待逐步做到「Music Edutainment」,在娛樂、教育都能使用MIR Lab的技術,讓喜歡音樂的人都可以享受音樂、學習音樂!

 

arrow
arrow
    全站熱搜

    yuchieh16145 發表在 痞客邦 留言(0) 人氣()