科研發光《前進未來青年講堂》臺北場II AI用於音樂與語音的處理－樊語婕文字工作室部落格

撰文/樊語婕

科研發光《前進未來青年講堂》臺北場第二場座談在華山1914文創產業園區登場，邀請到玉山金控科技長暨台大資訊系教授張智星，主講「AI用於音樂與語音的處理」，分享充滿節奏與旋律的AI音樂世界！

台大資工系設有「多媒體資訊檢索實驗室」(Multimedia Information Retrieval Lab，簡稱MIR Lab)，由張智星領導，致力於將機器學習運用在現實世界的各種應用，包含各式媒體、音樂、音訊、語音、影像等處理與辨識。

AI用於音樂的處理可以有各種可能性，例如分離歌聲與伴奏，分離完成就可以應用於卡拉OK，AI必須辨識音樂的起始點，包括一個鼓棒打下去、一個鋼琴鍵按下去，都稱為是一個起始點。現今的AI已經能夠進行起始點辨識、產生音樂節奏遊戲、做到和弦辨識，還能夠進行音樂學習。

音樂檢索也是AI應用的領域，張智星自1998年開始研究至今。當人們想到一首音樂之後，可以利用哼唱選歌，輕易地把樂曲找出來，現在這樣的技術已經不稀奇，音樂搜尋引擎Midomi擁有各式APP可以完成這樣的任務。除了哼唱選歌之外，還有第二種找歌的方式，就是將音訊視作如同指紋一般，當人們聽到一首音樂時，只要把手機打開接收音樂，一樣可以幫忙辨識這是什麼樂曲。

大量機器訓練 歌聲伴奏分離

十年前人們在YouTube擷取一首歌之後，不可能做到將歌聲和伴奏分開，其困難度就等同於要分離奶茶中的奶與茶！隨著電腦能力越來越強，AI可以做到的功能越來越多，張智星說明，只須收集許多清唱的歌聲與音樂，當作標準答案，混在一起輸入至類神經網路裡，經由大量歌曲的大量機器訓練，從流行歌曲中分離歌聲和音樂就成為可能。

張智星帶領MIR Lab團隊，以YouTube的音樂為媒材，希望將人聲去除或是分離人聲與歌聲，就能夠應用於卡拉OK娛樂。在實際運作後，團隊發現除了去除人聲外，還必須進行歌詞對位，將清唱的人聲歌詞對位，創造能夠隨著時間變色的歌詞，更要將歌聲轉譜，把歌唱的音樂變成一個一個音符，才能對準音符，了解歌唱得好不好、音高好不好、音長是否正確，以及是否有著滑音、抖音、轉音等細節。上述的相關技術幫助團隊贏得科技部價創計畫，學生更從創新創意升級創業，創立一家新創公司！

AI智慧助陣 音樂多元應用

音樂相關的AI應用非常有趣，只須將音樂進行去人聲、歌詞對位、歌聲轉譜等過程，未來所有YouTube上的音樂都可以成為卡拉OK素材！未來的技術更將朝向人聲與合音分離、音色評分、咬字評分、表情評分……等眾多待完成的目標邁進。

目前AI已經能夠分離人聲與伴奏，並能夠擴大應用，例如有人在路邊講話時，出現車聲等背景聲，就可以將人聲抽離出來、把車聲壓掉，應用於助聽器或電視台等面向。以電視台為例，在改編運用舊有影片時，可以將原本的英文人聲壓掉改成中文，更能同時保留原始背景音樂。

張智星預告，未來期待將音源分離改為在晶片上運算，他也引領現場聽眾想像，未來手持藍芽卡拉OK麥克風，點選 YouTube歌曲後，自動將人聲壓掉，立刻就可以歡唱卡拉OK！此外，哼唱轉譜、歌詞自動對位、歌唱評比、人臉表情辨識、歌聲表情辨識、歌唱風格辨識、防疫遠端合唱等，也都在進行當中，期待逐步做到「Music Edutainment」，在娛樂、教育都能使用MIR Lab的技術，讓喜歡音樂的人都可以享受音樂、學習音樂！

yuchieh16145

樊語婕文字工作室部落格

yuchieh16145 發表在痞客邦留言(0) 人氣()

E-mail轉寄

樊語婕文字工作室部落格

記者採編廣告文案外稿企劃

科研發光《前進未來青年講堂》臺北場II AI用於音樂與語音的處理

歷史上的今天

留言列表

站方公告

活動快報

【全民...

熱門文章

文章分類

最新文章

最新留言

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

我的好友

樊語婕文字工作室部落格

記者 採編 廣告文案 外稿 企劃

科研發光《前進未來 青年講堂》臺北場II AI用於音樂與語音的處理

歷史上的今天

留言列表

站方公告

活動快報

【全民...

熱門文章

文章分類

最新文章

最新留言

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

我的好友

記者採編廣告文案外稿企劃

科研發光《前進未來青年講堂》臺北場II AI用於音樂與語音的處理