close

撰文/樊語婕

科研發光《前進未來 青年講堂》臺北場第三場座談主題為「科青新勢力:讓機器聽懂你說話」,邀請台大電機工程系副教授李宏毅開獎,分享如何以AI技術讓機器具備學習能力!

 

人類透過聲音或文字溝通,機器也有自己的程式語言。人類語言處理技術的相關研究主要鎖定四大目標:讓機器聽懂人說的話、讓機器看懂人寫的句子、讓機器寫出人可以看得懂的句子、讓機器可以說出人可以聽得懂的話。人類語言處理技術眾多,統整為「輸入語音,產生文字」、「輸入文字,產生語音」、「輸入語音,產生語音」、「輸入文字,產生文字」共四大類,背後運用的皆是深度學習的技術。

 

深度學習 達成語音辨識語音合成

第一類技術為「輸入語音,產生文字」,讓機器聽一段聲音後,產生一段對應的文字,也就是手機、智能音箱都能做到的語音辨識,這樣的技術還可以做到語音辨識加上翻譯,例如讓機器看1500小時的YouTube鄉土劇,人工完全不介入,不處理背景音樂與音效、語音和字幕沒有對齊的狀態,機器透過台語語音、中文字幕自行深度學習,就能學習把台語聲音訊號轉成中文。

 

第二類技術為「輸入文字,產生語音」,也就是語音合成,例如在google輸入一段文字,它就可以把那段文字唸出來。語音合成技術可以用深度學習來做,也就是訓練一個類神經網路,提供許多語音與文字對應的資料,它就可以自己學會語音合成。

 

語音轉換 聲音模仿無限可能

第三類技術為「輸入語音,產生語音」,最佳的例子就是柯南領結變聲器。要做到語音轉換,過去需要應用監督式學習(Supervised Learning)的方法,想要把A的聲音轉成B的聲音,必須把AB都找來,唸一千句一樣的句子收集起來,才能訓練機器達成語音轉換的任務。

 

如今科技進步,即使AB講不同句子、語言,機器還是可以在聽取AB的聲音後,做到語音轉換,而且無須眾多語料就可能達成,「One-shot Learning(單一標註樣本學習)正在科學界進行中,未來機器只須要聽一句話就能模仿你的聲音,而在ICASSP 2021比賽中,就鎖定「Voice Cloning」聲音模仿的領域,全球共153 隊報名參加比賽,其中台大團隊排名第二。

有目的的聊天 提供正向鼓勵

第四類技術為「輸入文字,產生文字」,最常見的應用當屬聊天機器人,訓練的方式就是讓機器聽取大量人際對話、劇本、台詞等,學習當有人跟它說一句話應該做出怎樣的回應。由於人類對話的目的在於傳遞某些訊息、達成某些任務,科學界運用增強式學習 (Reinforcement Learning)的技術,試圖讓聊天機器人也做到類似的事情,透過互動知道回應可能對於對話者造成的影響。也就是讓機器學會具有意圖,當它講一句話,並非隨便的一句話,而是帶有某些目的,例如是要安慰對方的正面鼓勵。

 

李宏毅最後分享未來人類語言處理的三大關鍵技術:自監督學習(Self-supervised Learning)、對抗式攻擊(Adversarial Attack)、元學習(Meta Learning)。自監督學習引導機器透過網路上大量未經人工標註的資料進行學習,還能夠達到舉一反三

的神奇能力,例如BERTGPTAI模型;對抗式攻擊則是一種造成深度學習模型判斷錯誤的技術,例如在聲音訊號中加入雜訊騙過AI語音辨識系統,誤以為那段聲音來自真人而非合成;元學習期待透過程式讓機器自己學習怎麼學習,讓機器自己發明自己學習的方法,聽起來科幻,但在未來的AI世界,凡事都有可能!

 

 

arrow
arrow
    全站熱搜

    yuchieh16145 發表在 痞客邦 留言(0) 人氣()