科研發光《前進未來青年講堂》臺北場III科青新勢力：讓機器聽懂你說話－樊語婕文字工作室部落格

撰文/樊語婕

科研發光《前進未來青年講堂》臺北場第三場座談主題為「科青新勢力：讓機器聽懂你說話」，邀請台大電機工程系副教授李宏毅開獎，分享如何以AI技術讓機器具備學習能力！

人類透過聲音或文字溝通，機器也有自己的程式語言。人類語言處理技術的相關研究主要鎖定四大目標：讓機器聽懂人說的話、讓機器看懂人寫的句子、讓機器寫出人可以看得懂的句子、讓機器可以說出人可以聽得懂的話。人類語言處理技術眾多，統整為「輸入語音，產生文字」、「輸入文字，產生語音」、「輸入語音，產生語音」、「輸入文字，產生文字」共四大類，背後運用的皆是深度學習的技術。

深度學習 達成語音辨識語音合成

第一類技術為「輸入語音，產生文字」，讓機器聽一段聲音後，產生一段對應的文字，也就是手機、智能音箱都能做到的語音辨識，這樣的技術還可以做到語音辨識加上翻譯，例如讓機器看1500小時的YouTube鄉土劇，人工完全不介入，不處理背景音樂與音效、語音和字幕沒有對齊的狀態，機器透過台語語音、中文字幕自行深度學習，就能學習把台語聲音訊號轉成中文。

第二類技術為「輸入文字，產生語音」，也就是語音合成，例如在google輸入一段文字，它就可以把那段文字唸出來。語音合成技術可以用深度學習來做，也就是訓練一個類神經網路，提供許多語音與文字對應的資料，它就可以自己學會語音合成。

語音轉換 聲音模仿無限可能

第三類技術為「輸入語音，產生語音」，最佳的例子就是柯南領結變聲器。要做到語音轉換，過去需要應用監督式學習（Supervised Learning）的方法，想要把A的聲音轉成B的聲音，必須把A跟B都找來，唸一千句一樣的句子收集起來，才能訓練機器達成語音轉換的任務。

如今科技進步，即使A與B講不同句子、語言，機器還是可以在聽取A與B的聲音後，做到語音轉換，而且無須眾多語料就可能達成，「One-shot Learning」(單一標註樣本學習)正在科學界進行中，未來機器只須要聽一句話就能模仿你的聲音，而在ICASSP 2021比賽中，就鎖定「Voice Cloning」聲音模仿的領域，全球共153 隊報名參加比賽，其中台大團隊排名第二。

有目的的聊天 提供正向鼓勵

第四類技術為「輸入文字，產生文字」，最常見的應用當屬聊天機器人，訓練的方式就是讓機器聽取大量人際對話、劇本、台詞等，學習當有人跟它說一句話應該做出怎樣的回應。由於人類對話的目的在於傳遞某些訊息、達成某些任務，科學界運用增強式學習 (Reinforcement Learning)的技術，試圖讓聊天機器人也做到類似的事情，透過互動知道回應可能對於對話者造成的影響。也就是讓機器學會具有意圖，當它講一句話，並非隨便的一句話，而是帶有某些目的，例如是要安慰對方的正面鼓勵。

李宏毅最後分享未來人類語言處理的三大關鍵技術：自監督學習(Self-supervised Learning)、對抗式攻擊(Adversarial Attack)、元學習(Meta Learning)。自監督學習引導機器透過網路上大量未經人工標註的資料進行學習，還能夠達到舉一反三

的神奇能力，例如BERT、GPT等AI模型；對抗式攻擊則是一種造成深度學習模型判斷錯誤的技術，例如在聲音訊號中加入雜訊騙過AI語音辨識系統，誤以為那段聲音來自真人而非合成；元學習期待透過程式讓機器自己學習怎麼學習，讓機器自己發明自己學習的方法，聽起來科幻，但在未來的AI世界，凡事都有可能！

yuchieh16145

樊語婕文字工作室部落格

yuchieh16145 發表在痞客邦留言(0) 人氣()

E-mail轉寄

樊語婕文字工作室部落格

記者採編廣告文案外稿企劃

科研發光《前進未來青年講堂》臺北場III科青新勢力：讓機器聽懂你說話

歷史上的今天

留言列表

站方公告

活動快報

愛睡噴...

熱門文章

文章分類

最新文章

最新留言

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

我的好友

樊語婕文字工作室部落格

記者 採編 廣告文案 外稿 企劃

科研發光《前進未來 青年講堂》臺北場III科青新勢力：讓機器聽懂你說話

歷史上的今天

留言列表

站方公告

活動快報

愛睡噴...

熱門文章

文章分類

最新文章

最新留言

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

我的好友

記者採編廣告文案外稿企劃

科研發光《前進未來青年講堂》臺北場III科青新勢力：讓機器聽懂你說話