ソニー株式会社のR&Dセンターで音源分離技術の開発を行っている光藤祐基さんと高橋直也さん
2020.10.09

音樂製作將面臨巨變:世界尖端科技「訊號分離技術(音源分離技術)」開創出的新未來

▼日本語版はこちらからご覧ください▼
▼日文版請前往底下連結

迎向一個沒有原聲軌也OK的世界

現今備受世界關注的「訊號分離技術」ーー從混有各種聲音的音訊中將特定的聲音抽出之技術。許多人可能還不知道,Sony早從2015年開始,連續三年在評價訊號分離技術的「SiSEC」競賽中,獲得音訊分離類別的最高評分。

而今年台灣的LINE年度大會中,發表了LINE MUSIC將在8月增加全新卡拉OK功能ーー「去人聲跟唱」。不僅是首次與日本同步推出,「去人聲」就是搭載了Sony開發的「訊號分離技術」。

訊號分離究竟是什麼樣的技術?將對音樂製作及相關產業帶來什麼樣的影響與改變?Soundmain Blog有幸邀請到目前於Sony研究開發中心,負責聲音技術開發的光藤祐基、高橋直也接受訪談。

Sony研究開發中心負責聲音技術開發的光藤祐基與高橋直也
Sony Corporation 研究開發中心 基礎技術開發第1部門 聲音技術開發部 2課
光藤祐基(左)、高橋直也(右)

這就好比把兩種不同的果汁混在一起後,又要將其中一種果汁單獨抽取出來

什麼是「訊號分離技術」?

高橋直也(以下稱高橋):例如把一段聲音中不想聽見的雜音去除,或是將樂曲中鋼琴的聲部單獨抽出等,訊號分離就是可以做到這些的技術。

光藤祐基(以下稱光藤):我想大家可以先想像,訊號分離技術之困難就好比把兩種不同的果汁混在一起後,又要把其中一種單獨抽取出來。再把這個概念移行到聲音的世界中或許會比較容易理解。

雖然研究一直持續進行,但其實直到大約2013年為止都不覺得有辦法成功的開發這項技術。

「訊號分離技術」已經應用於我們現在的生活中了嗎?

高橋:智慧音響就有使用到這項技術。當我們對著智慧音響說話時,即使周遭有冷氣發出的雜音,智慧音響還是有反應不是嗎?這就是因為智慧音響內部首先將雜音排除了,僅對剩下的人聲來進行辨識。

超越理想二元遮罩!?

至今一直被認為相當困難的「訊號分離技術」,據說這幾年在開發上有突飛猛進的進展。其中,Sony在某個評比訊號分離技術的競賽中獲得最高評分,請問是一個什麼樣子的競賽?

光藤:在學術界從一開始就對這個話題很感興趣呢。2007年,訊號分離學會開始舉辦「SiSEC」(Signal Separation Evaluation Campaign)這個專門評比分離技術的演算法的競賽。在競賽中,有將語音與雜音分離、提取生理訊號(Biosignal)、從樂曲中抽出特定聲部等諸如此類的課題。

2015年Sony第一次參加SiSEC,我們在競賽中最大的類別「SiSEC Music Separation Task」成功獲得了最高評分。這個類別會以從指定曲中分離出特定的聲部的技術來進行評價。每年大約有20到30組參賽者,然後Sony連續三年獲得了最高評分。

甚至我們在某首曲子的某項樂器的分離技術上,獲得了「超越理想二元遮罩」的評價。

什麼是「理想二元遮罩」?

光藤:這樣說好了,在進行訊號分離的時候可以透過掌握多音軌(原檔)的資訊,事先知道例如說人聲音軌的樣子,也就是說事前看過「正解」的情況下可以容易的分辨出人聲。SiSEC將這樣子的狀態訂定為訊號分離演算法的上限,意即所謂的「理想二元遮罩」。然而Sony卻獲得了超越此上限的評價。

高橋:雖然不是每次都會達到這樣的成果,但是在某首曲子的某個樂器上竟然做出了超越演算法上限的表現(沒有偷看答案卻做得比有偷看答案的好),在業界中引起一陣譁然呢。

光藤:順帶一提SiSEC的官方網頁上可以聽到包含我們的所有參賽者分離出的音源唷。

透過訊號分離技術分離出來的樂曲試聽頁面
光藤祐基與高橋直也率領的團隊,在SiSEC競賽中實際分離出來的樂曲試聽的頁面

AI在訊號分離技術的革新中扮演了重要角色

現在的話已經可以達到相當程度清楚的分離了呢!訊號分離技術的準確度會如此大幅度成長的原因是什麼呢?

光藤:訊號分離技術在加入了所謂的「AI」後,成長曲線有了顯著的變化。

高橋:在還沒有使用AI之前,要做出訊號分離只能夠透過取出從特定方向發出的聲音,這種間接、有點投機取巧的方式來完成。

以樂團混音舉例來說,如果想要只分離出人聲的話,以前的做法是僅分離出置於中間的人聲。但問題是人聲不是只存在中間,左右音軌也會混有部分人聲。又或是若中間混有其他樂器的話,以這樣的做法沒辦法達到正確且單獨分離人聲。

因此我們讓AI學習人的聲音、鼓的聲音,並且使其模組化,訊號分離技術進而在性能上有顯著的革新。

Dolby主辦的研討會,邀請到Google、Spotify等企業來談論關於AI在聲音處理上如何被活用之相關主題。在Spotify發表的講座中提到了Sony開發的技術。

AI會學習到「這就是吉他的聲音」

要在一片綠色的背景中只將蘋果正確的分割出來ーー如果用視覺來比喻的話可以這樣理解對吧?

光藤:大家都知道蘋果是什麼形狀、什麼顏色對吧。所以因為蘋果本身可以被識別,很容易就可以將蘋果與背景分離。

聲音的世界也是如此,AI會學習吉他發出的聲音、頻率、以及時間變動表現。只要是AI學習過的內容,不論有多複雜的聲音混合在一起,某種程度上都可以做到乾淨清楚的分離。

AI作為訊號分離技術的核心,具體上是接受了什麼樣子的學習過程呢?

高橋:首先蒐集很多純人聲、純吉他聲、純鼓聲作為學習數據。對AI輸入將這些聲音進行混音過後的音訊,經過處理後達到只輸出人聲的成果,就是訓練AI的方式。

那麼,AI的性能果然還是與做了多少程度的數據學習息息相關的吧?

高橋:數據的多寡當然是重要的依據,不過重點還是在於設計出專用於訊號分離技術的AI。

什麼是專用於訊號分離的AI?

高橋:進行訊號分離的時候,為了分辨各聲部,需要有能夠對聲音整體有客觀的認識的能力。同時,對於像是腳踏鈸(Hi-hat)這樣只在特定頻率之頻帶發出的瞬間短暫的聲音,也必須要有辨認能力。

雖然這些也可以全部交由單一AI來處理,不過通過分別設計出檢視整體聲音的AI,以及專注於特定頻帶的AI,並且將兩個能力整合為一,如此一來訊號分離技術的準確度才會不斷獲得提升。

專用於訊號分離之AI的部分設計資料圖
專用於訊號分離之AI的部分設計資料圖

我們可以隨心所欲的只取出想要的聲音

如果可以活用這項技術,是否能夠做到從舊時單聲道錄音中,將人聲、吉他、貝斯、鼓等各自的聲部分離出,並重新製成雙聲道或是5.1環繞音場呢?

光藤:是的,這是可能的。特別是在舊時錄音的情況下,很多時候樂器各自的聲部已不復存在。但是當「訊號分離技術」變得一般化後,將來就可能可以做到只要有CD或音檔,任何人都可以單獨只把喜歡的樂器的聲音抽取出來。

身為開發團隊的一員,我們預想過如果「訊號分離技術」可以廣泛的被活用,與VR、AR等虛擬空間的互相搭配應該會有還不錯的成果。但由於是一項嶄新的技術,其實也蠻難去想像人們到底可以運用這項技術來做些什麼呢。

現在音樂製作上已經有應用「訊號分離技術」的實例了嗎?

高橋:雖然是其他的公司的產品,市面上有在販售可以從樂團合奏中將樂器各聲部各自抽出的外掛程式,例如iZotope的RX7之類的造成不小的話題呢。

訊號分離技術也受到了來自電影業界的關注

光藤:另外,訊號分離技術不僅在音樂界,現在也受到電影業界的關注呢。

高橋:目前好萊塢也正在大力推廣AI,多家公司公開發表各種使用到AI的技術,比如說將黑白電影轉為彩色電影、自動偵測出有槍枝的場景等等。

在好萊塢有發表這類高端技術的技術交流會,前陣子我們也在那個交流會上向好萊塢介紹了訊號分離技術以及其對電影製作可能帶來的助益。

在電影製作的過程中將會如何來使用訊號分離技術呢?

光藤:基本上跟在音樂製作上的運用相同,不過比起再混音(Remix)應該會更專注於增強混音(Upmix)上的運用吧。

高橋:例如,目前電影院的音響格式流行使用Dolby Atmos,可是如果碰到以前的老片就沒辦法支援格式。因此要解決老片音訊格式與Dolby Atmos不相容的問題,訊號分離技術就可以派上用場。

若這項技術的準確度更加提升,您認為將會對音樂製作帶來什麼樣的助益呢?

光藤:雖然也有想像不到的部分,但首先再混音應該會變得更容易吧。畢竟一般樂曲的大分軌等素材並不公開,只有業内少數人士才有辦法取得。

可是有了「訊號分離技術」,就可以直接從手邊有的雙聲道錄音中,將各聲部分離、再混音。不過這僅為技術層面上的討論,著作權方面的環境整備也必須從現在開始好好思考才行。

高橋:演唱會中由於樂器沒有各別錄音導致後續重新編輯上的困難,如果使用了訊號分離技術應該會變得輕鬆不少吧。

光藤:還有一點,可以用最新的音檔格式來聽舊的音檔格式的錄音。例如可以使用5.1環繞音場或Dolby Atmos、Sonic Surf VR的格式來聽單聲道或雙聲道的錄音。

運用了空間音響技術「Sonic Surf VR」的裝置藝術企劃「Odyssey」。
空間音響技術「Sonic Surf VR」為Sony運用音場合成技術(WFS)研發出來的技術。

終極目標:分不出究竟是分離音還是原音?

關於訊號分離技術,目前有設立什麼想要達成的最終目標嗎?

高橋:最終目標希望可以達到一般人聽了也分辨不出來到底是分離技術處理過後的聲音還是原音吧。現在的情況是,分離出來的音色跟原音音色兩者間仍然可以被辨識出來。所以做到兩者間辨識不出的程度是目前開發這項技術的終極目標。

光藤:現實層面來說,我們也希望透過訊號分離技術能夠為Sony營運上帶來貢獻。首先的目標就是在Sony開發的設備上搭載應用訊號分離技術的機能,使用於音樂製作或電影製作過程中之類的。

至於最終目標的話,希望可以創造出一個就算沒有原聲軌(原檔)也沒關係的世界。我知道聽起來蠻抽象的,但現況是我們身邊充斥著混音後的產物,然而在未來由於訊號分離技術被廣泛普及的使用,而能普通的做到將任何混雜在一起的聲音抽取、分離,還原成單獨存在的各聲部,這就是我所追求的理想。

Sony研究開發中心負責聲音技術開發的光藤祐基與高橋直也

Writer:三浦一紀
Editor:長谷 憲
翻譯:王昱婷(Soundmain編集部)