ソニー株式会社のR&Dセンターで音源分離技術の開発を行っている光藤祐基さんと高橋直也さん
2019.09.30

音楽制作の世界が変わる。世界最先端の「音源分離技術」が作りだす未来とは?

世界中で注目されている、様々な音が入っている音源から特定の音を抜き出す技術「音源分離技術」。あまり知られていませんが、音源分離技術を評価する「SiSEC」というイベントで、ソニーが2015年から音楽部門で3回連続ベストスコアを獲得しています。

この音源分離技術とはどんな技術なのか、そして音楽制作の世界にどのような革新をもたらすのか。ソニー株式会社のR&Dセンターでオーディオ技術開発を行っているお二人にお話を伺いました。

ソニー株式会社のR&Dセンターで音源分離技術の開発を行っている光藤祐基さんと高橋直也さん
ソニー株式会社 R&Dセンター 基盤技術開発第1部門 オーディオ技術開発部2課 光藤祐基氏(写真左)、高橋直也氏(写真右)

中文版請前往底下連結(中国語版はこちらからご覧ください)

二種類のジュースを混ぜて、そこから片方だけを取り出す作業

「音源分離技術」とは、どのような技術なのでしょうか?

高橋直也さん(以下:高橋):例えば、音声に聴きたくないノイズが入っている場合に取り除いたり、音楽からピアノのパートだけを抜き出したりすることができる技術です。 

光藤祐基さん(以下:光藤):二種類のジュースを混ぜて、そこから片方だけを取り出すのはかなり難しい作業ですが、それを音の世界で行っているとイメージしていただければだいたい合っていると思い
ます。 

実は2013年くらいまでは、不可能なことだと思いながら研究をしていたくらいです。

現在、我々の生活に「音源分離技術」は使われているのでしょうか?

高橋:一般的な話では、スマートスピーカーで使われています。スマートスピーカーに話しかけると、後ろでエアコンの音がしていても反応しますよね。これはスマートスピーカー側でいったんノイズを取り出して消してから、人間の声だけを認識させているのです。

バイナリー・マスクを超えた

難しいと言われてきた「音源分離技術」が、ここ数年で急激に進化してきたと聞きます。そんな中、ソニーがベストスコアを記録している音源分離のイベントとはどのようなものなのでしょうか。

光藤:学術界では当初より注目されていたのですが、2007年から開催されている「SiSEC」(Signal Separation Evaluation Campaign)という音源分離学会のサテライトイベントがありまして、そこではスピーチをノイズから分離したり、生体信号を取り出したり、音楽から特定のパートだけを抜き出すといった、分離のアルゴリズムに特化したコンペティションのようなものがあるんです。

我々は2015年に初参加したのですが、そのときに「SiSEC Music Separation Task」という一番大きな部門でベストスコアを取ることができました。この部門では、課題曲から特定のパートを分離するという技術を評価します。だいたい毎年20から30組ほどエントリーがあり、そこで3回連続トップを取って
います。 

ある楽曲で、ある楽器においては、“バイナリー・マスク”を超えたとの評価をもらったんです。

バイナリー・マスクとは? 

光藤:音源を分離するときに、マルチトラック、つまり元ネタの情報を与えてあげる方法があって、それは言ってみれば、答えを知っているような状態ですよね。その元ネタを知っている状態を、アルゴリズムの上限としてSiSECが定めている値をバイナリー・マスクと言うんですが、我々はそれを超えてしまう評価をもらったことがあって。 

高橋:毎回ではないんですが、ある楽曲で、この楽器に限っては、元ネタを超える数値が出たという逆転現象が起きてしまったんです。業界では結構事件だったんですよ。

光藤:因みにSiSECのホームページでは、我々を含めた参加者が分離した音源を聴くことができますよ。

音源分離した曲の視聴ページ
光藤さん高橋さん率いるチームがコンペティションで実際に音源分離した曲の試聴ページ

AIが音源分離技術を革新的に向上させた

現時点でかなりクリアに分離できるんですね!急激に「音源分離技術」の精度が上がった理由はどこにあるのでしょうか。

光藤:いわゆるAI(機械学習)を音源分離技術に応用するようになってから成長カーブが著しくなったんです。 

高橋:AIを使用する前は、特定の方向から鳴っている音だけを取り出すといった間接的・曖昧な方法でしか音源分離はできませんでした。 

バンドサウンドを例に挙げると、ボーカルだけ抜き出したいという場合、今までは中央に位置するボーカル成分だけを分離するという感じでした。ただボーカルトラックは中央だけではなく左右のトラックに少し混ざっていますし、残響音もあります。また中央には他の楽器も混ざっていますので、この方法だとボーカルだけを正確に抜き出すのは困難でした。

ここで、AIにボーカルやドラムの音とはどういった音なのかを学習させ、モデル化させることで、革新的に性能が向上しているんです。

Dolby主催の、音声処理にAIがどのように活用されているかについてGoogleやSpotifyなどスタッフが語る音響イベント動画。Spotifyのトークで、ソニーの技術について触れられている。

AIが「ギターはこういう音だ」ということを学んでいく

ビジュアル的にいえば、緑の背景の中にあるリンゴだけを正確に切り抜けるということが、音でできるわけですね。

光藤:誰でもリンゴがどんな形をしていて、どんな色をしているかを知っていますよね。リンゴそのものを認識できるから背景と分離することが容易なわけです。 

音の世界でも同じように、ギターはこういう音で、こういう周波数でこういう時間変動をするということをAIが学習します。AIが学習したものに関しては、どんなに複数の音が混ざっていてもある程度きれいに分離させることができます。

音源分離技術のコアとなるAIですが、どのようにAIに学習させているのでしょうか。

高橋:多くのボーカルだけの音、ギターだけの音、ドラムだけの音を学習データとして集め、それを人工的にミックスしたものを入力したらボーカルだけを出力するといったことをAIに対して行います。

やはりAIの性能はどれだけデータを学習させたかということなのでしょうか。

高橋:データの量も大事ですが、AIを音源分離に特化した設計にすることが最大のポイントです。

音源分離に特化したAIというのは?

高橋:音源分離をする際、各パートを認識するために音源全体を俯瞰する必要があります。一方で、瞬間的に鳴る音、例えばハイハットのような、すごく短くて特定の周波数の帯域だけで鳴る音に注目する必要もあります。

これらをひとつのAIで処理する方法もあるのですが、全体を俯瞰するAI、特定の帯域だけを見るAIというものを別々に設計して、それらを一体化させる。そういった設計を行っていくと、どんどん精度が上がっていきます。

音源分離に特化したAIの設計資料の一部
音源分離に特化したAIの設計資料の一部

好きな楽器の音だけを取り出せるようになる

この技術を使えば、昔のモノラル音源からボーカル、ギター、ベース、ドラムといったそれぞれのパートを抜き出して、それを新たにステレオサウンドや5.1チャンネルサラウンドなどにできるということなのでしょうか。

光藤:可能です。特に昔の音源の場合、それぞれの楽器パートが既に存在しない場合が多いと思いますが、「音源分離技術」が一般的になると、CDや音楽データさえあれば、誰もが好きな楽器の音だけを取り出せるようになる未来が来る可能性があります。 

我々開発陣も、「音源分離技術」が一般的に広まれば、VRやARなどのヴァーチャルな空間との相性が良いのではないだろうかというイメージはできているのですが、今までにない技術なので、人は何をするのかまでは想像が及ばないところではありますね。

音楽制作の世界で、すでに「音源分離技術」は実用化されているのでしょうか。 

高橋:他社の製品になりますが、iZotopeのRX7など、バンドアンサンブルから各パートを抜き出せるプラグインが発売されていて、かなり話題になっています。

音源分離技術は映画業界からも注目されている

光藤:また音源分離技術は、音楽だけではなく映画業界からも注目されているんです。

高橋:現在ハリウッドではAIを推進する動きが高まっていまして、例えば、モノクロの映画をカラーにしたり、銃の出てくるシーンを自動的にピックアップしてくれたりと、AIを活かした技術が各社から発表されています。

ハリウッドにはそのような技術を発表する技術交換の場もあり、音源分離技術も映画の制作に役立つのではということで、先日我々も技術を紹介してきました。

映画ではどのような使い方を想定されていますか?

光藤:基本的には音楽と同じ考え方ですが、リミックスというよりアップミックスという感じです。 

高橋:例えば、Dolby Atmosが映画館での音響フォーマットとして一般化されていますが、昔のコンテンツは対応していません。そこで、それらを対応させたいというときに音源分離技術が役立つのではと思っています。

技術の精度が更に増していくと、音楽制作の世界にはどんなメリットがあると思われますか?

光藤:想像がつかない部分もありますが、まずリミックスが容易に作れるようになると思います。現在は、音源の各パートのステム素材は限られた人しか使用できません。 

しかし「音源分離技術」がある世界では、手持ちのステレオ音源から、各パートを抜き出してリミックスできようになってくるかなと思います。ただこれは技術的な話で、権利的な話はこれから整備が必要と考えています。

高橋:ライブで各楽器を別々に録音していないケースなど再編集が難しい場合は、音源分離技術を使うことでかなり楽になる可能性はあります。

光藤:もうひとつは、古いフォーマットの音源を最新のフォーマットで聴けるようになるということです。モノラル音源やステレオ音源を、5.1チャンネルサラウンドやDolby Atmos、Sonic Surf VRで聴くということができるようになると思います。

波面合成技術を用いてソニーが開発した空間音響技術「Sonic Surf VR」、それを用いて企画されたインスタレーション「Odyssey」紹介動画

分離音か原音か区別できなくなるのが究極のゴール

音源分離技術において現時点での最終的な目標というのはあるのでしょうか。

高橋:多分、人間が聞いて分離音か原音か区別ができないというところが究極のゴールだと思っています。現時点では、分離音か原音かというのは人間が聞くとわかってしまう。それが区別できなくなるというのが究極のゴールではないでしょうか。 

光藤:現実的な話で言えば、ソニーのビジネスに音源分離技術で貢献するという目標もあります。ソニーが開発する機器に音源分離技術を活用した機能を搭載したり、音楽や映画の制作過程で取り入れられたりするようにするというのが、最初の目標です。 

最終的には、トラックに分かれた元データがなくてもいいという世界が来るまでたどり着きたいですね。非常に抽象的ですが、ミックスされたものしかない世界から、それぞれ単体のものに戻れるという世界が普通になればいいなと思っています。

Writer:三浦一紀
Editor:長谷 憲