2023.02.02

AIと音楽家がよりクリエイティブな関係性を築くには? AI研究者・アーティスト・DJの徳井直生(Qosmo Inc.)に訊く

AIを「誤用」するためのツール開発

音楽生成AIを使って作曲をする際におすすめのアプローチはありますか?

積極的にAIを「誤用」することだと思いますね。AIだからといって、必ずしも「正解」を期待しなければいけないというわけではなく、もっと自由に、あえて間違った使い方をやってみる。例えば、AIが提案してくるおすすめのコード進行をあえて崩してみる。

最終的にはそれで自分が気持ちいいものができるかどうかだと思うので、AIの提案を鵜呑みにしなくてもいいと思います。あとは、AIを使ってこれから作る曲の方向性をたくさん作り、ブレストの相手として使うという方法も考えられますね。

今後、「AIとの作曲」をより身近なものにするためのハードウェアやインターフェースについてのアイデアはありますか?

前提となるのは、先ほども言ったように「誤用」できるものであるということ。その上で、ミュージシャンが簡単にDAW上で使えるツールを作るということですね。そういった考えから、2019年にMIDIベースで簡単にリズムを生成するモデルを学習して利用できるシステムをパッケージしたMax for Live向けのデバイス「M4L.RhythmVAE」をリリースしています。

M4L.RhythmVAEのデモ映像。解説記事はこちら

また、リアルタイムで音響処理できるAIモデルをパッケージした「Neutone」という製品をリリースしています。プラグインの形になっているので、それぞれの普段使っているDAW上で使うことができます。コミュニティ型のプラットフォームとしての機能も備えていて、AI研究者やエンジニアが開発したAIモデルをクリエイターと共有することができるようになっています。

Neutoneのデモ映像。解説記事はこちら

なぜこういうものを作ったかというと、AI作曲を身近なものにしていくためにはクリエイターが自分で使うAIモデルを自分自身で学習できるからなんですね。それによって、AIを誤用できる幅が広がるわけです。

例えば、ミュージシャンが使うDAWなど音楽制作機材は、なんとなく“完璧なもの”が求められるようなイメージがあると思います。だからAI作曲ツールを使う際にも、どんなジャンルでも使える賢いシステムが必要になるという思い込みが生まれている気がする。

でも、AIも道具であると考えれば、ミュージシャンはそんなに汎用性のある道具を求めているわけではないんじゃないかとも思うんです。AIでありとあらゆるスタイルの曲を作りたいというわけではないと思うんですよね。好きなタイプの曲に関して学習して、それをうまく自分の制作に使える感じの「小さくてちょっとおバカなAIモデル」を学習のところから簡単に自分でシステムに応用できるような仕組みを作ることができれば、作曲におけるAIの活用がより身近なものになっていくんじゃないかと思っています。

AIが得意なこと、不得意なこと

せっかくなので、AIがどのように学習を行っているかについても簡単にお聞きしていきたいです。まず、音楽生成AIと画像生成AIの違いはどういったところにあるのでしょうか?

僕のパフォーマンスで使っている音楽生成AIは、画像生成AIで使われているGANというアルゴリズムに基づいているので、基本的にそんなに大きな違いはありません。でも音楽の場合は、WAVのように波形で扱うのか、あるいはMIDIで扱うのかというように音楽をどのレベルで表現するかという課題があります。そこが画像生成AIとの大きな違いですね。

AIを使った音楽生成は、少し前まではMIDI形式での生成がほとんどでしたが、それは単純に生成しなければいけないデータ量が関係しているからです。例えば、CD音質のWAVの場合は、1秒間に生成しないといけないサンプルの数は画像に比べて膨大な量になってしまいます。また音楽の場合は、時間経過という要素もあるのでその前後関係を把握した上でサンプルを生成しなければいけないので技術的に難しかった。でも、最近の技術の進化によって波形を生成する技術も出てきました。

※Qosmoが音楽領域での最新AI活用事例をまとめたホワイトペーパー(無料でPDF配布中)

時間経過の話もでてきましたが、AIによる音楽の学習もやはり時間経過に沿って行われるのでしょうか?

基本的にはそうですね。音楽の場合は冒頭に出てきたフレーズが後半になってメインのフレーズとして現れるようなものもあるので、時系列の依存関係を解決することが必要になります。ただ、それはAIが苦手とする領域です。

例えば、チャットbotの場合だと数年前の時点である程度の文章自体は生成できましたが、その頃はまだそれが繋がって長い文章になった時にちゃんと整合性がある文章は作れませんでした。でも、最近ではそれが改善されてきたことで、ChatGPTのようにすごく整合性がある文章を作れるものも出てきたんです。

音楽の場合も、MIDIレベルではかなり整合性があるものを生成できるようになっています。しかし、音響レベルでは先ほど言ったように時間的な依存関係やデータ量の問題があるため、整合性があるものを生成するのが難しい。とはいえ、僕のパフォーマンスで使っているような小節単位でリズムなどを生成できるAIモデルはすでに存在していますし、最近はその部分も少しずつ改善されつつあります。

DAWの登場によって音楽制作にはパート分けを視覚的に表現するレイヤーという概念が浸透しました。AIによる音楽の学習・生成においてもそういった概念があるのでしょうか?

MIDIレベルだとAIモデルはパートごとにトラックを分けて生成していくことができますが、音響レベルでは違います。

これに関してはOpenAIが公開している「Jukebox」というシステムが良い例です。そのシステムではアーティスト名とジャンル、歌詞を指定すると、そのアーティストがその通りに歌ったものが波形として生成されるのですが、このAIモデル自体は一切音楽的な構造に関しては学習していません。

簡単に言えば、CDに入っている音楽の波形そのものを丸暗記しているようなものですが、現時点の音響レベルでは音楽的な構造をきちんと理解させた上で生成するよりも、こういった形で単純にデータとして扱った方がうまくいくんです。

徳井さん自身が「Jukebox」を使用して作った、フランク・シナトラ風の「Over the Rainbow」。解説記事はこちら

音声分野に比べて画像分野のほうがAI活用の技術革新が進むのが早いように見えますが、どうしてでしょうか?

これも一番の理由はデータ量の違いですね。今の深層学習技術が急に進歩し始めたのは2011年前後ですが、結果的にその技術が最初に画像認識の分野で使われるようになり、のちに画像生成の分野に繋がることになりました。

また2008年頃にスマホが登場したことで、みんながSNSで画像をアップロードするようになったのも大きいです。単純に学習のための教材が爆発的に増えたんですね。あとは身も蓋もない話ですが、画像は音楽よりもマーケットが大きいことも理由のひとつかもしれません。

音楽の場合はBGMのように、あくまで環境音楽としての機能だけが求められる市場も存在しますよね。一方でイラストの場合は、たとえAIに生成させた場合でも誰がその命令を下したが重要視されるなど、音楽よりも人が介入していることが重要視されやすい傾向があるように思います。こういった差異についてはどうお考えでしょうか?

確かに現時点ではそういう捉え方ができるかもしれませんが、僕は将来的にはイラストも音楽と同じようになっていくと思います。例えば、今はまだ僕らは本なり、Webブラウザなりでテキストを読んでいますが、 将来的にはそこに自動的にイラストや挿絵が追加されるようになるかもしれません。AIはそういうこともできてしまうんです。

そう考えるとAIの普及によって、イラストなどビジュアルの分野にもBGMのような、なんとなくそこにあっても気にならない、流し見できるようなものへのニーズが生まれるのかもしれません。

最後に、徳井さんがAIの研究開発やそれを使った表現を今後どのようなスタンスで続けていくのか、改めて教えてください。

最初に言ったように、僕自身はまだ知らない、聴いたことがない音楽を自分の手で形にしたいという思いがあって音楽生成AIの開発に取り組んできました。すでに存在する音楽様式を作ることに関してはAIが自分の代わりにやってくれるというのであれば、そこはAIに任せて、「そこから半歩でも外に出て行こう」というスタンスです。

今後もスティーヴ・ジョブズの名言「宇宙にへこみを作りたい」じゃないですけど、既存の音楽の枠の外にちょっとだけでもいいので出っ張りを作りたいという気持ちで人間の可能性を拡張していくことに取り組んでいくつもりです。

取材・文:Jun Fukunaga

徳井直生 プロフィール

アーティスト/研究者/DJ。AIを用いた人間の創造性の拡張を研究と作品制作の両面から模索。AIを用いたインスタレーション作品群や音楽作品で知られる。これまでに手がけた作品は、ニューヨークMoMA、バービカンセンター(ロンドン)、NTT InterCommunication Center、アルスエレクトロニカなどで展示されている。また、AI DJプロジェクトと題し、AIのDJと自分が一曲ずつかけあうスタイルでのDJパフォーマンスを国内外で行う。2021年1月には、これまでの活動をまとめた『創るためのAI 機械と創造性のはてしない物語』を出版 (2021年度大川出版賞受賞)。 東京大学工学系研究科博士課程修了。工学博士。慶應義塾大学SFC准教授。

株式会社Qosmo 企業概要

「アートとテクノロジーを通じて人類の創造性を拡張する」をビジョンに掲げ、2009年設立。アーティスト、研究者、プログラマ、デザイナーから構成される。創造性のフロンティアを切り開く作品制作を通じて、多くの人が創造的に働き・学び・暮らせる社会の構築に寄与することをミッションに活動中。