2023.02.02

AIと音楽家がよりクリエイティブな関係性を築くには? AI研究者・アーティスト・DJの徳井直生(Qosmo Inc.)に訊く

昨年はイラストなど、ビジュアルの分野で画像生成AIの活用に注目が集まりました。音楽制作の分野においても、Soundmain Studioにも搭載されている音源分離・歌声合成機能を始め、AI技術を活用したさまざまな音楽ツールが発表されています。

2023年以降の音楽制作におけるAI活用はどのようになっていくのか。その可能性を探るべく、慶應義塾大学で教鞭をとる傍らAIツールを開発する企業・Qosmoの代表を務める徳井直生さんにインタビューを行いました。

徳井さんは、AIを用いた人間の創造性の拡張を研究と作品制作の両面から模索する活動に取り組んでおり、これまでに手がけた作品は、ニューヨークMoMA、ロンドン・バービカンセンター、NTTインターコミュニケーション・センター、アルスエレクトロニカなどで展示されています。2021年の単著『創るためのAI――機械と創造性のはてしない物語』は技術的・歴史的な文脈を丹念に辿りながらAIと人間の創造性の関わりについて著し話題に。AIとステージ上で共演するDJパフォーマンスにも長年取り組んでおり、昨年12月に東京で開催されたMUTEK.JP 2022ではその最新バージョンをパフォーマンスしています。

MUTEK.JP 2022でのパフォーマンス映像

今回はそんな徳井さんに、AI DJに取り組む理由や、画像生成AIと音楽生成AIの技術的な違い、AI作曲を始めとした人間とAIの対話から生まれるクリエイティブなど、AIを使って音楽を作ることの可能性やその本質について伺いました。

「AIジョッキー」的ライブパフォーマンス

経営者や大学教授などさまざまな顔をお持ちの徳井さんですが、個人としてAIの分野で取り組まれていることについてまず教えていただけますか。

僕自身の活動としては2000年前後から継続して、「まだ誰も聴いたことがない音楽を作る」ということをテーマに取り組んでいます。元々DJをやったり楽曲を作っていたこともあって、5年ほど前からAIを使ったB2BのDJなどをやっていました。ここ1年半はそのAI DJの取り組みをもう一歩進めて、AIを使って選曲するのではなく、リアルタイムでAIモデルが生成する音を使って、それをステージ上でミックスするというパフォーマンスを行っています。

AI DJ Project#2(MUTEK.JP 2022のひとつ前のバージョン)ダイジェスト映像

そうした活動を始めた理由を教えてもらえますか?

曲作りでAIを使い始めたのは2000年代初頭くらいで、当時はNujabesのようなアーティストとも一緒に楽曲制作していました。その頃に考えていたのは、AIのシステムがあればいろいろなフレーズやリズムの可能性を効率的に試せるということです。またその結果として、自分1人では考えつかないような音楽が作れるようになるとも思っていました。

AI DJに関しては、はじめは全自動でAIにやらせようとしていたんです。ただそのやり方だとどうしても意外性がなく、こじんまりしたパフォーマンスになってしまう。そこでAIとのB2Bというやり方にすることで、僕自身がAIにとっての“ノイズ”としてそのシステムに介入することで、AIだけでも、僕だけでも思いつかない選曲が実現できるようになると考えました。そこから発展して、現在やっている形のパフォーマンスに至ったという感じですね。

現在、取り組まれているAIを使ったパフォーマンスの技術的な背景について教えてもらえますか?

少し前まではMIDIを使いながら、リズムやそれに合ったベースラインの音を生成するAIモデルなどをいくつか使って試すということをやっていました。

2018年バージョンのAI DJパフォーマンスの動画。解説記事はこちら

でも、その形だと人間の手だけでは多くのシンセやリズムマシンの音色をリアルタイムで即座に選択して、かつ、それらが調和する形で展開を作りながら音楽を作っていくのはかなり難しいんです。なのでそのやり方は一旦諦めて、今はリアルタイムに音そのものを合成する音響合成を用いたやり方にしています。

このやり方になったのは、単純に2年前にはできなかったことが今は技術的にできるようになったことも大きいですね。AIを使ってMIDIを生成していく技術自体は、僕がAIを使い始めた頃からありましたが、AIがリアルタイムで音響合成するということは最近になってようやく実現できるようになったことなんです。

仕組みとしては、画像生成のアルゴリズムであるGAN(※)をスペクトログラム(周波数×時間×振幅の3次元データ)の生成に応用するものになっています。ただ、スペクトログラムには位相の情報がなく、単純には逆変換できないので別のGANを使って、WAVなど波形に逆変換させています。

※ GAN(生成的敵対ネットワーク):AIのアルゴリズムのひとつで、生成器(Generator)と識別器(Discriminator)という二つのニューラルネットワークを「敵対」させることで学習を行うというもの。生成器は学習データに含まれるデータのパターンを学習し、ランダムなノイズ(乱数)を入力として学習データに類似するデータを生成するように学習を進める。それに対して識別器は、入力されたデータが生成器の学習データに含まれるいわば「本物」のデータなのかをより正確に識別しようと努める。この二つのネットワークがお互いを出し抜こうとすることで学習が進み、最終的には学習データにそっくりなデータを生成できるようになる。(『創るためのAI』より解説を抜粋、一部改変)

そして、リズムやベースラインなどの音を学習させたAIモデルを複数用意しておき、それぞれのAIから出力される音を僕がDJとして、ステージ上でリアルタイムでミックスしています。その際は細かいスペクトログラムを生成するAIモデルの細かいパラメータもモーフィングさせていきますが、このやり方だとモーフィングに関しても普通のDJパフォーマンスではできない独特の面白い効果を生み出すことができます。

正直、音質面ではまだまだ普通のソフトシンセと比べると劣りますが、その代わりにさっき話したように独特のモーフィングのさせ方であったり、バリエーションをいくらでも作り出せるなど即興性の高いパフォーマンスができるのもこのやり方の特徴です。

なるほど。トラックの抜き差しで曲を構成していくダブミックスに似ていますね。

そうかもしれませんね。AI DJと銘打ってはいますが、DJというよりは、AIをリアルタイムで手なずける“AIジョッキー”と言えるものになっていると思います。既存のものの中では、Ableton Liveを使って、自由にリズムやウワモノなど各パートを組み合わせたり、音数を増やしたり、減らしたりできるDJが、感覚的には近いかもしれません。

MUTEK.JP 2022でも披露した最新パフォーマンスでは、映像もAIがリアルタイム生成したものが流れた

「AIがクリエイティブな仕事を奪う」という誤解

昨年、画像生成AIが出てきた際にはクリエイティブ職が仕事を奪われるのではないかという「AI脅威論」が再燃しました。今後音楽領域にもAIが浸透していくにあたって、なぜこうした論調が出てくるのか徳井さんの見解をお聞きしたいです。

AIに対して、何でもできて、絶対に間違いを起こさない“完璧なもの”だったり、人間を模倣することで効率よく大量生産できるから自分が置き換えられてしまうという印象を持つ人はまだまだたくさんいる印象は確かにありますね。

ただ、実際にはAIに人間を真似させたとしても、どうしてもAIには再現できない部分もあるんです。僕がやっているAI DJにしても、もちろんAIでできないことはあります。

一方でAIには、人間の能力では今までできなかったことができるようになるという、表現そのものの可能性の部分でのメリットもあります。

つまり、AIを使うことで人間が人間にしかできない部分にもっとフォーカスできるようになれば、人間ができる表現自体も拡張していくはずなんです。僕としてはAIをそういうものとして捉えているので、自分の活動を通じて、そのイメージを音楽家の人に伝えていきたいと思っています。

現在の音楽シーンでもAIは音楽プラットフォームのパーソナライズ機能をはじめ、作曲アシスタントツールやサンプル生成などさまざまなかたちで活用されていますが、他にはどのような音楽シーンにおけるAI利用の可能性が考えられますか?

たとえば僕が経営するQosmoでは、AIが季節や時間、店内のインテリアなどから判断して、お店に適したBGMの選曲をしてくれるUSENさんのAIチャンネルの開発に関わっています。

最近では、作家性を問われることが少ない睡眠や集中力を高めるためのBGMの楽曲生成にAIが使われることも増えていますね。音源分離の他、音源の自動ミックスにもAIが使われるケースがあります。

あとは昨年話題になった画像生成AIの「Midjourney」や「Stable Diffusion」の音楽版――テキストから音楽を自動生成する――の登場が今年の大きなトピックになりそうな予感がします(徳井さんより補足:このインタビューの直後、まさにそのようなシステムである「Riffusion」が発表されました)。とはいえ、そういったものは仕組み上、AIが学習したフレーズや音楽スタイルの切り貼りのような形で音楽を生成するため、それが音楽家の創造性を高めるものになるかどうかと言われると個人的には懐疑的ではあるのですが。

ちなみにそういった「AIが作る音楽」が一般的に普及した場合、人間が作る音楽とはどういった形で棲み分けが進んでいくと思いますか?

基本的にAIは音楽理論的に正しいものなど、最大公約数的なものを生成するのが得意なんです。でも、そのような中からは新しい音楽スタイルは生まれにくいと思うんですね。

例えば、ノイズだと思っていたギターフィードバックが実はかっこいいとか、バッハの時代であれば不協和音にしか聴こえないような音でも、少し時代が経ってモーツァルトの時代になると美しいとされるなど、音楽の歴史を振り返るとそういった表現の拡張がこれまで何度も行われてきました。

そういったことが起こるのは、人間に身体があるからこそです。結局、音楽理論的におかしいものでも身体が心地よいと感じたり、頭でかっこいいと感じるのであれば、既存の音楽理論は関係ない。AIにはそういった人間的な気持ちを認識するという部分がないので、今後はそういった意外性の部分での棲み分けが進んでいくと思います。

AIを使うことによって人間の表現を拡張できる環境が広がったとしても、人間が音楽を作りたいという気持ちそのものがなくなることはない?

そう思います。僕自身はあまり音楽を通じて何かメッセージを伝えたいというタイプではないのですが、それでも人間が自分の感情を伝えたいと思うこと自体は今後もずっと続いていくと思います。逆に、特に感情を伝える必要がないBGMの制作のような仕事については、AIの普及とともに人間は担わなくなっていくでしょう。

一方、今後は個人的な感情やメッセージを伝えるための手段のひとつとしてAIを使う機会も増えていくと思います。そうなったときに、AIが提示してきたものがどこかで聴いたことがある、ありふれたものだったとしたら、「自分の伝えたいと思っていた感情を表す音楽ではない」と感じると思うんですよ。そうなった時に初めて、多くの人の中に「AIを使ったとしても、その枠の外にはみ出して何か新しいものを探そう」という意識も自然に湧いてくるんじゃないかと思います。

実際にカメラができたことで写実的な絵を描くことがつまらないと感じるようになったピカソが出てきましたが、逆にそれでも写実的な絵を描くという人もいて、そこに新しい価値が生まれるということもありました。

音楽もそれと同じというか。たとえばRolandのTR-808にしても、元々は人間の演奏を模倣しようとして開発されたものですが、模倣しきれなかったことでヒップホップやドラムンベースなど、これまでとは全く違う新しい音楽ジャンルが生まれました。また、その後にはやっぱり人の手でドラムンベースをやりたいと思う人も出てきたり、機械を人間が模倣するという逆の流れができたり、そういった模倣のし合いの中からも新しいものが生まれています。

そう考えると「AIによって人間のクリエイティビティが損なわれるかもしれない」という悲観的な見方に対しては、「人間のクリエイティビティはそんなところでは終わらない」と返すことができますね。