
Microsoftが音声版DALL-E「VALL-E」を発表。音声の収録環境の特性や、感情ごとに異なる周波数特性も再現
2022年はイラストレーションの分野において、Stable DiffusionやMidjourneyといった画像生成AIに大きな注目が集まりましたが、今年はその技術が音楽分野でも大きく広がることになるかもしれません。
その可能性を担うAIのひとつが、今年1月5日(現地時間)にMicrosoftの研究者らによって発表された人間が話す声の3秒分のデータを与えると、その人のようにテキストを読み上げられるようになるAI「VALL-E」です。
現在の報道によれば、GitHubで公開されたVALL-Eのサンプルでは、「怒っている様子」や「眠そうな様子」などのトーンも追加できているとのこと。
Microsoftが「ニューラルコーデック言語モデル」と呼ぶVALL-Eは、Metaが昨年10月に発表した「EnCodec」に基づいて構築されています。分析した人間の声をEnCodecで個別の「トークン」に分割し、トレーニングデータを使ってトークンを生成することで音声が生成されます。

またVALL-Eの音声合成機能は、Metaによる7000人以上の人間による6万時間分の英語音声が含まれている音声ライブラリ「LibriLight」でトレーニングされているとのこと。
VALL-Eのウェブサイトでは、VALL-Eが音声を真似るための3秒間のサンプル音声「Speaker Prompt」、サンプル音声の人物が、比較のためにVALL-Eが合成するのと同じ文章を話した音声「Ground Truth」、従来の音声合成で作った音声「Baseline」、VALL-Eが出力した音声「VALL-E」が並べられており、聞き比べられるようになっています。
またVALL-Eはサンプルの声色だけでなく、電話での話し声など音声の収録環境の特性や、感情ごとに異なる音声の周波数特性を再現することもできます。
この技術を活用することで誰かの短い音声サンプルさえあれば、簡単にその人が話したことがないことでも、その人の感情込みの声とそっくりな音声の合成が可能です。
ちなみに、Microsoftの研究者による論文では「VALL-Eは音声によるなりすましなど、潜在的なリスクを伴う可能性がある。そうしたリスクを軽減するために、音声クリップがVALL-Eで合成されたかどうかを識別するモデルを構築することが可能だ。また、モデル開発の際にはMicrosoftのAI原則を順守する」と、悪用のリスクとその対応策についても言及されています。
サービスとして一般ユーザーに使えるようになるには、クリエイターや技術者だけでなく、法律的な観点も交えたガイドラインの策定も必要になってくることでしょう。今後の動向に注目していきたいところです。
文:Jun Fukunaga
【参考サイト】
https://www.itmedia.co.jp/news/articles/2301/10/news087.html