文章が「音楽」に。AI作曲は音楽家にとって脅威か、よきツールか。来るべき音楽制作の未来を考える

2023.06.22 Thu

2023年6月、The Recording Academyは『グラミー賞』における楽曲内でのAIの活用に関するルール、ガイドラインを発表。同アカデミーCEOのハーヴィー・メイソンJr.は、「AIの歌っている声やAIの楽器があれば検討する」とつけ加えながらも、ソングライティングに関するカテゴリーにおいては「そのほとんどが人間によって書かれたものでなければならない」とし、パフォーマンス部門においても「対象となるのは、人間のパフォーマーだけです」と「GRAMMY.com」のインタビューで回答した（※1）。

現時点では、音声変換によるAIの声真似（ディープフェイク・オーディオ）によって故人の声をも再現可能となり（※2）、AIによって生成されたドレイクとThe Weekndの歌声を用いた楽曲、ディープフェイクによるフランク・オーシャンの偽のリーク音源が出回るといったケースまで出てきている。その一方で、すでに実際の音楽制作の現場でも我々が思っている以上にAIは活用されているようでもある。制作のアシスタント的にAIを用いた実例は、「Pitchfork」の記事で詳細に紹介されている（※3）。

AI作曲がもたらす革新をヒップホップ黎明期のサンプリングと重ねて論じる向きもあるが（同上）、この急速に発達する技術にどう向き合えばいいのだろう。Googleが発表した音楽生成AI「MusicLM」を入り口に、ZINE『音楽とテクノロジーをいかに語るか』を上梓したばかりのライターimdkmが、「AI作曲」が我々に問いかけることを考える。

※1：GRAMMY.com「Recording Academy CEO Harvey Mason Jr. On How The New Awards Rules And Guidelines Will Make The 2024 GRAMMYs More Fair, Transparent & Accurate」参照（外部サイトを開く）

※2：imdkm執筆記事「『AIアンディ・ウォーホル』の声にざわつくのはなぜか。いまAIの合成音声が揺るがす、耳と声の関係」より（記事を開く）

※3：Pitchfork「Musicians Are Already Using AI More Often Than We Think」参照（外部サイトを開く）

文章から音楽を生成するAIをGoogleが発表。その実力、実用性は？

2023年1月、Googleは文章から音楽を生成するAIモデル「MusicLM」を発表した。

Googleが公開した「MusicLM」によるサンプルは、「Stable Diffusion」や「Midjourney」などを通じて世間を驚かせていた画像生成AIに匹敵するインパクトをもたらすものだった。ただし、著作権上の問題を考慮して、「MusicLM」そのもののリリースは見送られた（※）。

※編注：2023年5月、「AI Test Kitchen」を通じて一般に向けたテスト版が公開された

サウンドメイキングの新たなツールとしての『MusicLM』の可能性をサウンドアーティストらが探る動画。映像内ではテキストが音楽に変換されるだけではなく、鼻歌をジャズの演奏に変換するなどさまざまな活用法が映し出される（外部ページを開く）

生成されたクリップや楽曲について論評しようとすればいくらでも足りない部分は指摘できる。しかし、「たしかに音楽らしい」と感じられる程度の構造を持っている。

たとえば、「Long Generation」のデモにある「melodic techno」を聴いてみると、5分と長尺ながら、4つ打ちで、8小節もしくは16小節単位で展開するテクノらしさをきちんと持っていることがわかる。惜しむらくは、「はじまりがあり、じわじわと盛り上がり、カタルシスを迎えて終わる」といった全体の構成を欠くところくらいだろうか。

こうした構成を維持することの難しさは、AIが抱える大きな問題でもある。その点で、「MusicLM」においては「Story Mode」がよい解決策になるだろう。指示を連続的に与えることで、前の部分から雰囲気を保ちながら新しい展開をつくることができるようにもなっている。

ジャンルや楽器の指定、音楽用語、形容詞を的確に反映する実力はなかなかのもので、ひとつの鼻歌や口笛からさまざまなバリエーションのアレンジをつくりだす「Text and Melody Conditioning」のデモは聴き比べるだけでもおもしろい。

AIの生成する音源と、現代に流通する楽曲の決定的な違いとは

テキストから音声ファイルをそのまま生成する『MusicLM』のようなAIモデルはText-To-Musicと呼ばれ、2020年に発表された『OpenAI Jukebox』を嚆矢として、近年開発が進んでいる分野だ。

それまではMIDIファイル（※）のように譜面を生成することが中心で、サウンドを扱う場合も、譜面の生成とそれを実際のサウンドに落とし込むプロセスがわかれていたりしていた。しかし、いまやText-To-Musicの分野では「Mubert」「Riffusion」「Soundraw」など、実際にユーザーが使うことができるサービスも登場している。

※編注：MIDI（Musical Instruments Digital Interface）とは、1983年に制定された電子楽器の演奏データをデジタルに転送するための規格のこと。シンセサイザーやリズムマシン、および音源ソフトなどといった「音源」を鳴らすためのコントロールデータを指して、MIDIトラック、MIDIファイルなどとも呼ばれる / 横川理彦『サウンドプロダクション入門 DAWの基礎と実践』（2021年、ビー・エヌ・エヌ）参照

『OpenAI Jukebox』を用いて音楽を生成するプロセスを解説した動画（外部ページを開く）

テキストでうまく指示（プロンプトと呼ばれる）を与えさえすれば、それらしい音楽をつくりだしてもらえる。まさに夢のような話だけれど、だからといって既存の音楽（音楽家）がAIに置き換わる未来が来そうかというと、少し難しいところがある。それは、「AIが生成する音楽の質が低い」という問題ではなく、AIによる作曲が前提とする「制作」のモデルそのものが抱えている問題だ。

Text-To-Musicでは、テキストによる指示（プロンプト）が入力されると、それに応じた音声ファイルがまるごと出力される。それはあたかも、万能の作曲家が指示にしたがって完成品を納品してくれるかのようだ。しかし、ポップミュージックを中心とした現代の音楽は、必ずしもそのようにばかりつくられているわけではない。

いま、録音物としてひろく流通している音楽の制作工程は、たいていの場合分業化されている。作詞、作曲、編曲、演奏、録音、ミックス、マスタリング……等々、一つひとつの工程に専門家がいるのだ。もっと細かく言えば、メンバーが一人ひとり各楽器を担当するバンドやオーケストラもそうした分業のあり方だろう。

昨今は制作環境の発展もあり、ひとりで制作を完結するコンポーザーやシンガーソングライター、あるいはいわゆる「トラックメーカー」型のアーティストも珍しくはなくなった。しかし、そうしたスキルを持つソングライターたちが集まって一緒に曲を練り上げていく「コライティング・セッション」のような、新しい分業＝コラボレーションもすっかり定着している。

コライティングについて少し補足しておくと、北米を中心として、2010年代の後半には1曲のヒットソングを生み出すのに5人も6人もソングライターを必要とする状況が当たり前となり、いまでもその状況は大局的には変わっていない。たとえば、2021年にリリースされ、2022年にかけてロングヒットとなったThe Kid LAROIとジャスティン・ビーバーの“Stay”には、9名のソングライターが名を連ねている。

関連記事：なぜザ・キッド・ラロイは『東京卍リベンジャーズ』とコラボを？背景を紐解いて見えてくる必然性（記事を開く）

このように、具体的な制作の現場を見渡せば、「ひとつの楽曲がたったひとりのつくり手と結びつく」というのはある特殊な領域の話か、もしくはなんらかの単純化を施した結果にすぎない。しかし、AIによる「作曲」は、こうした分業のあり方をすっ飛ばしてしまう（そもそもAIを作者と呼べるのかどうかには議論の余地があるが）。少なくとも音声ファイルを出力するText-To-Musicに関しては、着想から完成までがAIのブラックボックスのなかで完了してしまうのだから。

いまのところ、Text-To-MusicのAIが生成するのは、単一の音声ファイルだけ。あとから編集しやすいように、各パートをばらばらに（いわゆるステムのようなかたちで）出力してくれるわけではない。「ここのギターソロ、もうちょっと違うフィーリングのものがほしいな」と思っても、そこだけ差し替えることはできないだろう。

あるいは、AIが生成したボーカル入りの楽曲に、放送できない言葉（そのように聞こえる音）が入っていたらどうだろう。たいていの場合、放送に適さない言葉を歌詞に含む楽曲は、放送用に「クリーン・バージョン」がつくられる。ボーカルのパートに編集を加えて、該当箇所を聞こえなくするのだ。しかし、手元に完成した音声ファイルしかないなら、そうした編集をすることは基本的にできない。

AIを制作のアシスタントとしてどう活用するかが問われる一方、「AI作曲」の登場がもたらすインパクトはまだ計り知れない

ワンストップで音楽を生成するブラックボックスとしてのAIは、拙いながらも「創作」と呼んで差し支えない能力を持っているかもしれないが、だからといって現代的な「コンテンツの生産」のあり方にフィットしているとは限らない。短期的に見れば、Text-To-Musicのさらなる高度化を望むよりも、AIがもたらす恩恵を現場にどう活かすかのほうが重要になってくるだろう（GPT-4を活用しようとするさまざまな試みのように）。

実際、音楽制作を助けてくれるアシスタントとしてのAIは徐々に実用化されはじめている。以前書いたこともある音源分離もそのひとつだろうし（※）、作曲や録音のあとで行なわれる、ミックスやマスタリングといった専門的な工程にもAIが活用されるようになって久しい。

※関連記事：AIがもたらす音楽の未来は？ザ・ビートルズ『Revolver』を生まれ変わらせた音源分離技術から考える（記事を開く）

The Beatles『Revolver』（2022年最新デジタルリマスター版）収録曲。本作は、テープ上に固定された録音から特定の種類の音だけを取り出す音源分離技術（デミックス技術）が用いられている。デミックスは、各楽器のサウンドやメンバーたちの話し声をAIに学習させることで可能となった

また、ソニーコンピュータサイエンス研究所の「Flow Machines」は、メロディやコードの伴奏、ベースラインなどを含む作曲をアシストするツールとしてのコンセプトを打ち出して開発が進められている。

また、対話型のインターフェースを備えたブラウザベースのDAW（※）「WavTool」は、シークエンスの生成、DAWの使い方や専門用語の説明などを代行してくれる機能をも持つ。

※編注：PCを用いた、いわゆる打ち込みの音楽、デスクトップミュージック（DTM）の制作に欠かせないもので、デジタルで音声の録音、編集、ミキシングなど一連の作業ができるように構成された一体型のシステムのことを指す。Pro ToolsやAbleton Live、Apple社のLogic ProおよびGarageBandなどがよく知られる

WONKやmillennium paradeでの活動でも知られる音楽家、江﨑文武による「Flow Machines」のチュートリアル動画

「WavTool」とGPT-4を用いて音楽を生成するデモ動画

Text-To-Musicにせよ、もし実用化が進んでいくならば、これまでの人間中心の音楽制作にフィットするようなかたちで操作可能なパラメータが整備され、より細かなチューニングができるようになっていくだろう。

しかし、そうした妥当な洗練の道を追求するあいだに、AIによる作曲はコンテンツの生産のあり方自体を変えてしまうかもしれない。いまもすでに、部分的には（たとえば簡易的なBGMの制作など）変えてしまっていると言える。

単に特定の役割をAIが代替するという発想を超えたところに、AIのインパクトはある。それまで自明の前提とされていた環境、エコシステムそのものが変化してしまう可能性があるのだ（たとえばChatGPTの登場によって検索エンジンの存在意義が問われているように）。

「AI作曲」以後のDAWのUI/UX、あるいはコライトのあり方は？

もっとも、音楽制作においてそんな大々的な変化が実際に起こる見込みはそれほど高いとも思えないが、それでも考える価値はある。

たとえば、DAWをはじめとした音楽制作ソフトのインターフェースはAI作曲以後どのように変化するだろうか。

現状のDAWを、機械と人間とのあいだを仲立ちするインターフェースだとするならば、そこにAIという機械とも人間とも知れない第三項が加わるかもしれない。つまり、人間が機械に指示を与え、機械は人間にその結果を返すというインタラクションだけではなく、人間とAIが同等に機械に指示を与えて協働する。そんな未来のために必要なデザインがあるとしたら、どんなものだろうか。

スペキュラティヴ・デザイン（※）に片足を突っ込んだ、大風呂敷になってしまった。ここで少し、具体的な音楽制作の現場を想像する足場になりそうなコンテンツを紹介して終わろう。

※編注：英ロイヤル・カレッジ・オブ・アート教授であるアンソニー・ダンによって提唱された「問題を提起するデザイン」のこと。問題解決ではなく「問い」を生み出し、未来について考えるきっかけを提供することで、いまある世界に別の可能性を提示する / アンソニー・ダン、フィオナ・レイビー『スペキュラティヴ・デザイン問題解決から、問題提起へ。—未来を思索するためにデザインができること』参照（2015年、ビー・エヌ・エヌ）

DJ／プロデューサーのtofubeatsが主宰する動画企画「THREE THE HARDWARE」。ハードオフで購入した機材だけで1曲を仕上げる、音楽ドキュメントバラエティとでも言うべきコンセプトでコアなファンの多いシリーズだが、現在進行中の第5シーズンでは内容を一新。人から人へ制作経過のデータをリレーして、徐々に「曲」の姿が変わっていく過程を収めるコンテンツになっている。

各自に与えられた30分という時間制限のなかで試行錯誤をしていくうちに、それぞれの個性や強み、ワークフローのあり方が浮かび上がってくる（「トラックメーカー」然としていないスカートの澤部渡が登場するエピソード3はとりわけ印象的だ）。

ここに、プレイヤーのひとりとしてAIが登場する未来はありうるだろうか。与えられたファイルから意図を汲み、おもしろがり、受け継ぎ、裏切ってみせるようなAIはありうるだろうか。もしくはAI以後、このような企画は成立するだろうか？

書籍情報