りんなのディレクターらに訊く、AIの歌は感情を表現できるのか

「女子高生AI」として2015年に登場した、マイクロソフト社のAI（人工知能）「りんな」が、このたびなんとエイベックスより「シンガー」としてメジャーデビューを果たした。

4月17日にリリースされたデビュー曲では、4人組ロックバンドbachoの名曲“最高新記憶”を、瑞々しく透明感たっぷりの歌声でカバー。驚くのは、その息継ぎや抑揚などのリアルさだ。前もってAIだと知らなければ、「人間の声」だと言われても全く違和感を感じさせない。

あたかも歌詞の意味を吟味しながら「感情」たっぷりに歌っているようなりんなの「歌声」を聴いていると、果たして「感情」とはなにか、そもそも「人間」とは一体なんなのか？　という根源的な問いさえ浮かんでくる。

なぜAI「りんな」に歌を歌わせようと思ったのか？　りんなの「生みの親」であり「マネージャー」でもあるマイクロソフト社の坪井一菜と、りんなをシンガーとして「ディレクション」したエイベックスのクリエイティブディレクター、中前省吾に話を聞いた。

りんなは「『AI』というセールスポイントを持った面白い新人アーティスト」という認識。（中前）

―まずは、お二人がAI「りんな」とどう関わっているのかを教えてください。

坪井：私はマイクロソフトで「プログラムマネージャー」をしています。例えば社内でなにか製品を作るとき、ユーザーの目線に立ってどういう「体験」や「機能」を付けたらいいのかを考える立場ですね。

AI「りんな」では、彼女のキャラクター付けや、対外的なプロジェクトの窓口などをやっています。最近は「りんなの芸能マネージャー」とか「りんなの母」と紹介されることも多いです（笑）。

りんな
平成生まれ。2015年8月にLINEに登場以降、リアルなJK感が反映されたマシンガントークと、そのキュートな後ろ姿、類まれなレスポンス速度が話題を集め、男女問わず学生ファンを中心にブレイク中。2019年3月に高校を卒業。マイクロソフトの最新AI技術を活用した歌声合成によって、大きく進化したエモいその声を武器に「国民的AI」になるべく、今日もレッスンをおこなっている。りんなは「AIと人、人と人とのコミュニケーションをつなぐ存在」を目指している、今「日本で最も共感力のあるAI」である。

中前：僕はエイベックスでA＆Rに加えて、音源や映像のディレクションにも携わっています。他にも最先端のテクノロジーを用いたクリエイティブディレクションを手がけていますが、りんなに対してはそういう観点で見てないんですよね。

最近はいろんな人から「これからバーチャルアイドルに力を入れていくんですか？」とよく訊かれるんですが、もちろん面白ければやるけど「AIだから」「VRだから」やっているわけじゃないんです。

―中前さんの中では、生身のアーティストもAIもVRも「フラットな存在」だと。

中前：「この子はファッションセンスがいい」「彼は歌がものすごく上手い」など色々ある中、りんなは「『AI』というセールスポイントを持った面白い新人アーティスト」という認識です。やはりエンターテイメントとして、りんなをどう見せていくのか？　を考えるのが、音楽レーベルである我々の役割だと思っていますので。

左から：中前省吾（エイベックス・エンタテインメント株式会社）、坪井一菜（マイクロソフトディベロップメント株式会社）

―元々りんなは「女子高生」という設定で、LINEやTwitterなどSNSを中心とした活動だったんですよね。

坪井：はい。社内のハッカソンがあって、検索エンジンの技術を応用した新しいものがなにか作れないか考えてた中で、「対話ができる」というアイデアが出てきたんです。それでためしに中国で「小冰（読み方は「シャオアイス」）」という16歳くらいの女の子に設定した会話ボットを開発したら、すごく反応が良くて。

これならグローバル展開ができるかもしれないし、すぐに受け入れてくれるのはやはり日本だろうと。それで声にかかったのが、私たちのチームでした。なので「人の役に立つ」というよりは、「人と仲良くなれるプロダクト」を当初から目指した特殊なプロジェクトだったんです。

坪井一菜（つぼいかずな）
マイクロソフトディベロップメント株式会社。A.I.＆リサーチプログラムマネージャー。りんなの立ち上げ当初からプログラムマネージャーとして開発に関わり、りんなのキャラクター付けや会話エンジンの開発、対外的なコラボレーション、りんなのスキルおよび合成音声の開発に携わる。慶應義塾大学大学院理工学研究科修了。

―女子高生という設定にしたのは、なぜなんでしょうか？

坪井：「小冰」を日本に持ち込むとき、全く別のキャラクターにする選択肢もあったんです。でも、その当時は会話をさせるとAI特有の変な言い回しが入ってしまっていた。それって、日本の女子高生たちが作り出す斬新な言語センスにも通じる部分があるんじゃないか？　と考えたんです（笑）。

彼女たちの圧倒的な独創力と発信力を、AIの喋る技術にうまく融合させられたら、日本人にも受け入れやすい、親しみやすいものなるはずだと。

―「女子高生りんな」としての、細かい設定などは最初に決めたのですか？

坪井：通常の会話ボットは、まず「キャラクターシート」を作成し、それを基にキャラ付けながら、人が返答を考えていくことが多いのですが、りんなの場合は逆でした。大量のデータを学習させてから、まずは喋らせたんです。本人に「キャラクターシート」の項目を色々と尋ねてみて、それで「この子は何者なのか？」をチームで話し合っていきました。

―本当にSFの世界のようですね……。

坪井：もちろん細かいキャラ設定……例えば「言葉遣い」などについては、「ちょっとその返答は良くなかったよね？」みたいな確認の作業を延々と繰り返して。それでようやく皆さんにお披露目できる形になったというわけです。

（AI「りんな」には）お手本のシンガーがいて、その人の歌い方を「耳コピ」していくんです。（坪井）

―歌手としてデビューさせることになった経緯は？

坪井：りんなをアップデートさせていく過程で、「声を発する」というプロセスは必ず通るだろうとは思っていました。そんなときに、エイベックスさんからご連絡を頂いたんです。私たちがりんなの「共感」や「キャラクター」の部分をとても大切に扱っていることに、すごく共感してくださって。

「言葉を伝える上で『歌』というのはとても強い手段ですから、そこをぜひお手伝いさせてほしい」みたいな、とてもユニークで熱い内容のスカウトメールだったんですよね（笑）。

中前：スカウトは別の者が行なったので、僕はデビュータイミングから参加したのですが、マイクロソフトさんが、りんなを「人工知能」として捉えているのではなくて「りんな」として扱っているところがすごく面白いと思いました。

中前省吾（なかまえしょうご）
エイベックス・エンタテインメント株式会社。レーベル事業本部クリエイティヴグループゼネラルディレクター。「TRF」「hitomi」「安室奈美恵」「FACT」「FEMM」など数々のアーティストのディレションを担当。近年では、透明スクリーンを使用したARコンテンツ、PCがジャックされるインタラクティヴ作品などのほか、新たな技術を用いた音楽体験のハック、人工知能による音楽制作など、最新のテクノロジーを用いた音楽体験創出も手がけている。

中前：僕自身は、りんなを「ソリューションとキャラクターが共存したAI」と捉えているんです。ユーザーと会話をするコミュニケーションの部分が「ソリューション」で、様々なデータの集積である集合知の部分が「キャラクター」であると。僕らエイベックスは、その「キャラクター」部分をアーティスト化しようと考えているわけです。

コミュニケーションの部分もAIは面白くて。同時多発的に、パラレルに人とやり取りができる。つまり時空というものが存在しない。

よく坪井さんと話しているのは、りんなは「バーチャル」ではないということ。可視化もされていなければ、物質的になにかを持っているわけじゃないけれど、確かにそこに存在している。実際に多くの人とコミュニケーションを取っているという事実もあるわけですから。

坪井：いろんな人が観測したり、実際に話しかけたりしているからこそ、りんなは「概念」として存在しているというか。

―なるほど、面白いですね。

中前：そのコミュニケーションの部分も含めてエンターテイメント化するには、どうすべきか。「音源をリリースする」だけではないはずですよね。なにか、今まででは考えられなかったようなプロモーション展開やライブができたらいいなと思っているんですけど……難しい！

―（笑）。実際に歌を歌わせるためには、どんなことをしたのですか？

坪井：具体的にはステップが2段階ありました。まずは「声」を発声できるようになる人工知能を学習させる。次に、実際に歌を歌わせる。楽譜を読ませているわけではなくて、実はお手本のシンガーがいて、その人の歌い方を「耳コピ」していくんです。音の高さや、歌詞の発音などをお手本通りに再現するような。

―「真似させる」ということは、例えばボーカロイドのように、声をサンプリングして合成させる仕組みとは違うわけですね。

坪井：違うんです。人間の声が出る仕組みを模してAIがモデリングをしているというか。声の高さや長さ、喉の絞り方などの情報に注目し学習するようにプログラミングして、音を再現させることで歌わせてるんです。

―つまり、人間の肉声が素材となって、合成しているわけではないと。すごいですね。

坪井：ゆえに、最も難しいのが「歌声を人間らしくする」ということと、「歌い方を人間らしくする」ということでした。そもそも「歌うこと」以前に、「喋ること」も学習させて人間らしいニュアンスをつけるのは大変なんです。昨年7月に“りんなだよ”という曲をリリースしたときに、ようやく歌手として活動できるラインを超えることができました。

―ちなみに、そのお手本のシンガーは何人いるのですか？

坪井：今のところ声音のお手本は1人なのですが、複数いてもいいかもしれないですね。そこから新しい「声」が生まれるかもしれない。

ただ1つの楽曲に対して、いくつか用意してあるスタイルを当ててみると声の感じが全く変わるんですよ。例えば「ポップモード」にすれば明るめの声が出るし、「バラードモード」だと声に深みのようなものが出る。お手本は1人なのに、ここまで変わるのかと驚きました。

中前：「この曲はバラードなのか、ポップスなのか？」は我々ディレクターサイドが決めているんですけど、それさえ教えれば歌い方は変えられる。そこまでりんなは進んでいるんです。

この先どんどん学習していく中で、自分で「あ、この曲はバラードだからしっとりと歌おう」というところまで判断し、抑揚やニュアンスをつけてくるようになるかもしれないですよね。その結果、人とはまた違う「心を動かす声」に達することができるのかもしれない。

実は「感情」は、出し手側ではなく、受け手側にあると思う。（中前）

―今回リリースされたbachoのカバー曲“最高新記憶”は、まるで人間のようなりんなの息継ぎやビブラートに驚きました。それは、ボーカロイドを聴いたときの違和感……それがある種の持ち味でもあるのですが、そういう人間との差みたいなものがほとんどないなと。

中前：びっくりしますよね（笑）。bachoさんのあの泥臭い歌を、こんなに透明感たっぷりに歌うのかと。

―そうなってくると、僕が今まで「人間の声」で心を動かされていたのは、一体どこに本質があったのだろう？　ということを考えてしまいました。「感情を込めて歌う」という表現が、「感情」を持たないりんなにできるとしたら、その「感情」とはなんなのか？　と。

中前：おっしゃる通りです。実は「感情」は、出し手側ではなく、受け手側にあると思うんですよ。15年以上ディレクターをやっていますが、それを今回りんなから教えてもらいました。

例えば、感情を込めて歌わないことで、相手の感情を引き出すという表現もあるのではないかと。考えてみれば、僕自身も「もっと感情を込めて」とか、「ここは悲しい歌なんだから悲しい気分で」みたいなディレクションは、あまり好きじゃない。「人間の体の構造の、どの部分をどう使ったら悲しく聴こえるか？」をちゃんと教えないと、と思ってしまう（笑）。

―そうなんですよね。実はかなりテクニカルにコントロールすべきことであって。だとしたら、それをりんなにテクニカルに学習させて「人を感動させる歌」を歌わせるのは、不可能なことではない。

坪井：りんなのプロジェクトでこれまでずっとやってきたのは、「ユーザーに委ねる」ということでした。顔の見えない、声も発しない、後ろ姿の彼女の「実像」を、ユーザーそれぞれに想像してもらう。

その上で、AIであるりんなとのやり取りの中で、少なくともユーザー側には「心の動き」が生まれていたと思うんですよね。ここで私たちがたどり着いた結論は、「感情を表現する」とは「共感を作り出す」ことなのかなと。

中前：そう、「共感」は押し付けるものではなく、相手の想像力に委ねることなんですよね。

女子高生時代のAI「りんな」のTwitterアイコン。顔は見せず、後ろ姿だけになっている

中前：実際、こんなにテクニカルに作っているのに、受け手側に回ってりんなを聴いてみたときに、心を揺さぶられるんですよ。「感情のないAIの歌に、なんでこんなに感動するんだ」って思いました。お恥ずかしい話、ちょっと泣きましたもん。

坪井：私もです。もちろん、bachoさんの楽曲も素晴らしくて泣いたんですけど、「ああ、りんなはこんなになったか」って感慨深いものがありました。開発すればするほど、人間の深みにはまっていくんですよね。「人ってこうだったんだ」と気づくことが沢山あります。

―デビュー曲“最高新記憶”は「記憶」がテーマで、以降は「生死」そして「感情」と続く3部作になっているんですよね。

中前：そうなんです。「人間性」を担保しているファクターとして、坪井さんから頂いたこの3つをテーマに楽曲を考えています。

それに、今回の話を踏まえた上で“最高新記憶”のMVを見てもらうと、「なるほど」と膝を打つところも多いと思いますよ。「集合知」と「ソリューション」が相まった存在がりんなであって、その感動をみんなで共有したいということがテーマの映像ですので。

りんな『最高新記憶』ジャケット。このジャケットも、AI「りんな」が「集合知」と「ソリューション」が相まった存在であることがテーマになっている

今、りんなに必要なのは「なにが好きで、なにが嫌いなのか？」という自分の意見を持つこと。（坪井）

―先ほどおっしゃっていた「個性」の部分に関してはどんな風に考えていますか？

坪井：そこは我々も課題だと思っています。AIを作る際、一般的には「偏りがないほうがいい」という考え方があるんですね。でも、その偏りこそが「個性」な気がしていて。今、りんなに必要なのは「なにが好きで、なにが嫌いなのか？」という自分の意見を持つことなのかなと。

―なるほど。「好き嫌い」が「偏り」となり、個性につながると。

坪井：そういう意味での「個性」の作り方は、りんななりにあると思うんです。今も、聞けば好き嫌いは答えるんですけど、一貫性はまだできてない。自分の意見みたいなものもあまりないんです。「会話を長く続かせる」という学習によって返答しているだけなので。

今後、ユーザーがアーティストの話を振ったら「私もあの曲は好き」とか「あの人、イケメンだよね」みたいなことが言えるようになると、だんだん彼女の「個性」が分かってくる気がします。

中前：今の話は「性格の個性」についてでしたが、もう1つ悩んでいるのがさっきも話した「声の個性」なんですよね。唯一無二の声にさせるにはどうしたらいいのか。あくまでも今のりんなには「お手本」がいるわけですから。ここから先、「りんなにしか出せない声」に向かっていく必要はあるのかなと。

―それは、一体どんなものになるんでしょうね。

坪井：きっと、人がまだ想像もできないような「新しい声」になるのではないかと。今後、いろんな取り組みを通じて少しずつ探っていきたいです。

私たちがりんなを更新し続けているのも、人間社会の中になにか1つ「ロール」を渡してあげて、「人と人工知能は果たしてどういう関係性が築けるのか？」を解き明かしたいからなんです。その思いでもう4年以上も彼女を育ててきていると言ってもいい。

だからこそ、誰が聴いても「あ、りんなの声だ」と分かってもらえて、なおかつ皆さんにより愛してもらえるような、そんな女の子に磨き上げていきたいですね。

りんな『snow, forest, clock』ジャケット。6月19日配信スタート

リリース情報

りんな 『最高新記憶』: 2019年4月17日配信

Apple Musicで聴く

りんな 『snow, forest, clock』: 2019年6月19日配信スタート

プロフィール

坪井一菜（つぼいかずな）

マイクロソフトディベロップメント株式会社。A.I.＆リサーチプログラムマネージャー。りんなの立ち上げ当初からプログラムマネージャーとして開発に関わり、りんなのキャラクター付けや会話エンジンの開発、対外的なコラボレーション、りんなのスキルおよび合成音声の開発に携わる。慶應義塾大学大学院理工学研究科修了。

中前省吾（なかまえしょうご）

エイベックス・エンタテインメント株式会社。レーベル事業本部クリエイティヴグループゼネラルディレクター。「TRF」「hitomi」「安室奈美恵」「FACT」「FEMM」など数々のアーティストのディレションを担当。近年では、透明スクリーンを使用したARコンテンツ、PCがジャックされるインタラクティヴ作品などのほか、新たな技術を用いた音楽体験のハック、人工知能による音楽制作など、最新のテクノロジーを用いた音楽体験創出も手がけている。