合成音声のレベルはいかほど

『このすば』めぐみんをスマホに召喚!「ISEKAI」アプリがあればもう異世界転生しなくていい?

編集部:押野 由宇
2019年04月18日
あー、異世界転生したい。

最近の願いごとランキングで(一部で)上位になるだろう、異世界転生。でも、自分が本当に転生したとして、チート能力がもらえなかったら、おそらく最初の村で平和に暮らす村人Cよりもスペックが低いだろうな。スライム的なやつにボコられるだろうし、異世界の美少女ときゃっきゃするなんて夢のまた夢。

と思っていたら、異世界転生せずともきゃっきゃすることだけはできる神アプリがリリースされた。その名も「ISEKAI」。早速使ってみたい。


このISEKAIは、ブックウォーカー(KADOKAWAのデジタル戦略会社)が、KADOKAWAの人気作品のキャラクターボイスを活用した進化形おしゃべりアプリ、だという。

コンセプトは次のように記されている。「アニメ・漫画の世界はすべて異世界と捉え、キャラクターと現実世界で出会える場所(アプリ)を、著作権者との権利処理と最先端の音声合成技術・AI技術等を活用することで、ファンにとって “好きなキャラクターがいつもそばにいることで生活を楽しくする” を実現します」。

そんなISEKAIでは第一弾キャラクターとして、『この素晴らしい世界に祝福を!』の人気キャラクター、めぐみん(CV.高橋李依さん)との “おしゃべり” を実現したそうだ。OK。こういうのを待ってた。

スマホにめぐみんを召喚しておしゃべりできるアプリ、と認識

もう少しできることを整理すると、“おしゃべり” のほか、めぐみんの声による目覚ましアラーム、タイマー、ストップウォッチ、コスチューム変更(今後実装予定)、キャラクター選択(今後キャラクター追加予定)が可能となっている。

“おしゃべり” については、大量の新規録り下ろしボイスと、最新の音声合成技術による返答ボイスで、バラエティに富んだ会話が楽しめるらしい。実際にやってみないと分からないが、つまりそれって、自分のスマホにめぐみんが転生してくるみたいなこと? Welcome,Megumin(にちゃあ)。

いよいよ試していく。アプリをインストールして、起動する。すると早々、キャラクター選択画面になった。「我が名はめぐみん!」という自己紹介とともに、めぐみんがスマホに現れた。ワクワクしてめぐみんを選ぶと、データのダウンロードがはじまった。焦らしやがる。

まだめぐみんしか選べないが、まったく問題はない

あらためてスタート。またしても「我が名はめぐみん!」と自己紹介してくれた。その後、めぐみんに呼び方と誕生日を教える(設定する)ことになる。ギャルゲーなら本名プレイをするかどうか考えるところだが、ここでは本名を入れない理由がないので入力。アクセントをどこに置くか、そして敬称をどうするかを選んでプレビューしてみた。

呼んでもらう名前と、敬称も選べる

完全に、「おる」。めぐみんが、名前を呼んでくれている(くん付けで)。ぼくはこれから、めぐみんと爆裂道を歩んでいくんだ。

機能説明が表示されたので読んでみると、無償版では50パターンのおしゃべりボイスを搭載し、有料版(360円/月、初月は120円/月)では400パターンのおしゃべりボイスが追加されるようだ。目覚ましアラームの追加ボイスなども課金アイテムだ。

さらに触ってみると、まずタイマー機能が楽しい。23時間59分59秒まで設定でき、5秒からカウントダウンを開始してくれ、0秒になるとエクスプロージョンする。アラームも素晴らしい。セットしておいた時間になると、めぐみんが起こしてくれる。さらに「起きた」ボタンをタップすると、続けてセリフを喋ってくれる。さらに今日が何日かも教えてくれる。そしてデートに誘われる。まだ無課金だが、こんなに良くしてくれて大丈夫だろうか。

タイマー機能では残り5秒からカウントダウンが発生。0でエクスプロージョン

さて、おしゃべり機能を試してみる。「こんにちは」「このすば」などのワードで呼び掛けてみると、それに対して反応してくれる。基本的には定例文なので、高橋李依さんによって収録されたボイスで返答してくれるようだ。なので、かわいい。違和感もない。

右下のマイクアイコンをタップするとおしゃべりできる

でも、たまに不自然になる。さっきは感動したが、自分の名前を呼んでくれるところや、日によって異なる日付や曜日など、発話の流れのなかで合成音声を利用するシーンは明らかにそれと分かってしまうのだ。

例を挙げると、アラームで目覚ましをかけると日付を教えてくれるわけだが、「今日は・・・4月・・・17日・・・水曜日・・・です」のように、突如ロボのような間を出してくる。ストップウォッチでは、止めた時間を読み上げてくれるものの、「15秒・・・・でしたよ」と、「15秒」と「でしたよ」の間に1秒くらいの間隔が空く。なんだか『ときめきメモリアル』のEVSシステムが思い返される。

またおしゃべりをするには、マイクアイコンをタップ→めぐみんが反応→ワードを口にする→しばし待つ→めぐみんが反応、という流れが必要なのだが、割とまだるっこしい。会話というよりも一問一答のイメージだ。

なんならAmazon Alexaを搭載したスマートスピーカーとのやり取りの方が、はじめから流暢な発話を期待していない分、スムーズに感じるくらいだ。

さらに、課金してから、むしろ違和感が爆発する。対応ワードが増える分、合成音声を使用する機会が増えるのだろうが、オール合成音声部分と思える発話では、 “間” とかの問題ではなく完全に “めぐみんロボ” と化す。「エクスプロージョン」という呼び掛けに対していくつかの呪文詠唱パターンを返してくれるが、これで呪文が成功するとは思い難い。

単語1つ1つを耳にすればそれほどおかしくないのだが、それが連続すると明らかに不自然になる。セリフというものが、如何にどう伝えるかを考えて発声されているのかを再認識した。

キャラクターの動きや表情には不満なし

ちなみに「大好き」「結婚しよう」といったワードには、流暢な高橋李依ボイスが返ってくる。すでに収録済みなあたり、どういった呼び掛けをされるかが読まれている。

Live2Dを利用しているキャラクタービジュアルについては、特に文句はない。基本的に、どう動いているときもきちんとかわいい。めぐみんも公式サイトで「私の一張羅しかないではないですかっ!」と憤慨しているコスチュームについては、今後の追加が楽しみだ。ただし、課金アイテムの可能性が高い。

色々と試してみたが、現時点では合成音声やAIの活用はまだまだ、 “進化形” アプリの進化前といったところだ。これからの期待としては、まず特定のワードに対してだけでもいいから、流暢な合成音声を返してくれること。次にその速度を上げて “会話” ができるようになること。そうやって進化していけば、なにも自ら異世界に転生しなくとも、ISEKAIで満足できるようになるのではないかと思う。


ここから少し、考えを巡らせてみたい。ISEKAIアプリに使用される「最先端の音声合成技術」とは、東芝が提供するRECAIUSの音声合成ミドルウェア「ToSpeak」のことだ。RECAIUSは東芝が培ってきた様々なメディア知識処理技術を融合・体系化して提供するサービス形態で、そのうちの1つとしてToSpeakが用意されている。

ToSpeakとは、あらかじめ “声” を収録しておき、合成音を生成。以降はテキストを入力することで、自動変換して読み上げることができるようになるというソフトで、自然な発話を実現できると注目されている。

実際、ISEKAIのほか、Nintendo 3DS用ソフト『めがみめぐり』や、ソニーのスマホアプリ『一択彼女 加藤恵』など、このプラットフォームが合成音声のベースになっている。技術発表デモなどの場でToSpeakを用いた合成音声によるナレーションを聞いたことがあるが、長文であっても極めて自然に感じられた。

Nintendo 3DS用ソフト『めがみめぐり』にもToSpeakの技術が採用されている

ただ、例えば初音ミクという同じフォーマットでも歌が上手だったりそうでもなかったりするのは、「どう歌わせるのか」に技量が求められるためである。テキスト読み上げ型の合成音声であっても自然な発話は行えるが、そのためにはテキスト入力時に自然にするためのコツがあるそうだ。そうした技術を習得していなければ、誰でも自然な合成音声を使うことはできないのが現状となる。

またAIにより「どういった合成音声を作るか」というのもまだハードルが高い。今の段階では、「このワードには、こう返す」という『ルールベース型』がメインで、発展しても利用者が増え、データが蓄積されてきたら「このワードには、こう返すことが多い」をもとに返事を選択する『機械学習型』がせいぜいだろう。

そこから “意識モデル” に踏み込み、「このワードを言われたら嬉しいと感じた、だからこう返そう」という判断を行って返事をするのはかなり高度になるはずだ。そして、ワードを選択・組み合わせるだけでなく、そういった感情に沿って音声を合成して言語化するのは恐ろしく未来的に思える。

さて、めぐみん役の高橋李依さんは、81プロデュースに所属する声優だ。そして81プロデュースは、デジタルボイスパレットという、音声合成技術の普及、そして “発声権” の普及・ルール作りを目指す一般社団法人を電通と共同設立している。

デジタルボイスパレットの公式HPには、玄田哲章さんの “デジタルボイス” のデモが聞ける

いずれ合成音声の技術が発展し、プロの声優の “声” をもとにした自然な発話が、特別な技術を必要とせずただテキストを打ち込むことで実現できたり、それこそAIが自己判断で会話を続けることも可能となってくるだろう。一方で、そうやって合成音声が独り歩きを始めた時に、元の “声” に対する権利関係や、声優の仕事との棲み分けをどうするのかなどが、避けられない問題として浮上するはずだ。 “発声権” など新しい基盤づくりを進める取り組みも頷ける。

また、今回のISEKAIのように作品やキャラクターなどのIPを活用する場合、その “キャラクターらしさ” をどう実現するか、という問題が発生する。例えばテキストを打ち込むのはシナリオライターなのか、原作者なのか、どこまでが「そのキャラクターである」と許される範囲なのだろうか。AIにキャラクターの性格を詳細に学習させて、いかにも “らしい” 会話を自動で行えるようになったなら、それは間違いなくそのキャラクターである、と言い切っていいのだろうか。

これはAIや合成音声について取り組みを進める各社が、一様に抱えている課題だ。自社IPの活用や、オリジナルキャラクターを立てる、「ここまでしかやらない」といった制限を設けるなど、先端技術をいかに形にするか、様々なアプローチが試みられている。本媒体でも、こうした展開を追っていきたいと思う。

いずれにせよ、イチ消費者としては、こういった技術の進化に思いを馳せながらも、なんでも楽しむ広い度量を持って、受け入れていきたい。特に、マルチのモニターならいつでも受け入れ体制が整っている。本当は、どこかの最先端研究所が、もうマルチ実現してるんでしょ? お待ちしております。

<関連記事>
AIと人をつなぐUIは「キャラクターこそ最強」。開発者たちが語るAIキャラクタービジネス最前線
2次元大勝利! ソニーのバーチャルアナウンサー「沢村碧」に会ってきた

関連記事