全2878文字

 人気推理アニメ「名探偵コナン」の重要な探偵グッズとして登場する「蝶ネクタイ型変声機」も夢ではない――そんな技術が登場した。東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究室は、DMM.comと進める社会連携講座において、リアルタイムで別人の声に変換できる音声変換システムを開発した。日本音響学会が開催した「2019年春季研究発表会」(2019年3月5~7日、電気通信大学)で発表した。

 従来は、変換処理に時間がかかるためリアルタイムでの変換は難しく、ボイスチャットやライブ配信などリアルタイム性が求められる用途での活用は困難だった。事前に録音した音声を変換する手法が一般的だった。そのため、今回のシステムでは、DNN(Deep Neural Network)を用いた独自の変換処理により遅延を小さく抑え、リアルタイムでの変換を実現したという。

東京大学大学院情報理工学系研究科システム情報学専攻猿渡研究室助教の高道慎之介氏
東京大学大学院情報理工学系研究科システム情報学専攻猿渡研究室助教の高道慎之介氏
(撮影:日経 xTECH)
[画像のクリックで拡大表示]

 このシステムでは、話者Aの声を話者Bの声にリアルタイムで変換する。変換モデルを作るため、あらかじめ変換元の話者Aと変換先の話者Bが同じ文章を読み上げて、その音声データを学習させる。現在は変換元と変換先を1対1に限定する。技術的には、変換元として複数の人の音声データを学習させることで、誰でも特定の人(話者B)の声に変換できるとし、今後開発を進める予定だ。

 取材時のデモでは、東京大学大学院情報理工学系研究科システム情報学専攻猿渡研究室助教の高道慎之介氏が、別の男性の声や女性の声に変換してみせた。男性の声から男性の声へといった同性同士の方が変換精度が高くなるが、男性の声から女性の声へ変換することも可能だ。

リアルタイム音声変換のデモ

デモに使用した変換後の声は、日経 xTECHのバーチャル記者「黒須もあ(β)」の声を使用した。 デモには一般的なノートパソコンを利用しており、動画で見られる音声の遅れは変換の遅延ではなく、ノートパソコンの音声入出力機能による遅延とする。(撮影:日経 xTECH)