画像をコンピュータに読み込ませると、「この画像にはフリスビーで遊んでいる若者のグループが写っています」といった具合に、画像の内容を文章で説明してくれる――。
2014年11月、画像のキャプション(説明文)を自動生成する人工知能を、米グーグルや米マイクロソフト、米スタンフォード大学の研究者らが相次ぎ論文発表した。いずれも人間の脳を模倣した機械学習技術である「ディープラーニング(深層学習)」を採用し、仕組みが酷似している。グーグルが11月17日に公表した論文などを基に、その詳細を説明しよう。
グーグルの人工知能は、画像の被写体を認識する「画像認識エンジン」と、「Google翻訳」などで使う統計的機械翻訳技術をベースにした「文章生成エンジン」の二つで構成する(図)
同システムはまず、画像認識エンジンが画像の被写体や被写体同士の関係性を英単語に変換する。この画像認識エンジンは同社のサービスで実稼働しているもので、「Deep ConvolutionalNeural Network」というディープラーニング技術を使っている。
機械翻訳の技術を転用
続いて文章生成エンジンが、画像認識エンジンが生成した単語を組み合わせて文章を作り出す。この文章生成エンジンは、「統計的機械翻訳」の仕組みを転用している。