翻訳精度のほかにもユーザーインターフェースが重要

――自動翻訳の精度は、TOEICで600点から800点以上に伸びたとも言われていますが、目指すゴールは。

 翻訳精度をTOEICスコアで評価する方法は、実はすごく時間とコストがかかります。ですから最近は評価していないのですが、2020年にもう一度やるつもりです。そのほかの手軽な方法では調べており、どんどん性能は上がっていることが確認できていますから、途中の段階でTOEICスコアは出さなくてもいいだろうと考えています。

 音声翻訳システムを多くの人に使ってもらおうとしたときには、音声認識や自動翻訳や音声合成の基本性能を上げることがもちろん必要です。ただし、それだけでは不十分で、単語登録できるとか、ユーザーインターフェースが使いやすいといった点も重要です。たとえば「VoiceTra」は、スマホのアプリで提供していますが、スマホを使い慣れている人にはいいですけれど、ストアで検索し、パスワードを入れてインストールして、使い方を読んで、言語を選んで、入力するといった手順が必要だとなると、使い勝手が悪いと思う人や使えるところまで到達しない人も少なくありません。“いきなり”使えるようなシステムにしないと、利用者は広がっていきません。これについては企業と連携して取り組みを進めています。

 たとえば、富士通が開発したネームカードの形をした専用器(携帯型ハンズフリー音声翻訳端末)は、「CEATEC AWARD 2017」で「オープンイノベーション部門グランプリ」を受賞しました。病院などの医療機関での利用を考えて、ハンズフリーで使えるよう設計されています。スマホは、ディスプレー上のボタンなどに触れないと動作しないので、感染症拡大の原因にもなるため病院では敬遠されます。一方、この音声翻訳端末だと手を触れずに動かすことができるので、診察や検査などの妨げにもなりません。同社のCM動画を見るとよくわかります。そこでは、青い専用器を胸に下げた看護師さんと病気になった外国人の女の子が、まったく端末に触れることなくしゃべっています。さらに、騒音のなかでも雑音抑圧技術のおかげで音声を高精度に認識します。簡単な仕組みでありながら非常に有効な技術であることが高く評価されました。

――端末はサーバーにつながっているのですか。

 ネットワーク経由でサーバー側につながり、そこで音声認識、翻訳、音声合成の処理をしているのですが、重要なのは入力装置をどういうものにするかです。それは日本企業の得意な領域であり、現場に入って、実際に使ってもらって、改良を積み重ねていくことで、よりよいものができてくると期待しています。  一方、ベンチャー企業のログバーは、「ili(イリー)」という思い切った端末を開発しました。イリーは双方向で翻訳できませんが、ネットワークにつながないことによってシステムの小型化・軽量化に成功しました。ネットワークを介さないというのはすごくいい着眼点です。本当に使うことを考えたときに、何をしなければならないのか知恵を絞ることが重要で、多数の企業が競争して開発している状態です。

 NICTは、引き続き音声翻訳技術の基本性能を上げていきます。実際の使い方は企業で考えてください。そして、2020年に日本中に音声翻訳端末が広がっているようにしましょうというのが「グローバルコミュニケーション計画」のスタイルです。