ようこそ! ビジター様(ビジター)   ログイン
友達&メッセージを見る
メッセージ&会員一覧
オーナーの掲示板
近況報告
ホーム
ホーム

談話室

お知らせ

トピックスのスライドショー毎日1枚、その日のトピックス写真を表示します。

トップページへ戻る

(2018年04月20日)前日    (2018年04月21日)    翌日(2018年04月25日)

旅先で言葉の壁にぶつかることは多い

2018年04月21日

“ほんやくコンニャク”の実現はいつ? 音声認識・翻訳技術

 先日、PC USER編集部の編集Gから「『“ほんやくコンニャク”が実現するのはいつになるか』をテーマに原稿を書いてください」という、そのものズバリな依頼がやってきた。

<注>「ほんやくコンニャク」はドラえもんのひみつ道具


「ライブ翻訳アプリ」の仕組み

 ほんやく(翻訳)コンニャクといえば、国民的大衆マンガ(アニメ)のネコ型ロボットが取り出す「未来のひみつ道具」の1つで、ミドルエイジ世代にとっては学生時代に「アンキパン」と並んで最もほしいと思った道具かもしれない。

 ほんやくコンニャクを食べると、読み書きから会話まであらゆる言語のバリアを取り払うことが可能で、外国人との意思疎通には欠かせない。さすがに未来のひみつ道具というだけはあり、単に地球上に存在する外国語だけでなく、宇宙人から動物、古代の言葉まで、「万能翻訳機」として機能する。恐らくは、昨今話題の異世界探訪にも強い味方となってくれることだろう。

 こうした万能翻訳ツールに対する渇望は世界中であるようで、SFの世界では割とメジャーな存在だ。

 SFドラマの金字塔となった「Star Trek」(スタートレック)においても万能翻訳機はストーリーで重要な位置を占めており、例えば、Microsoftの翻訳アプリ「Bing Translator」は標準で劇中に登場する「クリンゴン語」の翻訳に標準で対応している。

 よりほんやくコンニャク的な存在でいえば、英国の作家ダグラス・アダムズが記したSFコメディー「The Hitchhiker s Guide to the Galaxy(銀河ヒッチハイク・ガイド)」では、「Babel Fish」(バベル魚)という魚型の万能翻訳機(?)が登場しており、これを耳から挿入することで宿主の脳波を糧に周囲の音を取り込んで言語変換を可能にするという。

 SF世界では異星人との交流がごく当たり前なので、ドラマを生み出すための“道具”として欠かせないものというわけだ。

●人はなぜ万能翻訳機を求めるのか

 SFの世界に限らず、言語の壁を越えて相手とコミュニケーションを取りたいという欲求は普遍的に存在しており、語学学習に対するニーズは非常に高い。とはいえ、近似している欧州圏内の隣接言語でさえ互いのコミュニケーションは大変なようで、筆者が米国で語学留学していたころは英語がうまく話せずに同じ出身国の者同士で固まってしまうという現象もよく見られた。

 筆者は比較的ドイツ人グループと話すことが多かったが、英語に比較的近く、英語習得レベルが高いといわれるドイツ人たちでさえ、「込み入った話は英語では難しい」とドイツ人同士で固まってしまうありさまだった。

 「日本語と英語は全然文法が違うから日本人が英語を習得するのは欧州人より難しい」という話はよく聞くが、程度の差こそあれ抱えている事情はみな一緒というのは、語学留学時代に得られた一番の経験だ。

 さて、そうした彼らが語学学習に向かう一番のモチベーションは何だろうか。Brexit(EUからの英国脱退)以前の話だが、筆者の友人のフランス人やスペイン人らは「英国(あるいは英語圏)で働くため」という仕事上の理由を挙げており、移動の自由のあるEU圏内ならではの事情が見られた。

 ポーランドを旅行中に英語が比較的達者な女性たちに学習方法やそのきっかけについて聞いたところ、純粋に「(欧州にいる)友人らと共通して話せる言語を学びたい」といった理由を挙げていた。

 だが実際のところ、多くの人にとっての理由は非常にシンプルなもののようだ。英The Telegraphによれば、語学学習アプリを提供するBabbelがユーザーらを対象にした最新のアンケート調査結果では、その理由の4割を「旅行」が占め、「移住」や「教養」といった回答を大きく引き離している。

 今でこそ航空運賃やビザの障壁が下がって人の行き来が簡単になり、欧州などのように外国人と触れる機会はそれほど珍しいものではなくなっているが、「海外旅行」は外の世界に触れる貴重な機会であることには変わらない。その瞬間、その体験を最高のものにすべく、事前に備えるのは自然な行為かもしれない。

●スマートフォン活用と進化する翻訳エンジン

 「海外旅行先で相手と意思疎通を図りたい」というニーズに対し、最近になって登場した強い味方がスマートフォンだ。

 電子辞書やフレーズ集などは昔からあったが、スマートフォンは非常に高機能であり、文章翻訳もこなしてくれる。最近ではさらに高度なものとして、撮影した写真の中にある単語や文章の翻訳をしたり、音声を取り込んで通訳をこなしてくれるアプリまで存在する。

 前者が便利な例を挙げるとレストランだろうか。海外のメニューは、日本のように写真付きではなく、料理名と解説と値段のみが記されたものが一般的だ。観光客向けではない地元のレストランに行ったときなど、現地語でしか解説が書かれていないことは多い。

 例えば、フランスでインド料理屋や中華料理屋に入ったとき、料理名から解説まで全てフランス語で書かれているため、英語しか分からない人間に読み解くのはなかなか難度が高い。こうしたときにスマートフォンのアプリが大いに役立つ。

 スマートフォンの翻訳アプリとしてメジャーなのは「Google Translate」と「Microsoft Translator」の2つだ。どちらもAndroid版とiOS版の両方が用意されており、前段で紹介した文章や単語翻訳の他、写真撮影によるOCR翻訳、音声中継による通訳機能がサポートされている。無料で利用できる点もポイントだ。

 また、Microsoft Translatorではグループ中継機能が用意されており、同じグループ内のあるメンバーがスマートフォンのマイクに向かってしゃべると、残りのグループメンバーらの端末にはそれぞれの言語(同じ言語でなくてもよい)への翻訳文が表示され、一種のリアルタイム通訳のようなことが可能となる。

 2017年末に日本マイクロソフト社内で記者向けの忘年会が開かれ、同社執行役員常務でマーケティング&オペレーションズ部門担当のマリアナ・カストロ氏があいさつした際、本人が英語とスペイン語を混ぜたスピーチでMicrosoft Translatorに話しかけると、参加者のスマートフォンにインストールされた同アプリが日本語に自動翻訳して画面に表示するという「Microsoft Translator Live」機能が紹介された。

 このように非常に便利な翻訳アプリだが、いくつか弱点がある。その1つが「オフライン利用」だ。Google TranslateとMicrosoft Translatorともにクラウド側の処理機構を使っており、翻訳処理中にスマートフォンを「機内モード」に変更するとエラーで処理が止まってしまう。

 最近でこそ安価なローミングサービスが増えつつある他、欧州内では2017年6月以降は国をまたいだローミング利用が無料になっているが、「海外ではデータ通信をオフにしている」というユーザーもいまだ少なくないはず。そんなときは現地の無料Wi-Fiなどを活用することになるが、常に使いたい場所でWi-Fiが利用できるわけでもない。

 翻訳需要が旅を主目的としたものならば、こうした事態は致命的であり、GoogleとMicrosoftともに両アプリ向けに事前にダウンロード可能な言語パックを提供している。これを現地に移動する前にあらかじめダウンロードしておくことで、到着後すぐにオフライン環境であっても翻訳アプリを利用できる。

 これでめでたしめでたし……といきたいところだが、まだまだ話の続きがある。各言語の単語やフレーズごとに、それに当てはまる対訳を記録し、データの塊としてサーバ上で統計処理することで翻訳精度を向上させる仕組みは「統計的手法による機械翻訳」(SMT:Statistical Machine Translation)と呼ばれ、一昔前までの一般的な手法だった。

 単語単位や汎用(はんよう)的なフレーズには特に有効なため、「旅行先での翻訳用途」には十分な効果を発揮するはずだ。一方で、文章としての前後のつながりや、単純に単語のみを見るだけでは意味を取り違える可能性の高いフレーズなど、翻訳として「どうしても不自然」というケースは少なくない。翻訳精度が上がったといわれる昨今においてもなお、欧州言語圏同士の翻訳に比べ、日本語への変換は不自然さを伴う。

 そこで登場したのが機械学習モデルを採用した「ニューラルネットワーク」型の翻訳サービスで、“より自然”な翻訳を目指している。このあたりは1年ほど前に掲載した「Skypeのリアルタイム翻訳が日本語対応 SFの世界に一歩近づいた?」の記事でも紹介した通りだ。

 この翻訳エンジンの切り替えについて、Googleは2016年9月に成果を報告しつつ、同年11月にGoogle Translateへの導入を発表している。Microsoftも2016年11月にその成果を発表して検証ページをオープンしており、先ほどの記事はこの成果において日本語対応を示したものとなる。

●進化するニューラルネットワーク

 ここでもう少し、ニューラルネットワーク型翻訳について見ていく。Googleはこの仕組みに「Neural Machine Translation」(NMT)と名付け、同社の名称を付けて「GNMT」(Google s Neural Machine Translation)などとも呼んでいる。

 Googleが公開した解説記事のサンプルでは中国語から英語への変換が紹介されているが、入力した漢字をそれぞれエンコーダーで分解し、デコーダーで英語への変換を行っている。

 ここで「LSTM」(Long Short Term Memory)という仕組みが用いられているが、これは「深層学習」(Deep Learning)の世界において、特に自然言語処理や今回のテーマである翻訳など、“互いの依存関係”の把握と解決が必要なケースで重要な役割を果たしている。

 ここまでの解説にあるように、“自然な翻訳”を実現するうえでは文書全体の個々の単語のつながりの把握が必要となる。「Aという問いに対してBという答」というシンプルな計算の場合は問題ないが、翻訳ようなケースでは入力された文章全体を把握、つまり前後の依存関係が重要になるというわけだ。

 そこで登場するのが「RNN」(Recurrent Neural Network)という再帰処理型のDNN(Deep Neural Network)モデルで、内部にループ構造を持たせることで前後の入力データを維持し、互いの依存関係を意識した処理を可能としている。

 ただ、RNNそのものは短期(Short Term)の依存関係の把握には問題ないものの、長文翻訳のように数百や数千単位の長期(Long Term)の依存関係の把握は難しく、それを解決すべく考案されたのがLSTMということになる。

 LSTMはMicrosoftのニューラルネットワーク型翻訳にも採用されており、ここ数年の翻訳エンジンのトレンドとなっている。大量の辞書(コーパス)にGPUを組み合わせてDNNを構成しており、Googleの場合はTPU(TensorFlowによる機械学習用のプロセッサ)とTensorFlow(Googleが開発してオープンソースで公開している、機械学習に使うソフトウェアライブラリ)を組み合わせた大規模処理を用い、Microsoftでは「BrainWave」の仕組みを組み合わせ、恐らくはGPUとFPGAを組み合わせたハイブリッドな仕組みでの運用が行われているのではないかと予想している。

 いずれにせよ、機械翻訳の世界は大量のコーパスと統計処理のみを用いた力業に近い手法から、DNNを用いたより効率的で自然な方向性を目指しているというのが、ここ2、3年ほどのトレンドだ。

 Microsoftは今年2018年3月に「Microsoft reaches a historic milestone, using AI to match human performance in translating news from Chinese to English」というブログ記事を公開したが、その内容は「newstest2017」というテストで中国語から英語への翻訳が「人間と同等の水準になった」というものだ。

 いくらニューラルネットワーク型翻訳が進化したとして、「“最後のわずか数%の部分”の調整でやはり人手を介した“自然翻訳”にはかなわない」というのがGoogleとMicrosoftの両サービス共通の認識だったが、この壁をクリアできたというのがその趣旨となる。実際、中国語と英語の翻訳に関する研究は非常に盛んであり、恐らく全ての言語の組み合わせでも世界トップクラスだろう。

 ゆえに、ほぼ納得の行く翻訳クオリティを実現する“万能翻訳機”が登場するのであれば、まずは中国語を含めた欧州言語が最初にカバーされることになると筆者は予想している。実際、これら言語は英語さえ理解できていれば遜色ないレベルで内容が把握可能だと認識しており、筆者も日々翻訳サービスのお世話になっている。日本語についてもそう遠くない将来、“遜色ない”レベルの相互翻訳が可能になると信じている。

●オンラインとオフラインの壁

 ここで話題は再び“ほんやくコンニャク”に戻る。翻訳精度の向上に膨大なコーパスとGPU等を使ったDNNによる膨大な計算を使うことは、これを実現するクラウド、つまりデータセンターの存在が不可欠となる。常時ブロードバンド環境が利用できるのであれば問題ないが、人々が“万能翻訳機”を利用するための最初のモチベーションである「旅行」用途には少々心もとない。

 これは翻訳の部分だけでなく、いま人気のスマートスピーカーやスマートフォン内蔵の音声アシスタント機能において、音声認識や構文解析にクラウドが用いられているという背景もある。オンラインとオフラインの壁が存在することで、スマートフォン本来の機能が削がれ、どこでも使えるほんやくコンニャクを実現するためのコンパクトな装置の実現が難しいというわけだ。

 そこで登場するのが「インテリジェントエッジ」ということになる。全ての処理をクラウドに依存するのではなく、処理の一部や多くを末端デバイスである「エッジ」に移し、レスポンス向上や通信量の削減を行うものだ。

 これをほんやくコンニャクの世界に当てはめれば、クラウド依存であった音声認識や翻訳機構を「エッジ」側に搭載することで、一部の学習データの送信といった処理を除いたほとんどが端末内で完結し、真の意味でほんやくコンニャクに近付くことになる。

 Qualcommが最新のSnapdragon 845でデモストレーションを行っていたが、年々進むスマートフォンの処理能力向上により、過去数年では難しかった技術のモバイルへの転用が実現しつつある。

 こうした最新の成果の一端がうかがえるのが、Microsoftが2017年10月にブログで公開した「Microsoft and Huawei deliver Full Neural On-device Translations」と「Bringing AI translation to edge devices with Microsoft Translator」という2つの記事だ。

 前者は「HUAWEI Mate 10」シリーズに搭載されたKirinプロセッサのNPUを使うことで、「ニューラルネットワーク型翻訳のデバイス内実装を実現したという話。後者はそのデバイス内実装の背景について解説しており、NPUのようなDNNの学習モデルを効率的に実装できる仕組みが登場することで、モバイルデバイス特有の「メモリ」「処理能力」「バッテリー」といった問題を解決できるという。今後、ほんやくコンニャクの実現にあたって重要になるのは機械翻訳手法の向上と同時に、それを実装できる“デバイス”の存在だろう。

 ちょうど4月18日にMicrosoft Translatorでオフラインでもニューラル機械翻訳が利用できるようになったことが公式に発表された。これは日本語もサポートしている。ほんやくコンニャクの実現にまた一歩近づいたようだ。

[鈴木淳也(Junya Suzuki),ITmedia]



引用元の記事はこちら(https://headlines.yahoo.co.jp/hl?a=20180420-00000052-zdn_pc-sci)


トップページへ戻る

All rights reserved to Smatu-net Co., Ltd, powered by Alumnis(Smatu-net) ©2017