コラム

自然言語処理の活用(言語翻訳編)

機械翻訳は自然言語処理の分野全体の進化を語る上で書かせません。
過去60年にわたって、多くの研究者が様々な言語で自動翻訳の可能性を追究してきました。

機械翻訳とは?

「機械翻訳」とは文字通り、人手を介さずコンピューター(機械)が行う翻訳のことです。
「ある言語」を別の言語に自動で翻訳をする方法です。
この機械翻訳はニューラルネットワークの登場によって、格段に精度が向上しました。
これまでは何か文書を翻訳したいという場合、翻訳家に依頼していましたが、機械翻訳であれば、数十秒~数分で終了するのです。
そしてパソコンやスマホ、タブレットが普及し、オンラインで使える翻訳アプリも数多く登場し、今や誰もが手軽に翻訳作業をすることが可能になったことはご存知の通りです。

また年々増え続ける外国人観光客に向けて、国内の飲食店や小売店などでも外国人観光客と会話する機会も増えてきました。
その中でも今注目を集めているのが、外国人と1対1のコミュニケーションが可能なこの「翻訳機」です。
自動音声翻訳機にあるように、音声をその場で翻訳して翻訳した内容の音声を出力するシステムなども開発されてきています。

とはいえ、翻訳する精度に、まだばらつきがあったり、特殊な単語は適切に翻訳できなかったりという不完全な部分があるのは事実です。

機械翻訳の種類

翻訳はその基本となるシステムによって大きく3つに分類されます。

1.ルールベース機械翻訳
機械学習が普及する2000年代より前のAIは、このルールベース型がほとんどでした。
人間が事前に両言語に関する辞書や文法集を用意します。この「辞書」(=「翻訳マニュアル」)と照合しながらコンピューターが訳文を出力します。
人間が事前に作成した、両言語に関するマニュアルと照合照合しながらコンピューターが訳文を出力します。
例えば、単語の意味を対応させた辞書や構文上のルールなどをシステムに実装します。

2.統計的機械翻訳

1990年代になると、統計モデルの学習を通じて訳文を出せるようになった統計的機械翻訳が主流となりました。
統計的機械翻訳は、異なる2つの言語の文章について、それぞれどの単語同士が意味的に対応する可能性が高いか、 原文に対応すると考えられる単語が訳語として自然か という点を考慮し、訳文を作成する方法です。
Google翻訳もサービス開始の2006年から2016年までの10年間、統計的機械翻訳の手法を採用していました。

3.ニューラル機械翻訳
ニューラル機械翻訳とは、人間の脳神経回路が情報伝達を行う仕組みをまねたもので、人工的なニューラルネットワークが情報を収集して自ら学習しながら、単語の意味として正しい可能性の高い訳語を当てはめていくものです。
原文全体をひとつの固まりとして捉えて訳していくため、より自然な訳文を生成することができるようになりました。
AIは、ディープラーニング(深層学習)の登場により、画像認識、音声認識や機械翻訳も含む自然言語処理など様々な分野で大活躍するようになりました。
そして2016年9月、Googleが、ディープラーニングを使ったこのニューラル機械翻訳サービスを発表し、その機械翻訳の翻訳精度が劇的に向上したのです。

機械翻訳の今

そして今、話題なのがDeepLです。
DeepL翻訳(ディープエル)は、2017年8月28日にサービスを開始した無償のニューラル機械翻訳サービスで、ドイツのケルンに本拠地を置く DeepL GmbH (Linguee(英語版)) が開発しました。
今はGoogle 翻訳よりも精度が高く、微妙なニュアンスのある翻訳ができると肯定的な報道がたくさんあります。
2020年3月19日より日本語での利用も可能になりました。
このDeepLはどのようなものなのでしょうか?

DeepLの特徴

DeepL翻訳は、深層学習(ディープラーニング)を利用して翻訳を行っています。
DeepL翻訳はより複雑な処理が可能な、畳み込みニューラルネットワーク(CNN)と呼ばれる深層学習を用いているのが特徴です。
この技術の違いによってDeepL翻訳は細かなニュアンスを読み取り、自然で高精度な翻訳が可能となっているようです。

DeepL翻訳は初期対応言語は、英語、ドイツ語、フランス語、スペイン語、イタリア語、ポーランド語、オランダ語と欧州中心の展開でしたが、着実に対応言語を増やし、2020年3月19日には日本語と中国語にも対応。2022年5月には28種類の言語について、650通り以上の組み合わせで翻訳できるようになっています。

イタリア語
インドネシア語
ウクライナ語
エストニア語
オランダ語
ギリシャ語
スウェーデン語
スペイン語
スロバキア語
スロベニア語
チェコ語
デンマーク語
ドイツ語
トルコ語
ハンガリー語
フィンランド語
フランス語
ブルガリア語
ポーランド語
ポルトガル語
ラトビア語
リトアニア語
ルーマニア語
ロシア語
日本語
英語
中国語

DeepLのすごいところ?

1.方言もたしなむ
関西弁だけでなく、津軽弁などクセのある方言まで精度良く翻訳できることで大きな話題になりました。

2.互換性が高い
またChrome拡張が可能になっており、一度導入すれば、ブラウザ版のGmail、Twitter、SlackなどさまざまなWebアプリで、英語や中国語などを読み書きできるという優れた互換性もあります。

機械翻訳においては、文字の羅列から言外のニュアンスまで解釈し翻訳するのは難しいとされてきました。
このようにDeepLは話し手の意図も汲み取り翻訳できます。
DeepLの直訳的でない、あくまでも自然な文脈での翻訳ができる強みにより多くのビジネスシーンでも DeepLの活用が進んでいます。

データー、そしてそれらを学習させるアルゴリズム。
またそれだけでなくこれらを組み合わせ顧客にしっかりとサービスを提供できるインフラがどんどん出てきてる自然言語処理の世界は、ますます楽しみな分野です。

自然言語理解AIラボのサービス

自然言語理解AIでDX促進のお手伝いをしております。