コラム

自然言語処理で用いられている技術

Amazon Echoなどのスマートスピーカーやウェブ上のカスタマーサービスに見られるチャットボットはどれも自然言語処理というAI技術が用いられているのはご存知の通りです。

この自然言語処理の精度向上を図るため、各種解析方法や言語処理機能のほかに、さまざまな技術が活用されています。

自然言語処理の主要な深層学習モデルの特徴を解説したいと思います。

BERT

BERTとは、Bidirectional Encoder Representations from Transformers の略で、「Transformerによる双方向のエンコード表現」と訳され、2018年10月にGoogleのJacob Devlinらの論文で発表された自然言語処理モデルです

BERTとは、深層学習モデルの「Transformer」をベースとした事前学習の手法で、コンピュータが自然言語処理を学習するために利用されます。BERTはGoogleによって開発されました。

BERTの特長は文章を双方向から処理できる点です。文章をさまざまな角度から分析することでコンピュータは前後の文章を把握できるようになったため、文脈を理解する精度が向上しました。

また、BERTに関連した自然言語処理モデルとして「XLNet」と「ALBERT」があります。

XLNet

2019年6月にCarnegie Mellon大学とGoogle Brainの研究チームから発表された「XLNet」は、事前学習とファインチューニングというアイデアを継承しながら、自然言語処理の性能がBERTを上回るモデルのことです。

XLNetは、BERTの言語処理で使用していた「MASK」の概念を使用せず、単語の順序を並べ替える方法で事前学習を行います。また、BERTと比べると長文を理解することが可能となりました。

ALBERT

ALBERTとは、BERTに対して容量が軽量化されたモデルです。

ALBERTはパラメーター化された学習データに、モデル容量が適切に割り当てられるよう設計することで、パフォーマンスの最適化を行っています。文脈に依存しない単語のパラメーターは低次元、文脈理解のパラメーターにはBERTと同様の高次元の入力レベルを使用することで、ALBERTはBERTからのわずかな性能低下を犠牲に80%ものデータ容量削減に成功しています。

これにより、言語処理速度の高速化を実現しました。

BERTと比べると言語処理の精度がやや抑えられたものの、難しい文章を重点的に言語処理する仕組みとしているため、言語処理のレベルは十分な内容となっています。

Seq2seq

Seq2seqとは「Sequence-to-sequence」の略語で、深層学習で用いられているモデルの一つです。

Seq2seqは、文字列などの情報を受け取り、別の系列の内容を出力する点が特徴です。例えば、文章の羅列を入力した場合、文章の法則性を理解したうえで、わかりやすい文章に変換できます。

主に機械翻訳(英語の文章→日本語の文章)、要約(元の文章→要約文)、対話(自分の発言→相手の発言)でよく利用されます。

2014年に発表されました。

GPT-3

「GPT-3」は、テキスト生成が得意なTransformerベースのモデルの次期バージョンです。パラメータ数が前のバージョン「GPT-2」の117倍と非常に大きいのが特徴です。
「GPT-3」では、事前学習モデルの利用方法として、「ファインチューニング」に加えてモデルにタスクの例をたくさん与える手法「Few-Shot」1つだけ与える手法「One-Shot」1つも与えない手法「Zero-Shot」が提案されています。

2021年には、テキストから画像生成するように学習した、「GPT-3」の120Bパラメータ版「DALL-E」が誕生。テキストと画像のペアのデータセットで学習しています。

まとめ

ここ数年の技術の発展には目覚ましいものがあります。
この人工知能の1つの分野である自然言語処理において、深層学習によるモデルの進化は特に加速してきています。
あわせて深層学習は正しい結論を導き出せるがその判断根拠が分からないブラックボックスであるとの指摘もあるのが事実です。
現在、そのことも含め様々な研究がなされています。
たくさんのモデルがあり、次々と画期的な手法が登場する自然言語処理。
今後も技術や研究の結果に大注目です。

自然言語理解AIラボのサービス

自然言語理解AIでDX促進のお手伝いをしております。