自然言語処理を理解するために今までの歴史を振り返ってみましょう。
自然言語処理の歴史は、古くは1940年代の黎明期と言われる時代から停滞や進化を繰り返し目まぐるしい発展期を遂げていきます。様々な資料から収集してみました。
1940年代
コンピュータは、1946年初めて誕生しました。
今のようなデジタル技術活用ではなく、暗号解読など軍事目的でコンピュータが利用されていた時代でした。
その中で1947年3月にロックフェラー財団の Warren Weaver氏が知人への手紙の中で機械翻訳の可能性があると言われています。
この方は、暗号解読技術を使えば、世界のあらゆる言語の基本的な部分は認識できるのではないかと考えたようです。
この事が世界の機械翻訳=自然言語処理の始まりと言われているようですが定かではありません。
そして1949年7月にWeaver氏がTranslationという表題の覚え書きを執筆し、米国内の主要な研究者に配布したことをきっかけに初めてワシントン大学で機械翻訳の研究が始まりました。
1950年代
1952年に、機械翻訳に関する最初の学術会議が開かれました。
2年後の1954年にジョージタウン大学とIBMの共同研究結果が発表されました。
この発表の内容は、 ロシア語を英語に機械翻訳したものや、50単語と6個の構文規則を用いたものでした。
これ以降、イギリス、フランス、イタリア、ソ連で機械翻訳の研究が開始されました。
日本では、1957年に九州大学で機械翻訳(日英独の相互翻訳)の研究が開始されました。
システムは Kyusyu Translator-1 (KT-1) と命名されました。あわせて通産省電気試験所でも機械翻訳の研究がスタート。
1959年には、通産省電気試験所が作成した日本最初の英日翻訳機「やまと」が完成し、大きな話題を呼びました。
1960年代
自然言語処理の実装に苦戦する時代となりました。
自然言語処理の研究に膨大な費用をかけていたものの、さまざまな課題が見つかりなかなか大きな発展を遂げることはありませんでした。
ただその中でも着実に開発は進められていきます。
1962年に自然言語処理に関する世界初の学会 (AMTCL)が設立されました。
海外では、1964年にMosteller and Wallace氏がベイズ推定を使ってテキスト分類を行いました。
1964年には人工対話システムのELIZAが開発されました。これは文章を用いて自然言語を処理し、人と対話することができるプログラムで、現在のSiriの起源とも言われているようです。
また日本では、現在の仮名漢字変換の最初と言われいる九州大学の栗原俊彦氏らが仮名漢字方式に関する特許を出願しました。
翌1965年Automatic Language Processing Advisory Committee (ALPAC) から機械翻訳に関する報告書が提出されました。
この報告書は、機械翻訳の現状と難しさがしっかりと報告され、至るところで予算等が削られていく結果となりました。
1968年には、世界最古の機械翻訳会社の一つSYSTRANが創業され、商用機械翻訳システム SYSTRANを開発され、これらは、米国政府に導入され話題となりました。
1970年代
日本では、1975年に情報処理学会 計算言語学研究会が設立されました。
その後自然言語処理研究会(SIG-NL)に改称されます。
1977年には、シャープが仮名漢字変換方式の日本語ワードプロセッサ試作機をビジネスショーに参考出品し、2年後には、東芝が仮名漢字変換方式の日本語ワードプロセッサ JW-10 を発売しました。
当時の価格はなんと630万円です。
1980年代
音声認識は、コンピュータにより音声データをテキストデータに変換する技術、音声認識が開発されます。
1984年には知識記述のサイクプロジェクトが始まりました。
サイクプロジェクトとは、一般常識をデータベース化し、人間と同等の推論システムを構築することを目的とするプロジェクトのことです。
1986年には、誤差逆伝播法が発表されました。
これはバックプロパゲーションとも呼ばれ、機械学習においてニューラルネットワークを学習させる際に用いられるアルゴリズムのことですが、今では、ディープラーニングの基本と言われています。
1990年代
「ビッグデータ」と呼ばれているような大量のデータを用いることで、AI自身が知識を獲得する「機械学習」などの先駆けとなる時代が幕開けしました。
1996年には、今では当たり前となった Google が検索サービスを開始。
開始当初は BackRub という名称でしたが、1997年に google.com がドメイン登録が行われました。
このように1990年代後半より自然言語処理を実施する計算環境が整ってきており、米国も巨大な研究費を出すようになったことで2000年以降に大きな発展を遂げていくことになります。
2000年代
2002年には、機械翻訳の自動評価尺度であるBLEUが提案されるようになります。
そして2006年Google が Google Translate (Google翻訳) サービスを開始します。
同時に2006年にディープラーニングが提唱されました。
ディープラーニングとは、知識を定義する要素をAIが自ら習得する技術のことです。
2010年代
2011年2月に面白いことがおきます。
IBMが開発した質問応答システム Watsonというものが、TVのクイズ番組において人間と対戦し勝利するのです。
2012年にはディープラーニングが画像認識に適用されはじめます。
顔認証システムや欠陥の検査など、生活の身近な場面で利用される重要な技術となっていきました。
翌2013年1月: Google が Word2Vec を発表、2017年 Transformerを発表、2018年には BERT発表と目まぐるしい進化を遂げていきます。
インターネットが世界的に普及し生活にデジタルが浸透してきました。
同時にコンピュータのスペック向上やビッグデータの活用などによって自然言語処理に大きな注目が集まりはじめ、精度が向上し実用レベルまで引き上がったのです。
現在の進化した姿はご存知の通りです。
今後、どのように自然言語処理は進化していくのでしょうか?楽しみです。