コラム

自然言語処理の最新情報

こちらのページにたどり着いたということは「自然言語処理について興味がある」もしくは「自然言語処理についてはすでに知っていて自社に活かしたい!」そんなことを考えられて訪れてくださったのでは…?と思っています。ありがとうございます!

自然言語処理(Natural Language Processing、NLP)は、人間の自然な言語をコンピュータが理解・処理するための技術になります。この技術は、私たち人間が日常的に使用している言語や文章を、コンピュータが解析し、意味や文脈を理解して応答することを可能としています。NLPはテキストデータの分析だけでなく、機械翻訳、音声認識、感情分析など、すでにさまざまな分野で応用されています。

今日は自然言語処理の最新情報に触れていきたいと思います。

ちなみに以前こちらのサイトでも記事を書いていて…
合わせて読んでいただけると理解が深まるのでは?と思います。
ぜひお時間のある時に合わせてお読みください。

▼自然言語処理の歴史について

▼自然言語処理(NLP)とは? できること、これからのDXと課題について

自然言語処理の最新情報

最新情報でいきますと今月2月20日に、Googleが次世代モデル「Gemini 1.5」を発表しました。

たとえば、Googleの持つサービスとして、Googleフォトをはじめドキュメントやスプレッドシート、最近ではcopilotを含め、ウェブのクラウド推進からさらに進みAIの世界に突入しています。

Googleフォトもただの写真の格納庫ではなく、人物ごとに検索が可能であったり、言葉で検索すれば、それに該当する写真を見つけることも可能なのです。

写真という「画像データ」に何が写されているのかを言語データに変換し、その言語データをもとに人物や場所、種類分けや分析を行い、検索として出力することを可能にしているということです。(ある意味怖いですが…)

そう考えると膨大なデータを処理することが可能になることでさらに言語データが解析され、より人間の言葉を深く理解するかのように処理することが可能になるということです。

また人間の言葉を理解するということは、その背景にある感情や行動分析も可能とするのがまた面白い点でもあります。

この「マルチモーダルAI」は、テキストや音声、画像など、複数の情報データを総合的に処理できるAIであることは先述いたしましたが、2022年の年末から世間を驚かせてきた「ChatGPT」最新版の生成AIである「GPT- 4」に関しては、テキストデータから画像を生み出したり、画像データとテキストデータを組み合わせることもできるマルチモーダルAIのひとつになります。

気持ちとしては「Chat GPT、お前もか?」とカエサルがブルータスに対して叫んだかのように、ChatGPTの進化には本当にいつも驚かされますよね。

たとえば、これまで防犯カメラは「映像のみ」による映像解析が中心となっていましたが、これは私たち人間の脳でいうと「視覚」をもとに状況判断を行っているだけということになります。ここに「聴覚」にあたる「音声情報」が入ることによって解析の精度が上がるということです。

満員電車の中での迷惑行為、大型商業施設での迷惑行為や事件などは、映像だけではその現場のリアルな情報はなかなか取ることが難しく、そのような中で「音声も合わせて録音してデータ保存されている」というだけでも、状況を正しく収集することができます。さらに、怪しい人を見つけたり、行動分析を行うことであらかじめ行動予測も可能となるわけです。

2024年2月15日にOpenAI社が公開した「Sora」

こちらもまた大きな話題となったText-To-Videoのモデルもまた大変衝撃的でした。

たった数行のプロンプトと文字列を打ち込むだけで動画が作られるということになるのです。そうなるともう動画を撮る必要もなければ、すでに撮影することができない対象物でさえ表現することも可能となるのです。

→こちらのリンク

たとえば、

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about.”

と、プロンプトを打ち込むことで、できる映像がこちら…

本当にリアルに撮影したのでは?と感じさせる映像になっているわけです

。これは私たちが書くプロンプトの文字列を認識し、そこからAIが動画を生成しているということになります。

自然言語理解のこれから

ChatGPTをはじめ生成AIが誕生し、自然言語処理の世界もさらに進化が進んでいるのですが、使いこなすのは私たち人間になります。

言語データを大量に収集したあと、その情報をどう活かすのか、どうデータを繋げて活用するのかが大切になります。近い将来その活用方法でさえAIから提案されることになると思いますが、その処理する技術の根本に人間の知恵を働かせたいと感じています。

私たちがサービスとして提供しているRoanna(ロアンナ)も自然言語理解(NSU)を持ち、AIチャットボットというサービスを通して、企業とお客様をつなぐお手伝いをしています。

お客様の悩み、何気ない質問、よくある質問を格納し、返答する、回答を生成するだけでなく、実際にはそこからお客様のニーズ等も汲み取ることが可能です。
分析だけでなく、どう改善していくのかを見ていくことでお客様の隠れたニーズも見つけていけると考えています。

まだまだこれから進化する分野です。

私たちの持つ言語データがAIをより進化させていくことは間違いありません。

ぜひ楽しみながら活用していきましょう。

自然言語理解AIラボのサービス

自然言語理解AIでDX促進のお手伝いをしております。