人間の文章をほぼすべて理解する Facebook の新たな人工知能 DeepText

2016.06.09

ある男性が「雨が降ってきた! 誰か車で送って!」と Messenger に書き込んだとします。


すると、友人である女性が「本当? ちょうどタクシーから降りたところなんだけど」と返事します。


男性がタクシーを必要としていること、もしも Messenger が Uber にアクセスするかどうかを尋ねたら男性はおそらく「イエス」と答えること、そして、女性はちょうど降りたところなのでタクシーはもう必要ないことを Facebook のアルゴリズムが理解できたとしたら、それは便利なだけでなく、収益獲得の機会になるはずです。


その通りです。


Facebook はまさにそのシナリオが実現するように、人工知能 (AI) の言語処理能力を訓練していました。その成果として Facebook は水曜日、最新の AI システム「DeepText」を発表しました。


Facebook によれば、DeepText はディープラーニング (深層学習) に基づいたテキストの内容を理解するエンジンで、人間に近い正確さで毎秒数千件のテキストの文脈を理解することができ、20 以上の言語に対応します。


ディープラーニングとは


マシンがテキストを理解するまでには多くのことを判断しなければなりません。まずは大まかな分類が必要です (一例として Facebook はバスケットボールに関する投稿を挙げています)。次は、意味のある文脈上の情報を理解する必要があります (選手の名前、試合の統計情報など)。


人間がテキストを解釈する方法に近づけるためには、スラングや曖昧な表現などもマシンに教え込まなければなりません。たとえば、どれだけブラックベリーが好きかという投稿が、フルーツについてなのかデバイスについてなのかを判断する必要があります。


一方で、膨大な量にも対応する必要があります。Tech Crunch の報告によれば、Facebook には毎分約 400,000 件の新たな投稿と 125,000 件のコメントが追加されています。


テキストの塊を理解可能なものに変える DeepText は、ディープラーニングに基づいたツールです。Wikipedia 風に表現するならば、ディープラーニングとは機械学習の一種で、(構造が複雑であるか、複数の非線形変換で構成された) 複数の処理層を使用して高度なデータ抽象化をモデル化しようとするアルゴリズムに基づいています。


ディープラーニングの使用例を 1 つ示します。従来型の自然言語処理では、単語はコンピュータアルゴリズムが学習できる形式に変換されます。たとえば「brother」という単語に 4598 のような整数の ID が割り当てられ、「bro」という単語には 986665 のような別の整数が割り当てられます。しかし、この方法が機能するのは、各単語のスペルが正しい場合に限られます。


一方、ディープラーニングでは「単語埋め込み」という方法が用いられます。これは、単語間の意味関係を維持する数学的概念です。これにより、コンピュータは「brother」と「bro」が近い関係にあることを認識し、より深い意味を理解できるようになります。


単語埋め込み機能は実際に言語を拡張して、意味を理解することができます。たとえば、Facebook の説明によると「happy birthday」と「feliz cumpleaños」は共通の埋め込みスペースにおいて非常に近い所にあります。DeepText は、単語やフレーズを共通の埋め込みスペースにマッピングすることで、言語に依存しないモデルを構築します。


以下は Facebook の発表の抜粋です。


(引用文日本語訳) Facebook のコミュニティは世界中に広がっています。そのため、DeepText にとって出来るだけ多くの言語を理解することが重要です。従来型の NLP 技術には、複雑な設計と言語知識に基づいた広範囲に及ぶ前処理ロジックが必要です。同じ考えを伝達する時であっても、スラングが使用されたりスペルが異なっていたりするため、言語ごとに差異が存在します。


ディープラーニングを使用することで、システムは前処理をほとんどあるいは全く行わなくてもテキストから学習できるようになり、言語依存型知識への依存度が低くなります。その結果、複数の言語への拡張が迅速化され、技術的な作業は最小限で済みます。


DeepText のベースとなっているディープラーニングの詳細については、Facebook AI Research 部門の Ronan Collobert 氏と Yann LeCun 氏が発表した論文を参照してください。


今後への期待


Facebook はすでに、従来の簡素な投稿では満足できなかったユーザーにも Facebook ツールを使用してもらおうと、DeepText モデルの活用を始めています。たとえば、あるユーザーが自分の自転車を 200 ドルで売りたいと考えているとします。


DeepText は、その投稿が物の販売に関するものであることを検出し、何が売りに出されているのかなどの情報を抽出し、続いて、目的に合った特定のツールを使用すれば Facebook での売買が容易になることをユーザーに通知できます。


もちろんこれはユーザーのためを思っての行為ではありません。このプラットフォームの利用を増やすことで、Facebook の収益が増加するからです。


投稿への理解が深まるだけにとどまらず、意図、感情、実体 (人、場所、イベントなど) を解明できるようになれば、Facebook は複合的なコンテンツ (画像とテキストの組み合わせなど) も理解できるようになります。そうなれば、コンテンツの質が向上し、セレブの Facebook ページに表示される「I LOVE YOU!!!」といったファンからの投稿は除外されます。


もう 1 つ例を挙げておきましょう。子供が生まれたばかりのユーザーが、「25 日目」というテキスト付きで赤ん坊の写真を投稿したとします。DeepText のビジュアルコンテンツ理解チームとの連携の中で、これは明らかに家族向けの投稿であると判断できるはずです。


一方、スパムのようなジャンクメールを自動削除することも可能です。


重要なのはユーザーが見たいと思っているコンテンツを表示させ、見たくないコンテンツを隠すことだと Facebook は述べています。


あらゆる投稿の内容を人間のように理解する Facebook の機能を怖いと感じるのであれば、共有するコンテンツについて慎重になるべきです。友達とだけ共有しているつもりでも、Facebook は常にその投稿を盗聴しています。


ソフォスでは、Facebook アカウントのセキュリティ強化に役立つヒントを提供しています。また、大手ソーシャルメディアに関する最新情報が気になる方は、ソフォスの Facebook ページにご登録ください


言うまでもありませんが、投稿された内容はすべて Facebook に把握されることになります。

引用元

おすすめの記事はこちら