マルウェア分析のための機械学習の課題

2017.09.12

ソフォスを含め、セキュリティベンダーは機械学習ベースのマルウェア分析のメリットを引き続き高く評価しています。しかし、ここ数週間の記事にも書いたように、適切に管理しなければ効果は発揮されません。この技術は攻撃者によって悪用されたり、質の低いデータによって問題が発生する(リンク先:英語)可能性があります。



ソフォスのデータサイエンティスト Hillary Sanders は、Black Hat USA 2017 と BSidesLV においてその課題と対処法について詳しく説明しましたが、最近では適切なラベリングの重要性に関する記事(リンク先:英語)を発表しています。




Sanders によれば、企業はしばしば誤ったラベルを自社のモデルに投入しています。



誤ったラベルによって生成される誤った結果



Sanders が述べているように、教師あり機械学習 (supervised machine learning) は次のように機能します。



  • ・研究者が、モデル (関数) にデータ (HTML ファイルなど) と関連する望ましい出力ラベル (無害なものと悪意のあるものを表す 0 と 1 など) を投入します。
  • ・モデルは HTML ファイルを調べ、使用可能なラベル 0 と 1 を確認してから、入力データ (HTML ファイル)のみを参照して出力ラベル (0、1) を正しく推測できるようにデータに合わせて自身を調整しようとします。
  • ・研究者は、「これが完璧に正確な世界の状態。新しいデータから正確にラベルを推測できるようにこの状態を学習しろ」とモデルに指示することによって、モデルにとっての正解データ (ground truth) を定義します。

問題は、研究者が間違ったラベルをモデルに与える場合だと、Sanders は述べています。


“これはおそらく、これまでにシステムが経験したことのない、トレーニングデータで正しくフラグが立てられていない新種のマルウェアです。セキュリティ業界はこれまで、お互いの分類をコピーし合ってきたために、雪だるま式にファイルのラベル付けを間違っていた可能性があります。問題は、モデルがこのわずかに誤ってラベル付けされたデータに適合した結果、誤ったラベルを予測するモデルが出来あがってしまうのではないか、ということです。”



何よりも、研究者は間違ったラベルのモデルを評価することになるため、エラーを正しく推測できなくなる、と Sanders は付け加えています。この懸念が的中するかどうかは、次の要素に依存します。



  • ・データセット内の不正確なラベルの量
  • ・モデルの複雑さ
  • ・間違ったラベルがデータ全体にランダムに分布しているか、集約しているか

前述の記事 (適切なラベリングの重要性に関する記事) で Sanders は、プロットチャートを使用して、問題が発生する可能性のある例を示しています。これらのチャートは「The problem with labels (ラベルの問題)(リンク先:英語)」セクションにあります。



正しい方法とは



Sanders は、発生する可能性のある問題の例をいくつか紹介した後で、自身のチームが行っている正しい方法を概説しています。データ中の間違ったラベルの量とその影響を最小限に抑えるために、チームは以下のことを実行しています。


  • ・サンドボックス分析によって本質的に悪意のあるものだと証明され、複数のベンダーによって確認されたマルウェアサンプルのみを使用します。
  • ・モデルを過学習させない、さらには過剰適合させないようにします。「既存のマルウェアのリストを模倣するのではなく、新しいファイルと古いファイルとの類似点を調べることで、これまでに見たことのないマルウェアサンプルを検出できるようにすることが目標」だと Sanders は述べています。
  • ・モデルのテスト中に発生した誤検出と見逃しを分析して、ラベルの改善を試みます。つまり、モデルが分類を間違ったと研究チームが判断したファイル (プロットチャートで赤い円で示されているファイルなど) を調査し、実際に誤って分類しているかどうかを確認します。


Sanders は次のようにも述べています。



“非常に嬉しいことに、ラベルは間違っているのにモデルが正しいということが頻繁に起きます。つまり、私たちのモデルは実際にデータクリーニングツールとして機能するということです。”



ソフォスのデータサイエンティストチームは、発生し得る問題を理解しており、機械学習を効果的に使用する手順を確立しています。今後も引き続き機械学習の課題について文書を発表していく予定です。



おすすめの記事はこちら