元RX-7乗りの適当な日々

デブサミ2017「インテリジェンスで挑むサイバー攻撃の最前線」講演メモ #devsumi

IT

IIJの方による大量トラフィックにおける情報セキュリティ＋機械学習的な話を聞いてきたので、そのメモです。

穴吹健一氏
- (株)インターネットイニシアティブ
  - IIJの"J"は何なのか、穴吹氏もよく知らないとのこと...
- ビッグデータや機械学習を少々

サイバーセキュリティをめぐる攻防

サイバーセキュリティとは

データ改善やサービス継続の妨害のような犯罪を阻止
最近はMSS(マネージドセキュリティサービス)提供の会社が増えてきた

サイバー攻撃は他人事ではない

標的型メールによるマルウェア感染による個人情報流出
派遣社員によるデータ持ち出しによる個人情報流出
CSRF/トロイの木馬による遠隔操作による不正操作
などなど

攻撃主体と目的

国家
- 諜報活動や他国の政治への介入
ハクティビスト
- 政治的主張
犯罪組織
- 利益目的の情報窃取や脅迫

よくある攻撃手法

DDoS攻撃
- 古典的だがどの通信が攻撃か判別が難しいので効果的
Web改ざん
- マルウェア配布や罠サイトへの誘導等
マルウェア感染
- PC内部の情報を盗んだり暗号化したり
標的型攻撃
- 特定の人や組織を狙った攻撃

IIJが観測したDDoS攻撃

1日あたり平均4〜5件くらい
- 大体が30分以内で終わるが、大規模なものも増えてきている

ドライブバイダウンロードによるマルウェア感染の脅威

ここ最近だとRigが急増している

ランサムウェアの動向

月ごとに変わってきている、種類を変えて継続している

高度化するサイバー攻撃

大規模化するBotネットワーク
- 攻撃に利用されるIoT機器 (MiraiBot)
- 防犯カメラなどが利用されている
増え続ける新種マルウェアとその亜種
より巧妙化する標的型攻撃
- 内部に侵入しても慎重に活動している (見つかりにくい)

サイバーセキュリティの今後

リアルタイムでのモニタリング
- あらゆるログを横串で分析して兆候を見つける
インシデント発生時の迅速な対応
- 処理時間が短いほど被害を最小に抑えられる
リスク管理
- 何を守り、どこまで許容するか
- 企業にとって、サイバーセキュリティは経営課題
ユーザへの教育
- セキュリティポリシーを明確にし、ガイドラインを用意する
- 最終的に、セキュリティは人に依存する

AIに関する基礎知識

AIとは

Artifical Intelligence
人工知能

人工知能に対する2種類の考え方

ヒトの知能を再現する
- 強いAI
- 汎用人工知能と呼ばれているもの
- 知性とは何か？とか、もはや宗教や哲学の世界
- 面白そうだけど、ビジネスではまだ役に立たないかも
特定の問題を解決する
- 弱いAI
- 反応や行動は人間ぽいが自我も意識もなくルールに従った動作

人工知能 => 機会学習

ビジネス的観点から言えば、特定の課題を解決するために特化した弱いAIのこと

機械学習とは

データをもとにパターンやルールを導くためのフレームワーク
主に予測や判別、分類に使われる
- スパム判定、レコメンド、画像認識、異常検知
機械学習 => 関数みたいなもの
- 入力を与えると答えを返す
様々なモデル・アルゴリズムがある

タイタニック号の乗客の生存予測をやってみる

入力データ
- 性別、年齢、客室投球 (だけで試しにやってみた)
データの特性を見る
- 男女別では女性の方が生存率が高い
- 年代別ではあまりさが見られない
- 客室投球別では1等級の生存率が高い
ロジスティック回帰で生存予測モデルを作成
- 結果としては、まずまずの精度

データ分析に対するIIJの取り組み

DAMカラオケ機器向けの新機能開発
- ユーザの選曲行動をもとに思わず歌いたくなるようなレコメンドを実装
  - 一緒にカラオケを行く人によって、共通項があったり選曲しているのではという仮説
  - テキストマイニング(tf-idf法)でクラスタリングをカラオケの選曲に適用
    - 各選曲番号のtf-idfを算出
    - Canopy-Kmeans Clusteringでクラス多数と中心座標を算出
  - 従来のカテゴリわけでは見つからなかった楽曲間の関連性が見つかった

サイバーセキュリティへのAI適用に対する取り組み

各種膨大なログなど、ISPならではの情報と、20年を超えるシステム運用実績から得られるビッグデータを情報分析基盤で保持
膨大な情報分析より、セキュリティインテリジェンス(レピュテーション作成、トレンド予測など)を生成

情報分析基盤の構成

LogFlow => Kafka => K2(内製) => Hive/HBase

レピュテーション情報の生成

セキュリティにおけるレピュテーションは、IPアドレスに関する評価、あるIPが悪意ある攻撃者かどうか
既存のレピュテーション情報は、43億あるIPv4のIPのうち、数万程度の網羅率
IIJでは、一般のセキュリティベンダでは入手不可能な大量のデータを持っている
機械学習によって、既存のレピュテーション情報を教師データとして使用する
様々なログから特徴量を抽出する
IPごとの特徴ベクトルを入力として機械学習を実施

IIJ C-SOCサービス

インシデントを検知〜通知〜対応〜対策まで管理

今後の取り組み

全ての人が安全にインターネットを利用できる世界を実現する