ビッググラフと最適化 参加メモ

統計数理研究所で行われた数学協働プログラム チュートリアル「ビッググラフと最適化」に行ってきたのでメモ。

ビッグデータ解析に機械学習技術は有用か?

単一種類のデータ分析(仮説検証)→ 多種多様な情報から新価値創造(仮説発見)

機械学習の2大派閥

  • 生成モデル派 vs 識別モデル派(例:SVM
  • 分類問題の場合
    • 識別モデル:データのクラス境界を直接学習
    • 生成モデル:クラスごとの生成モデルを確率分布として学習

機械学習技術はBD解析に有用か?
Machine Learning that Matters (ICML2012) Kiri L. Wagstaff


下流からせめるビッグデータ

  • 3V + 価値(Value)、情報の正確さ(信憑性)(Veracity) が重要
  • ビッグデータは「価値密度(=価値総量/データ総量)」が低い

データとビジネスの関係

  • 日本固有の弱さ
    • 「もの」から「システム」へ
    • 匠とマシン
    • 無形物にお金を払わない文化


大規模グラフへのアルゴリズム

アルゴリズム屋&理論屋のアプローチ

  1. 問題と問題の入力サイズを知る
  2. 入力サイズを知ることによって使用可能なアルゴリズムを思い浮かべる。入力が多いければ使える道具は限られる。-> モデル化の前に道具を考える
  3. 使用可能なアルゴリズムに落とし込むモデル化
  4. モデル化と使用可能なアルゴリズムの調整

巨大グラフ

  • O(m log n)が限界


次世代スーパーコンピュータ技術を用いた超大規模グラフ解析と実社会への応用

  • グラフの中心性 (Centrality)