パターン認識と機械学習入門 第9回 参加メモ

資料

ニューラルネットワーク

  • 最急降下法は1ステップの更新に掛かる時間が O(W) で済む一方、収束するまでの反復回数が多くなる
  • 準ニュートン法
    • 1ステップの計算量は O(W^2)
    • 局所解に陥る可能性がある
    • 収束するか否かも保証されてない

直線探索(line search)

  • 局所解に陥る可能性を下げることはできるが、最適解が見つかる保証はない
  • Armijoの条件とWolfeの条件を満たせば大域的収束性が保証される

BFGS公式

  • w_k の時点で得られたヘッセ行列を元に次の時点でのヘッセ行列を近似計算する
  • 高速

正則化

  • 過学習を防ぐために誤差関数に正則化項を付与する
    • E~(w) = E(w) + (λ/2)||w||^2
  • このとき ∇E~(w) = ∇E(w) + λw となる