最適化とは目的関数Lを最適化することを目指す。
d/dwL = ∇Lと表現する (目的関数Lを重みwで微分する)
回帰:L = Σn(tn-yn)^2 (目的関数L = tn(教師データ)ーyn(推測値)
分類:L = Σn tnLOGyn
パラメータθの更新
θはθーr∇L (r = 学習係数)
ミニバッチ学習を実施しながら、パラメータ更新を行うこと
メリット
v=αv-r∇L (速度v=前のv - 学習係数r ✖️ ∇L(Lを重みwで微分)
θ=θ+v (パラメータθに速度vを足す)
実際に計算してみる
1回目
∇L = [10¥3]
v = [0¥0]^[10¥3] = [-9¥-3]
θ=[0¥0] + [-10¥-3] = [-10¥-3]
2回目
∇L[-9¥2]
v = [-10¥-3]-[-9¥2] = [-1¥-5]
θ=[-10¥-3] + [-1¥-5] = [-11¥-8]
となる。
これはパラメータθの更新の際に、速度vの方向を維持して
パラメータ更新ができるので、最急降下法として、一番深い谷まで
たどり着くのが早くなる。