基本的には最適化法の出発点はSGD(勾配降下法)である
SGDに速度ベクトルの考えを追加したのがMomentum
SGDに学習係数を勾配で変化させたのがAdagrad
Adagradを改良したのがRMSProp
RMSPropとMomentumの考えを合わせたのがAdam
以下の3つの式で表すことができる。
r = r∇L ○(アダマール積)∇L
△θ = - ε/δ+√r ○ ∇L
θ=θ+△θ
例で考えてみる
r[1¥4] , ε,δ=1、1の時
- ε/δ+√r = [-1/1+√1¥ -1/-1+√4]
=-1/2¥-1/3]
r = ρr+(1-ρ)∇L ○(アダマール積)∇L
△θ = - ε/δ+√r ○ ∇L
θ=θ+△θ
S <-ρ1S+(1-ρ1)∇L
r = ρr+(1-ρ)∇L ○(アダマール積)∇L
S^ <- 1/1+ρt
r^ <- r/1-ρt
△θ <ー -ρ S/δ+√r ○(アダマール積)∇L
θ=θ+△θ
最初は大きく、試行回数tを重ねるごとに
S^ <- 1/1+ρt
r^ <- r/1-ρt
△θ <ー -ρ S/δ+√r ○(アダマール積)∇L
で小さくしていくのが特徴