一言でいうと
離散化誤差を考慮するため,各層の勾配とスケーリングファクターを適応的に調整するEWGSを提案.
論文リンク
著者/所属機関
Junghyup Lee, Dohyung Kim, Bumsub Ham
(Yonsei University)
投稿日付(yyyy/MM/dd)
2021/04/02
概要
既存手法のSTEでは,離散値で得られた勾配を用いて更新をしており,丸めによって生じる離散化誤差を考慮していないという課題がある.
提案手法のEWGSでは,離散的な値の勾配の符号と,潜在的な値と離散的な値の間の離散化誤差を考慮して,勾配の各要素を適応的にスケールアップまたはスケールダウンし, スケーリングされた勾配を用いて潜在値を更新する.
さらに,異なる層の重みや活性化量子化器によって異なる可能性があるため,学習中に適応的に係数を調整するアプローチを提案.
ImageNetにおいて最先端の性能を達成.

新規性・差分
- 離散化器の入出力間の離散化誤差を考慮しながら,離散値の各勾配要素を適応的にスケールアップまたはスケールダウンするEWGSを導入
- スケーリングファクターを離散値に対する損失関数の2次導関数と関連付けることで,量子化されたネットワークのヘシアン情報を用いてパラメータを効果的かつ適応的に計算
手法


スケーリングファクター
スケーリングファクターを離散値に対するタスクロスの2階微分と関連づけ,Hessian行列のトレースを用いてファクターを推定

結果


コメント