Skip to content

Network Quantization with Element-wise Gradient Scaling #33

@ryoherisson

Description

@ryoherisson

一言でいうと

離散化誤差を考慮するため,各層の勾配とスケーリングファクターを適応的に調整するEWGSを提案.

論文リンク

著者/所属機関

Junghyup Lee, Dohyung Kim, Bumsub Ham
(Yonsei University)

投稿日付(yyyy/MM/dd)

2021/04/02

概要

既存手法のSTEでは,離散値で得られた勾配を用いて更新をしており,丸めによって生じる離散化誤差を考慮していないという課題がある.

提案手法のEWGSでは,離散的な値の勾配の符号と,潜在的な値と離散的な値の間の離散化誤差を考慮して,勾配の各要素を適応的にスケールアップまたはスケールダウンし, スケーリングされた勾配を用いて潜在値を更新する.

さらに,異なる層の重みや活性化量子化器によって異なる可能性があるため,学習中に適応的に係数を調整するアプローチを提案.

ImageNetにおいて最先端の性能を達成.

スクリーンショット 2021-06-11 9 02 36

新規性・差分

  • 離散化器の入出力間の離散化誤差を考慮しながら,離散値の各勾配要素を適応的にスケールアップまたはスケールダウンするEWGSを導入
  • スケーリングファクターを離散値に対する損失関数の2次導関数と関連付けることで,量子化されたネットワークのヘシアン情報を用いてパラメータを効果的かつ適応的に計算

手法

スクリーンショット 2021-06-11 9 40 55
スクリーンショット 2021-06-11 9 41 30

スケーリングファクター
スケーリングファクターを離散値に対するタスクロスの2階微分と関連づけ,Hessian行列のトレースを用いてファクターを推定
スクリーンショット 2021-06-11 9 42 39

結果

スクリーンショット 2021-06-11 9 39 31
スクリーンショット 2021-06-11 9 40 18

コメント

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions