一言でいうと
分散学習時に勾配を{-1, 0, 1}で量子化するTernGradを提案.
論文リンク
https://proceedings.neurips.cc/paper/2017/file/89fcd07f20b6785b92134bd6c1d0fa42-Paper.pdf
著者/所属機関
Duke University
投稿日付(yyyy/MM/dd)
NeurIPS2017
概要

新規性・差分
- 分散学習時に勾配を{-1, 0, 1}で量子化するTernGradを提案
- 適当な仮定を置くことでTernGradの収束性を理論的に証明
- 導出されたバウンドから,収束性を向上させるlayer-wise ternarizingとgradient clippingを提案
手法
TernGradアルゴリズム


収束性の理論解析
一般的な勾配アルゴリズムでは以下の二つが仮定されている:

これに加えて,TernGradの理論解析のために以下の追加の仮定を置く.


結果





コメント
https://github.com/wenwei202/terngrad