Skip to content

TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning #10

@nocotan

Description

@nocotan

一言でいうと

分散学習時に勾配を{-1, 0, 1}で量子化するTernGradを提案.

論文リンク

https://proceedings.neurips.cc/paper/2017/file/89fcd07f20b6785b92134bd6c1d0fa42-Paper.pdf

著者/所属機関

Duke University

投稿日付(yyyy/MM/dd)

NeurIPS2017

概要

Screen Shot 2021-05-31 at 21 40 59

新規性・差分

  • 分散学習時に勾配を{-1, 0, 1}で量子化するTernGradを提案
  • 適当な仮定を置くことでTernGradの収束性を理論的に証明
  • 導出されたバウンドから,収束性を向上させるlayer-wise ternarizingとgradient clippingを提案

手法

TernGradアルゴリズム

Screen Shot 2021-05-31 at 21 52 07

Screen Shot 2021-05-31 at 21 41 32

収束性の理論解析

一般的な勾配アルゴリズムでは以下の二つが仮定されている:

Screen Shot 2021-05-31 at 21 54 06

これに加えて,TernGradの理論解析のために以下の追加の仮定を置く.

Screen Shot 2021-05-31 at 21 55 08

Screen Shot 2021-05-31 at 21 56 42

結果

Screen Shot 2021-05-31 at 21 41 56

Screen Shot 2021-05-31 at 21 42 20

Screen Shot 2021-05-31 at 21 45 51

Screen Shot 2021-05-31 at 21 46 18

Screen Shot 2021-05-31 at 21 46 24

コメント

https://github.com/wenwei202/terngrad

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions