Skip to content

AdaScale SGD: A User-Friendly Algorithm for Distributed Training #13

@nocotan

Description

@nocotan

一言でいうと

分散学習時の学習率チューニングを不要にするようなSGDの拡張

論文リンク

https://arxiv.org/abs/2007.05105

著者/所属機関

Tyler B. Johnson, Pulkit Agrawal, Haijie Gu, Carlos Guestrin (Apple)

投稿日付(yyyy/MM/dd)

2020/07/09

概要

Screen Shot 2021-01-04 at 14 00 54

新規性・差分

既存のスケジューリングルールであるIdentity scaling ruleとlinear scaling ruleを適応的にした.

手法

Screen Shot 2021-01-04 at 14 01 01

結果

Screen Shot 2021-01-04 at 14 01 34

Screen Shot 2021-01-04 at 14 01 44

コメント

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions