SEED RL: SCALABLE AND EFFICIENT DEEP-RL WITH ACCELERATED CENTRAL INFERENCE
論文著者: Espeholt, Lasse, Raphaël Marinier, Piotr Stanczyk, Ke Wang, and Marcin Michalski.
リンク: arxiv.org/abs/1910.06591
SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference
We present a modern scalable reinforcement learning agent called SEED (Scalable, Efficient Deep-RL). By effectively utilizing modern accelerators, we show that it is not only possible to train on millions of frames per second but also to lower the cost of
arxiv.org
Github: github.com/google-research/seed_rl
Published as a conference paper at ICLR 2020
論文の説明,日本語版(韓国語版はこちらへ,한국어 버전은 이 쪽으로)
この論文は拡張可能な強化学習agent構造であるSEED(Scalable, Efficient Deep-RL)を提案する.
導入
最近強化学習が様々なタスクで印象的な結果を見せている.巨大なスケールでの計算が複雑なゲームの解決に役に立っている.また,多くの深層強化学習の場合,GPUによる加速が必要となっている.人には些細なことを解決してもらうために必要なデータが多すぎるため,時間の節約のために分散機械学習が必要不可欠になっている.強化学習(RL)は動作環境,モデル推論,モデル学習,replay bufferなどのような様々なタスクが含まれている.しかし,今のアルゴリズムはコンピュータの資源を適切に使用してはいないため,SEEDという構造を提案する.
関連研究としてIMPALAがある.
構造
まず,IMPALAに使われた一般的なactor-learner構造について述べる.モデルパラメータをlearnerからactorが繰り返し受け取る.actorのローカルモデルがサンプルアクションを作り,full経路観察,行動,ポリシーなどを実行する.やがて,この繰り返された過程はshared queueやreplay bufferへ転送される.非同期でlearnerはshared queue/replay bufferからデータを読み取り,モデルを最適化する.
このような構造には次のような短所がある.
- CPUをニューラルネットワークの推論へ利用している.非効率的な資源の使用を招く.
- 非効率的な資源の使用.actorは環境ステップと推論ステップを持っているが,両方の計算条件が似ていいない場合は計算上大きな遅れを発生させる.
- bandwidth要求.モデルパラメータ,繰り返される過程と観察はactorとlearnerの間に転送される.メモリー基板モデルはより大きな状態を送るため,bandwidthが増加する.しかし,経路観察の場合,モデルパラメータに比べると数%にとどまっている.


SEEDの構造は上の問題を解決する.推論とデータの蓄積をactorからlearnerへ移動させ,actorが環境ステップのみを持つようにした.しかし,これはlatencyの問題を起こした.そのlatencyを減らすためにqRPCというライブラリを用いたフレームワークを作った.qRPCはUNIXドメインソケットを利用し,latencyとsyscallを減らした.結果的に,(ネットワークや推論を含む)end-to-end latencyはより早くなった.
また,SEEDの場合は一種類のモデルのコピーしか存在しないが,分散されたIMPALAの場合,各actorが各々のコピーを持つようになっている.これはoff-policyの場合に変化を作る.IMPALAの場合,同じ政策が全体過程の中で維持されるが,SEEDの場合,ステップごとに更新されることができ,あとのステップであるほど,より最新の政策を持つようになる.


つまり,上の三つの問題点を次のように解決した.
- 推論をlearnerへ移動させ,actorのニューラルネットワーク計算を除去した.
- Learnerの上の推論を一括にし,様々な環境をactorの上で持つ.learnerは加速を,actorはCPUをフール活用.
- モデルに関する全てがlearnerへ属し,観察と行動のみがactorとlearnerの間を通る.これはbandwidthを99%程度削減する.
Streaming gRPCを用いて最低限のlatencyとoverheadを持ち,batchをサーバモジュールで合わせる.
V-traceのアルゴリズムを適用した.DQNの発展型であるR2D2を参考にした.

実験
DEEPMIND LAB AND V-TRACE
GOOGLE RESEARCH FOOTBALL AND V-TRACE
ARCADE LEARNING ENVIRONMENT AND Q-LEARNING
全体的に同級の性能に必要なハードウェア数の減少.または,同級のハードウェア数での性能の増加.

COST COMPARISONS
強化学習ではより大きな環境を取り扱う必要が発生し,費用の節減が重要になった.学習の速度を維持したまま費用の節減が目的で,GPUの代わりにTPUを利用し,CPUの使用量を減らしてコストを削減した.
結論
より早くて,計算コストがかからない新たな強化学習agent構造を導入し,分析した.このagentはopensource化され,google cloud上でうまく動作するように,パッケージ化された.
この論文が重要である理由
技術的面
- 強化学習においてコンピュータ資源の効率的な使用のための構造を提案した.
- 提案された構造が簡単な方で,比較的簡単に適用することができる.
- 場合によっては,秒あたりのフレーム数が100万以上になる学習を行うこともでき,より大きな規模での学習が可能で,より実用的な問題へ取り組むことができるだろう.
だんだん大きく,複雑な問題を取り扱うようになり,負担となっているハードウェアの価格と性能を効率的に抑えてくれる研究として,今後の効率的なコンピュータ資源活用において重要な研究であると思う.
Why the paper is accepted.
- ハードウェア効率が大きく増加した.
- 実際に組まれたコードがopen source化されており,package化あれているため,誰でも簡単に活用することができる.
'후기 모음 > 책 & 논문 후기' 카테고리의 다른 글
"ライフデザイン スタンフォード式最高の人生設計(라이프디자인)"을 읽고 | 책 리뷰(3) (0) | 2020.08.19 |
---|---|
SEED RL: SCALABLE AND EFFICIENT DEEP-RL WITH ACCELERATED CENTRAL INFERENCE의 리뷰 (3) | 2020.08.02 |
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING리뷰 (2) | 2020.08.01 |
CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNINGのレビュー (0) | 2020.08.01 |
"たった1日で声までよくなる話し方の教科書" (말하는 법 교과서)를 읽고 (0) | 2020.02.27 |
댓글