본문 바로가기
후기 모음/책 & 논문 후기

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNINGのレビュー

by 킨쨩 2020. 8. 1.
반응형

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

論文著者: Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, Daan Wierstra

リンク:  arxiv.org/abs/1509.02971

 

Continuous control with deep reinforcement learning

We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learnin

arxiv.org

Published as a conference paper at ICLR 2016


論文の説明,日本語版(韓国語版はこちらへ,한국어 버전은 이 쪽으로)

 この論文はDeep Q-Learningの成功とdeterministic policy gradient (DPG)の off-policyの影響を受け Action Domainを取り扱う新しい方式(Deep DPG,DDPG)について提案している.

導入

 Deep Q Network(DQN)が atariのビデオゲームで人並みのパフォーマンスを見せることに成功した.高次元の観察空間(observation spaces)(前処理を行なっていないピクセルを直ぐ入力にする)から問題を解決しているが,底次元の行動空間(action spaces)しか取り扱っていない.しかし,多く作業,その中でも大部分の物理制御作業は連続的で高次元の行動空間を持っているため,DQNを適用することはできなかった.したがって,DQNのような深層強化学習の方式を連続domainに導入するためには,action domainをいくつかに分けるアプロちを取ってきた.しかし,この様式は自由度に従う幾何級数的な行動の数の増加のような,次元の数字に関する制限を持っている.例えば,7自由度ロボットの各関節がー方向,停止,+方向で移動できると仮定した時に,とりうる行動の数は3の7乗になる.その上に,滑らかな(fine)制御が必要な場合は必要な次元の数がより増大し,取り扱えなくなる.
 本研究ではこのような高次元で,連続している行動空間での政策(policy)を学習するための model-free, off-policy, actor-criticアルゴリズムを提案する.離散時間ステップで環境と相互作用をすることにし,今までの環境は全て観測されたものであると仮定する.

アルゴリズム

 deterministic policy gradient (DPG)へニューラルネットワークを適用(Deep DPG,DDPG)する.

 連続的な行動空間での学習の一番難しい所は探索である.DPGのようなoff-policyアルゴリズムは探索問題を学習アルゴリズムとは無関係に取り扱えるよにする.

 ニューラルネットワークを強化学習に用いる場合,多くの最適化アルゴリズムはサンプルが独立的で同等に分配されていると仮定うる.しかし,サンプルが順次的に環境の探索から生成された場合にはその過程は有効ではない.DQNの場合は,replay bufferを用いてこの問題に対処している.本文献のDDPGの場合は,off-policyアルゴリズムであるため,replay bufferを大きくすることができるので,replay bufferにminibatchサンプリングを用いてactor criticをタイムステップごとに更新する.

 Q learningの方式をそのままニューラルネットワークの学習へ適用することは様々な環境下で不安的であるので,Soft target updateを用いて適用する.Actor(状態から行動決定)と critic(状態の価値評価)のネットワークをコピーし,各々の target valueを計算する.各targetネットワークの重みは学習されたネットワークにしたがってゆっくりと更新される.target valueがゆっくり更新されることで安定性が増加する.しかし,値の評価の伝播は遅延する.

 低次元の特徴(feature)vector観察で,様々な要素の観察は違う物理的単位を持つ可能性がある上に,環境によって範囲が違うことがありうる.これはネットワークが様々なスケールや状態で作られている環境を一般化するハイパーパラメータを効果的に探すことを難しくする.そのため,Batch normalizationを通して,minibatchが一定な平均と分散を持つようにサンプルを正規化する.

具体的なアルゴリズム

結果

(映像は問題がある場合は削除します.)

 low-dimensional state description と high-dimensional renderings of the environment (ピクセル認識)の二つの方法を使用した.後者の場合は認識率の向上のためにチャネルごとに1ステップに3回のレンダリングを用いた.具体的にフレームは64 x 64にダウンサンプリングされた後,  8-bit RGBの値を[0,1]へ変換する.

設定されたタスクの姿.
各アルゴリズムの評価:original DPG algorithm (minibatch NFQCA) with batch normalization (light grey), with target network (dark grey), with target networks and batch normalization (green), with target networks from pixel-only inputs (blue).

 DDPGの場合は いくつかのタスクではピクセルを用いた学習がlow-demenstionalと同等なレベルでのパフォーマンスを見せている.
DPG及び他のアルゴリズムの場合,いくつかのタスクでは低いパフォーマンスを見せいている.

結論

 深層学習と強化学習の利点を基に,様々なドメインかでの連続行動空間を取り扱うことができるアルゴリズムを提案した.環境が変わっても大幅な修正は必要なく,安定的な学習が行われていることを実験的な結果として得られた.
多くのmodel-free強化学習のアプローチのように,DDPGは解決策を探すためには多くの学習エピソードを必要としているが,今後のシステムでこのような制限をなくすためにはmodel-freeアプローチは重要であると思う.


この論文が重要である理由

技術的面

  • 以前は取り扱えなかった,高次元行動空間を取り扱えるアルゴリズムを提案した.
  • Model-free,off-policyであるため,環境が変わっても利用することができる.
  • 行動できる方法が多様であっても(高次元),滑らかな制御を行うことができる.

このような長所を活用することで,より多くの作業,特に物理的制御が必要な作業の制御へ強化学習を適用することが可能になる.

Why the paper is accepted.

  • DPG,DQNと minibatch, batch normalizationなどから model-free, off-policy, actor-criticの特性を持つアルゴリズムw新たに提案した.
  • 大きな修正がなくても多様な環境での安定的な学習が行われることを実験的結果として得られた.
  • AIの目標の一つである,高次元的で,前処理を行わないインプットを用いた,複雑なタスクの制御への可能性を見せてくれた.
반응형