コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

モデルフリー (強化学習)

出典: フリー百科事典『ウィキペディア(Wikipedia)』

強化学習(RL)において、モデルフリーアルゴリズムmodel-free algorithm)あるいはモデル無しアルゴリズムとは、マルコフ決定過程(MDP)の環境ダイナミクス(遷移確率分布と報酬分布)を推定しないアルゴリズムのことである[1]。遷移確率分布と報酬分布は、しばしばまとめて環境(またはMDP)の「モデル」と呼ばれるため、「モデルフリー」という名前が付けられている。モデルフリー強化学習アルゴリズムは、「明示的な」試行錯誤アルゴリズムと考えることができる[1]。モデルフリーアルゴリズムの典型的な例としては、モンテカルロ法(MC法)、SARSA法Q学習がある。

モンテカルロ推定は、多くのモデルフリーアルゴリズムの中心的な要素である。基本的に一般化方策反復法(GPI)の具体化であり、方策評価(PEV)と方策改善(PIM)の二つが交互に繰り返される。このフレームワークでは、各方策はまず対応する価値関数によって評価される。次に、評価に基づいて、より良い方策を作成するために貪欲(greedy)探索を行う。モンテカルロ推定は、主に方策評価の最初のステップに適用される。もっとも単純なものは、現在の方策の有効性を判断するために、収集されたすべてのサンプルの収益を平均する。より多くの経験が蓄積されるにつれて、大数の法則により推定値は真の値に収束する。したがって、モンテカルロ法による方策評価は、環境ダイナミクスに関する事前の知識を必要としない。代わりに、(現実またはシミュレートされた)環境との相互作用から生成される経験(つまり、状態、行動、報酬のサンプル)のみが必要となる[2]

価値関数の推定は、モデルフリーアルゴリズムにとって重要である。MC法とは異なり、時間差分法(TD法)は既存の価値推定値を再利用(ブートストラッピング)することでこの関数を学習する。TD学習は、最終結果を待たずに、エピソードの部分的な軌跡から学習する能力を持つ。また、現在の状態の関数として将来の収益を近似することもできる。MCと同様に、TDは環境ダイナミクスに関する事前の知識なしに、経験のみを使用して価値関数を推定する。TDの利点は、現在の推定値に基づいて価値関数を更新できるという点にある。したがって、TD学習アルゴリズムは、不完全なエピソードまたは継続的なタスクから段階的に学習できるが、MCはエピソード単位で実装する必要がある[2]

モデルフリー深層強化学習アルゴリズム

[編集]

モデルフリーアルゴリズムは、ランダムな方策から始めて、Atariゲーム、StarCraft、囲碁など、多くの複雑なタスクで人間を超えるパフォーマンスを達成できる。深層ニューラルネットワークは、最近の人工知能のブレークスルーを担っており、RLと組み合わせることで、Google DeepMindのAlphaGoなどの人間を超えるエージェントを作成できる。主流のモデルフリーアルゴリズムには、DQN(深層Q学習)、Rainbow、TRPO(信頼領域方策最適化)、PPO(近接方策最適化)、A3C(非同期アドバンテージ・アクター・クリティック法)、A2C(同期アドバンテージ・アクター・クリティック法)、DDPG(深層決定的方策勾配法)、TD3(二重遅延型深層決定的方策勾配法)、SAC(ソフト・アクター・クリティック法)、DSAC(分布ソフト・アクター・クリティック法)などがある[2]

アルゴリズム 詳細 方策の分離性 行動空間
DQN 深層Q学習。Q関数をニューラルネットワークで関数近似する手法。加えて、ターゲットネットワーク、経験バッファを導入する。 オフポリシー 離散
Rainbow DQNにDDQN(Double DQN)、デュエリング・ネットワーク(Dueling-network)ノイジー・ネットワーク(Noisy-network)、優先度付き経験バッファ(Prioritized Experience Replay)、カテゴリカルDQN(C51、分布DQN)、マルチステップ学習を融合した手法。 オフポリシー 離散
A3C 非同期アドバンテージ・アクター・クリティック法。分散型となったアクタークリティック法。エージェントは勾配を収集し、中央のラーナーがパラメータを更新する。 オンポリシー 離散・連続
A2C 同期アドバンテージ・アクター・クリティック法。A3Cの派生手法で、エージェントは経験を収集し、中央のラーナーが勾配計算とパラメータ行進を行う。A3CよりGPUの必要数が少ない。 オンポリシー 離散・連続
TRPO 信頼領域方策最適化。方策の過度な更新を抑えるために、制約を利用する。 オンポリシー 離散・連続
PPO 近接方策最適化。TRPOを簡略化した手法。 どちらともいえない 離散・連続
DDPG 深層決定的方策勾配法。決定的方策をニューラルネットワークで、モデル化するのが特徴。 オフポリシー 連続
TD3 二重遅延型深層決定的方策勾配法。DDPGの改良手法。 オフポリシー 連続
SAC ソフト・アクター・クリティック法。エントロピー最大化によって探索を促進する。 オフポリシー 連続
DSAC[3] 分布ソフト・アクター・クリティック法。SACに分布強化学習の発想を取り入れたもの。 オフポリシー 連続

脚注

[編集]

出典

[編集]
  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (November 13, 2018). Reinforcement Learning: An Introduction (Second ed.). A Bradford Book. pp. 552. ISBN 0262039249. http://incompleteideas.net/book/bookdraft2018mar21.pdf 18 February 2019閲覧。 
  2. ^ a b c Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First ed.). Springer Verlag, Singapore. pp. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. https://link.springer.com/book/10.1007/978-981-19-7784-8 
  3. ^ J Duan; Y Guan; S Li (2021). “Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems 33 (11): 6584–6598. arXiv:2001.02811. doi:10.1109/TNNLS.2021.3082568. PMID 34101599. https://ieeexplore.ieee.org/document/9448360.