モデルフリー (強化学習)

強化学習（RL）において、モデルフリーアルゴリズム（model-free algorithm）あるいはモデル無しアルゴリズムとは、マルコフ決定過程（MDP）の環境ダイナミクス（遷移確率分布と報酬分布）を推定しないアルゴリズムのことである^[1]。遷移確率分布と報酬分布は、しばしばまとめて環境（またはMDP）の「モデル」と呼ばれるため、「モデルフリー」という名前が付けられている。モデルフリー強化学習アルゴリズムは、「明示的な」試行錯誤アルゴリズムと考えることができる^[1]。モデルフリーアルゴリズムの典型的な例としては、モンテカルロ法（MC法）、SARSA法、Q学習がある。

モンテカルロ推定は、多くのモデルフリーアルゴリズムの中心的な要素である。基本的に一般化方策反復法（GPI）の具体化であり、方策評価（PEV）と方策改善（PIM）の二つが交互に繰り返される。このフレームワークでは、各方策はまず対応する価値関数によって評価される。次に、評価に基づいて、より良い方策を作成するために貪欲（greedy）探索を行う。モンテカルロ推定は、主に方策評価の最初のステップに適用される。もっとも単純なものは、現在の方策の有効性を判断するために、収集されたすべてのサンプルの収益を平均する。より多くの経験が蓄積されるにつれて、大数の法則により推定値は真の値に収束する。したがって、モンテカルロ法による方策評価は、環境ダイナミクスに関する事前の知識を必要としない。代わりに、（現実またはシミュレートされた）環境との相互作用から生成される経験（つまり、状態、行動、報酬のサンプル）のみが必要となる^[2]。

価値関数の推定は、モデルフリーアルゴリズムにとって重要である。MC法とは異なり、時間差分法（TD法）は既存の価値推定値を再利用（ブートストラッピング）することでこの関数を学習する。TD学習は、最終結果を待たずに、エピソードの部分的な軌跡から学習する能力を持つ。また、現在の状態の関数として将来の収益を近似することもできる。MCと同様に、TDは環境ダイナミクスに関する事前の知識なしに、経験のみを使用して価値関数を推定する。TDの利点は、現在の推定値に基づいて価値関数を更新できるという点にある。したがって、TD学習アルゴリズムは、不完全なエピソードまたは継続的なタスクから段階的に学習できるが、MCはエピソード単位で実装する必要がある^[2]。

モデルフリー深層強化学習アルゴリズム

モデルフリーアルゴリズムは、ランダムな方策から始めて、Atariゲーム、StarCraft、囲碁など、多くの複雑なタスクで人間を超えるパフォーマンスを達成できる。深層ニューラルネットワークは、最近の人工知能のブレークスルーを担っており、RLと組み合わせることで、Google DeepMindのAlphaGoなどの人間を超えるエージェントを作成できる。主流のモデルフリーアルゴリズムには、DQN（深層Q学習）、Rainbow、TRPO（信頼領域方策最適化）、PPO（近接方策最適化）、A3C（非同期アドバンテージ・アクター・クリティック法）、A2C（同期アドバンテージ・アクター・クリティック法）、DDPG（深層決定的方策勾配法）、TD3（二重遅延型深層決定的方策勾配法）、SAC（ソフト・アクター・クリティック法）、DSAC（分布ソフト・アクター・クリティック法）などがある^[2]。

アルゴリズム	詳細	方策の分離性	行動空間
DQN	深層Q学習。Q関数をニューラルネットワークで関数近似する手法。加えて、ターゲットネットワーク、経験バッファを導入する。	オフポリシー	離散
Rainbow	DQNにDDQN（Double DQN）、デュエリング・ネットワーク（Dueling-network）ノイジー・ネットワーク（Noisy-network）、優先度付き経験バッファ（Prioritized Experience Replay）、カテゴリカルDQN(C51、分布DQN)、マルチステップ学習を融合した手法。	オフポリシー	離散
A3C	非同期アドバンテージ・アクター・クリティック法。分散型となったアクタークリティック法。エージェントは勾配を収集し、中央のラーナーがパラメータを更新する。	オンポリシー	離散・連続
A2C	同期アドバンテージ・アクター・クリティック法。A3Cの派生手法で、エージェントは経験を収集し、中央のラーナーが勾配計算とパラメータ行進を行う。A3CよりGPUの必要数が少ない。	オンポリシー	離散・連続
TRPO	信頼領域方策最適化。方策の過度な更新を抑えるために、制約を利用する。	オンポリシー	離散・連続
PPO	近接方策最適化。TRPOを簡略化した手法。	どちらともいえない	離散・連続
DDPG	深層決定的方策勾配法。決定的方策をニューラルネットワークで、モデル化するのが特徴。	オフポリシー	連続
TD3	二重遅延型深層決定的方策勾配法。DDPGの改良手法。	オフポリシー	連続
SAC	ソフト・アクター・クリティック法。エントロピー最大化によって探索を促進する。	オフポリシー	連続
DSAC^[3]	分布ソフト・アクター・クリティック法。SACに分布強化学習の発想を取り入れたもの。	オフポリシー	連続

脚注

[脚注の使い方]

出典

^ ^a ^b Sutton, Richard S.; Barto, Andrew G. (November 13, 2018). Reinforcement Learning: An Introduction (Second ed.). A Bradford Book. pp. 552. ISBN 0262039249 18 February 2019閲覧。
^ ^a ^b ^c Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First ed.). Springer Verlag, Singapore. pp. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1
^ J Duan; Y Guan; S Li (2021). “Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems 33 (11): 6584–6598. arXiv:2001.02811. doi:10.1109/TNNLS.2021.3082568. PMID 34101599.

[sutton20182-1] Sutton, Richard S.; Barto, Andrew G. (November 13, 2018). Reinforcement Learning: An Introduction (Second ed.). A Bradford Book. pp. 552. ISBN 0262039249 18 February 2019閲覧。

[LiS-20232-2] Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First ed.). Springer Verlag, Singapore. pp. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1

[3] J Duan; Y Guan; S Li (2021). “Distributional Soft Actor-Critic: Off-policy reinforcement learning for addressing value estimation errors”. IEEE Transactions on Neural Networks and Learning Systems 33 (11): 6584–6598. arXiv:2001.02811. doi:10.1109/TNNLS.2021.3082568. PMID 34101599.

[1]

[2]

[3]