最適制御
最適制御(さいてきせいぎょ、英: optimal control)は、特定の時間区間における評価関数の値を最小化(あるいは最大化)するように制御入力を決定する、動的システムに対する制御手法のひとつである。 形式的には、制御対象である動的システムの動特性を記述する状態方程式を拘束条件のひとつとして持つ汎関数の最適化問題として定式化される。 しばしばこの問題には、各時刻における状態ベクトルや制御入力に対する制約条件が含まれる。 最適制御理論は変分法の拡張であり、制御工学のみでなく応用数学(特に数理最適化)や数理物理学とも強い関わりを持つ。
歴史
[編集]最大原理と動的計画法は、1950年代の半ば頃にほぼ同時かつ独立に開発された。その基礎となる考え方は非常に古く、それらは先史から深く結びついている。
最大原理は、変分法におけるワイエルシュトラスの強い極値に関する必要条件を一般化したものであり、ハミルトニアンを"疑似"ハミルトニアン (英: pseudo-Hamiltonian)に置き換えることで得られる。この原理はコンスタンティン・カラテオドリによって1935年には既に垣間見えており、1950年にはマグナス・ヘステネスによって、より精緻なものとなった。しかし、今日我々が知る形の最大原理はレフ・ポントリャーギンの洞察が基礎にある。彼は最初に最短時間問題に対しこの問題を定式化し、その後ウラジミール・ボルチャンスキー レバス・ガムクレリゼおよび レフ・ロゾノエルらによって 1955 年から 1959 年に一般的なケースへと拡張された。ここで用いられた「針状の変分 (英: needle variations)」による手法はエドワード・マクシェーンによって 1939 年には既に用いられていたが、ボルチャンスキーはこれに加えて最大原理が最適性の必要条件にすぎないことを示した。彼は最大原理を、ポントリャーギンと共同研究者によって書かれたその有名な書籍において現在の形式で与えた[1][2][3]。この本では、四番目の著者であるイェ・エフ・ミシチェンコによって確率的な最適制御問題が解かれている。
その後の研究によって、理論の根本的な修正を行うことなくアプローチを一般化することが可能になった。ひとつはフランシス・クラークによって始められた「非平滑解析 (英: nonsmooth analysis)」によるものであり、これは彼によって導入された一般化勾配 (英: generalized gradient) または一般化微分 (英: generalized derivative) を用いることで微分可能性の条件を弱めることにフォーカスする[4][5][6]。これにより、ポントリャーギンらによる結果で得られていた区分的な連続関数よりも広いクラス(特にルベーグ可測な関数)を制御入力に用いることが可能になった。その他の拡張の方向性としては、時間遅れをもつシステム[7]や無限次元システム[8]などがある。
ボルチャンスキーは、離散時間システムに対する最大原理の「弱い」バージョンを(このために必要となる数学的手法を開発した後で)示した[9]。今日において、この結果はカルーシュ・クーン・タッカー条件を用いることで容易に示すことが出来るが、適当な凸性の仮定のもとで「真の」最大原理である十分条件を得ることが出来る[10]。
一般的な定式化
[編集]最適制御問題は、対象となる動的システムの状態方程式を拘束条件としてもつ汎関数の制約付き最小化問題として定式化される。 いま、システムの状態ベクトルと制御入力ベクトルを と表記し、それらの時刻 における値を および によって表わす。 このとき、ある時間区間 における最適制御問題の一般形は次のように記述することが出来る。
- 決定変数:
- 目的関数:
- 制約条件:
式 (1-1) で定義される汎関数 において、関数 はそれぞれ終端コスト (terminal cost) およびステージコスト (stage cost) と呼ばれる。 また、式(1-2) は対象となるシステムの状態方程式である。 式(1-3) は状態ベクトルに関する終端拘束条件 (terminal constraint) であり、式 (1-4) および (1-5) は各時刻における状態ベクトルおよび制御入力に課せられる制約条件を意味する。
上のように記述される最適制御問題は、特にボルザ問題 (Bolza problem) と呼ばれる。 特別な場合として、第一項すなわち が恒等的にゼロであるような場合をラグランジュ問題 (Lagrange problem)、第二項すなわち が恒等的にゼロである場合をメイヤー問題 (Mayer problem) と言う。
一般的な解法
[編集]一般的な最適制御問題の解法は、レフ・ポントリャーギンとその共同研究者による最大原理[1]と、リチャード・E・ベルマンによる動的計画法によるアプローチ[11]に大別される。 説明のため、本節では初期・終端時刻 が固定された次のような最適制御問題を対象とする。
動的計画法
[編集]動的計画法による解法では、最適制御問題をハミルトン・ヤコビ・ベルマン方程式と呼ばれる偏微分方程式へと帰着させる。 いま、上の最適制御問題に対し次のような関数を定義する( は汎関数 を区間 における の値について最小化することを意味する): この関数は初期時刻 における状態が であった場合における目的関数の最小値を意味しており、価値関数 (value function) と呼ばれる。 目的関数の定義より、 は元々の最適制御問題における目的関数の最小値に対応する。 また、終端時刻 における価値関数は次式を満たす。
さらに、上のように定義された価値関数 は次のハミルトン・ヤコビ・ベルマン方程式を満たす。
ここで関数 は ハミルトニアン (Hamiltonian) と呼ばれ、次のように定義される。
すなわち、偏微分方程式 (2-2) と終端時刻 における境界条件 (2-1) を満たす価値関数 を求めることが出来れば、各時刻における最適な制御入力は次のように求められる。
最大原理
[編集]最大原理は、変分法を適用することで得られる最適性の必要条件である。 いま、 を最適な制御入力とし、そのときの状態ベクトルを と表記する。 このとき、これらの変数は時間区間 において次に与えられる関係式をすべて満たす。 ここで関数 は式 (2-3) で定義されたハミルトニアンである。 また、変数 は随伴変数 (adjacent variable) や共状態 (costate) と呼ばれる。 随伴変数は、状態方程式を最適化問題の等式制約とみなした場合におけるラグランジュ乗数に対応する。
最大原理と動的計画法の比較
[編集]ポントリャーギンの最大原理は最適性の必要条件であり、その解は時間の関数、すなわち開ループ制御となる。 一方、動的計画法は最適性の十分条件を与え、最適な制御入力はシステムの状態の関数、すなわち閉ループ制御として記述される。
動的計画法では、任意の状態に対する制御入力を得るためにハミルトン-ヤコビ-ベルマン方程式を解く必要がある。これは偏微分方程式であるため、解析的に解くことは一般的に不可能である。数値的に解く場合であっても、偏微分方程式の解を保持するために必要となる計算量は状態の次元に対し指数的に増大する。動的計画法におけるこのような問題は一般に次元の呪いとして知られている。 一方、最大原理では解くべき問題は常微分方程式として与えられるため、HJB 方程式と比べて解を求めるのは容易である。
動的計画法は、システムが確定的・確率的な場合いずれにおいても適用することができる[11][12]。 一方、最大原理は(特殊な場合を除き[13])確率システムには適用できない。
LQ 制御問題
[編集]解析的に求められる最適制御問題の例として、線形二次制御 (linear-quadratic control; LQ control) が広く知られている。 LQ 制御問題では、次のような線形システムを制御対象とする: また、目的関数は状態ベクトルと制御入力に関する二次形式として与えられる: ただし、 および は対称行列であり、一般に(準)正定値行列として与えられる( は正則である必要があるため、一般には正定値行列と仮定される)。 この最適制御問題における最適な制御入力は、次のように与えられる。 ただし、 は次の行列微分方程式の解として与えられる対称行列である。 上の微分方程式はリッカチ微分方程式 (Riccati differential equation) と呼ばれ、終端時刻 から始めて逆向きに進むことで数値的に解くことが出来る。 上のように設計される制御器は、特に(有限時間区間における)線形二次レギュレータ (linear-quadratic regulator; LQR) または 最適レギュレータ (optimal regulator) と呼ばれている。
無限時間区間における最適レギュレータ問題についても、同様に議論することが出来る:
- 状態方程式:
- 目的関数:
ただし、定数行列 と はそれぞれ準正定値、正定値行列であり、 は可制御であると仮定する。 このとき、最適な制御入力は次のように記述される。 ただし、 は次のリッカチ代数方程式 (algebraic Riccati equation) を満たす唯一の正定値行列である。 上の最適制御入力を用いたときの閉ループ系 における原点は漸近安定な平衡点となることが知られている。
数値解法
[編集]一般的な最適制御問題は非線形であり、LQ 制御問題のような解析解をもつとは限らない。 そのため、数値計算を用いて最適制御問題を解くアプローチが必要となる。
間接法
[編集]最適制御理論の初期(およそ1950年代から1980年代まで)に好まれたアプローチは間接法(英: indirect method)である。 間接法では、変分法によって得られる一次の最適性条件を満たすような制御入力(および最適軌道)を求める。 この条件は二点(複雑な問題の場合はさらに多くの)境界値問題で与えられ、ハミルトニアンの微分を含むことに起因する特殊な構造をもつ。 この境界値問題は、適切な境界条件あるいは横断性条件(英: transversality condition)の下で解かれる。
間接法を使う利点は、境界値問題を解くことで得られる状態と随伴変数が最適性の必要条件を満たす極値軌道 (英: extremal trajectory) を取ることが保証されることである。 欠点は、元の最適制御問題の複雑さによっては(時間区間が長い場合、内点の制約条件のある場合など)境界値問題を解くことが極端に難しくなることである。 間接法を実装したソフトウェアとして有名なものは BNDSCO[14] である。
直接法
[編集]1980年代以降において、数値最適制御で注目を集めているアプローチは直接法(英: direct method)と呼ばれる。 これらの手法は、連続関数である制御入力や状態・随伴変数の軌道を(多項式近似や区分線形近似などを用いて)有限次元ベクトル空間の点として近似し、汎関数最小化問題を(有限次元の)非線形計画問題 (nonlinear programming; NLP) へと帰着させることで最適解を求める。
採用する直接法の種類によって、解くべき NLP の規模は大きく左右される。 直接シューティング法 (英: direct shooting method)や準線形化法 (英: quasilinearization method) などでは、問題の規模は極めて小さいものとなり、擬スペクトル最適制御[15]では中規模となる。 直接選点法 (英: direct collocation method)[16] では大規模な問題となり、結果として得られる NLP は文字通り数千・数万規模の決定変数や制約条件を持つ可能性がある。
境界値問題を解くことよりも直接法から導出される大規模な NLP を解くことの方が簡単であるということは直感に反するが、多くの場合において事実である。 特に直接選点法において計算が相対的に容易となる理由は、導出された NLP がスパース性を持ち、そのような性質を持つ大規模な NLP を効率的に解く最適化ソフトウェアが数多く存在するためである。 スパース性を生かした NLP ソルバーとして、例えば SNOPT[17] が良く知られている。 その結果として、直接法(特に近年において非常に人気のある直接選点法)によって解くことが出来る問題の範囲は、間接法と比較して非常に大きくなる。
今日における直接法の人気は非常に高まっており、これらの手法を採用した精巧なソフトウェアが数多く開発されている。 良く知られているものとして、DIRCOL[18]、SOCS[19]、OTIS[20]、GESOP/ASTOS[21]、DITAN[22] 、PyGMO/PyKEP[23] などが挙げられる。 また、近年におけるMATLABプログラミング言語の台頭に伴い、MATLAB上で使用可能な最適制御ソフトウェアがより一般的なものとなっている。 直接法を実装した学術的に開発された MATLAB ツールの例として、RIOTS[24] 、DIDO[25]、DIRECT[26]、FALCON.m[27]、GPOPS[28] などがある。 産業界で開発されたツールとしては PROPT[29] などがある。 これらのソフトウェアは、学術研究と産業問題の両面において人々が複雑な最適制御問題を探求する機会を著しく増大させた[30] 。 結果として、複雑な最適制御問題におけるコーディングが TOMLABなどの汎用の MATLAB 最適化環境によって(以前から使用可能であった)C言語やFORTRANのものと比較して著しく簡単に出来るようになったことは注目に値する。
出典
[編集]- ^ a b Pontryagin, L. S.; Boltyanskii, V. G.; Gamkrelidze, R. V.; Mishchenko, E. F. (1962), Interscience, ed., The Mathematical Theory of Optimal Processes, ISBN 2881240771, 日本語訳: 『最適過程の数学的理論』関根 智明(訳)、文一総合出版、1967年5月。ISBN 978-4829920701。
- ^ R.V., Gamkrelidze (1999). “Discovery of the Maximum Principle”. Journal of Dynamical and Control Systems 5 (4): 85-89.
- ^ Pesh, Hans Joseph; Plail, Michael (2009), “The maximal principle of optimal control: A history of ingenious ideas and missed opportunities”, Control and Cybernetics 38 (4A): 973-995
- ^ Clarke, Frank H. (1976). “The maximum Principle under Minimal Hypotheses”. SIAM J. Control Optim. 14 (6): 1078-1091.
- ^ Clarke, Frank H. (1987), Optimization and Nonsmooth Analysis, Society for Industrial & Applied Mathematics, U. S., pp. 360, ISBN 0898712564
- ^ Vinter, Richard (2000), Optimal Control, Birkhäuser, ISBN 0817640754
- ^ Gorecki, Henrik; Fuksa, Stanislaw; Korytowski, Adam (1989), Analysis and Synthesis of Time Delay Systems, John Wiley & Sons, pp. 382, ISBN 0471276227
- ^ Li, Xunjing; Yong, Jiongmin (1994), Optimal Control Theory for Infinite Dimensional Systems, Birkhäuser, pp. 448, ISBN 0817637222
- ^ Boltyanskii, L. S. (1976), Commande optimale des systèmes discrets, Mir, pp. 467
- ^ Neustadt, Lucien W. (1976), Optimization, A, Theory of Cecessary Conditions, Princeton Univ. Press, pp. 440, ISBN 0691081417
- ^ a b Bellman, Richard (1957), Princeton University Press, ed., Dynamic Programming, ISBN 0486428095
- ^ Fleming, Wendell Helms; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. Springer. p. 320. ISBN 3540901558
- ^ Haussmann, V. G. (1978). “On the Stochastic Maximum Principle”. SIAM J. Control and Optimization 16 (2): 236-269.
- ^ Oberle, H. J.; Grmm (1989), “BNDSCO - A Program for the Numerical Solution of Optimal Control Problems”, Institute for Flight Systems Dynamics (Oberpfaffenhofen: DLR)
- ^ Ross, I. M.; Karpenko, M. (2012). “A Review of Pseudospectral Optimal Control: From Theory to Flight”. Annual Reviews in Control 36 (2): 182-197. doi:10.1016/j.arcontrol.2012.09.002.
- ^ Betts, J. T. (2010). Practical Methods for Optimal Control Using Nonlinear Programming (2nd ed.). Philadelphia, Pennsylvania: SIAM Press. ISBN 978-0-89871-688-7
- ^ Gill, P. E.; Murray, W. M; Saunders, M. A. (2007-04-24), “User's Manual for SNOPT Version 7: Software for Large-Scale Nonlinear Programming”, University of California, San Diego Report
- ^ von Stryk, O., User's Guide for DIRCOL (version 2.1): A Direct Collocation Method for the Numerical Solution of Optimal Control Problems, Fachgebiet Simulation und Systemoptimierung (SIM), Technische Universität Darmstadt (2000, Version of November 1999).
- ^ Betts, J.T. and Huffman, W. P., Sparse Optimal Control Software, SOCS, Boeing Information and Support Services, Seattle, Washington, July 1997
- ^ Hargraves, C. R.; Paris, S. W. (1987). “Direct Trajectory Optimization Using Nonlinear Programming and Collocation”. Journal of Guidance, Control, and Dynamics 10 (4): 338–342. Bibcode: 1987JGCD...10..338H. doi:10.2514/3.20223.
- ^ Gash, P. F.; Well, K. H. (2001), Trajectory Optimization Using a Combination of Direct Multiple Shoooting and Collocation, Montréal, québec, Canada 6-9 August 2001AIAA 2001-4047, AIAA Guidance, Navigation, and Control Conference
- ^ Vasile M., Bernelli-Zazzera F., Fornasari N., Masarati P., "Design of Interplanetary and Lunar Missions Combining Low-Thrust and Gravity Assists", Final Report of the ESA/ESOC Study Contract No. 14126/00/D/CS, September 2002
- ^ Izzo, Dario. "PyGMO and PyKEP: open source tools for massively parallel optimization in astrodynamics (the case of interplanetary trajectory optimization)." Proceed. Fifth International Conf. Astrodynam. Tools and Techniques, ICATT. 2012.
- ^ RIOTS Archived 16 July 2011 at the Wayback Machine., based on Schwartz, Adam (1996). Theory and Implementation of Methods based on Runge–Kutta Integration for Solving Optimal Control Problems (Ph.D.). University of California at Berkeley. OCLC 35140322。
- ^ Ross, I. M.; Fahroo, F. (2002), “User's Manual for DIDO: A MATLAB Package for Dynamic Optimization”, Naval Postgraduate School Technical Report
- ^ Williams, P., User's Guide to DIRECT, Version 2.00, Melbourne, Australia, 2008
- ^ FALCON.m, described in Rieck, M., Bittner, M., Grüter, B., Diepolder, J., and Piprek, P., FALCON.m - User Guide, Institute of Flight System Dynamics, Technical University of Munich, October 2019
- ^ GPOPS Archived 24 July 2011 at the Wayback Machine., described in Rao, A. V., Benson, D. A., Huntington, G. T., Francolin, C., Darby, C. L., and Patterson, M. A., User's Manual for GPOPS: A MATLAB Package for Dynamic Optimization Using the Gauss Pseudospectral Method, University of Florida Report, August 2008.
- ^ Rutquist, P. and Edvall, M. M, PROPT – MATLAB Optimal Control Software," 1260 S.E. Bishop Blvd Ste E, Pullman, WA 99163, USA: Tomlab Optimization, Inc.
- ^ I.M. Ross, Computational Optimal Control, 3rd Workshop in Computational Issues in Nonlinear Control, October 8th, 2019, Monterey, CA