On the invariance of optimal control for a linear stochastic economic system under dynamic scaling of its coefficients
Table of contents
Share
Metrics
On the invariance of optimal control for a linear stochastic economic system under dynamic scaling of its coefficients
Annotation
PII
S111111110000084-5-1
DOI
10.33276/S0000084-5-1
Publication type
Article
Status
Published
Authors
Ekaterina Palamarchuk 
Occupation: Leading researcher
Affiliation: CEMI RAS
Address: Russian Federation, Nakhimovskiy prospekt, 47
Edition
Abstract
We consider a stochastic linear quadratic control problem over an infinite time-horizon for a linear economic system under dynamic scaling of coefficients in the state equation and the cost matrices. Employed optimality criteria represent extensions of the long-run average and pathwise long-run average costs. The costs are normalized by the integrated scaling function. It has been shown that the optimal control law is time-invariant and can be derived on the basis of the stable feedback known as the optimal control law for autonomous system.
Keywords
stochastic linear-quadratic controller, invariance, scaling, algebraic Riccati equation
Received
27.09.2018
Date of publication
13.12.2018
Number of characters
5907
Number of purchasers
4
Views
503
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Введение
2 Рассматривается задача оптимального управления линейной экономической системой, функционирующей в условиях неопределенности на долгосрочном временном интервале. Динамика состояния системы задается при помощи управляемого случайного процесса, а воздействие случайных факторов моделируется аддитивным винеровским шумом. В качестве целевого функционала используется интегральный квадратичный функционал за плановый период. Матрицы коэффициентов системы управления определяются на основе динамического масштабирования стандартной системы с постоянными параметрами. Показывается, что оптимальный закон управления носит инвариантный характер, т.е. в явном виде не зависит от времени, а критерии оптимальности включают нормировки целевого функционала с учетом совокупного масштабирования (интеграла от масштабирующей функции).
3 Описание модели и основные предположения
4 Пусть на полном вероятностном пространстве задан n-мерный случайный процесс, описываемый уравнением
5

6 где - d-мерный стандартный винеровский процесс, - допустимое управление, или k- мерный процесс, согласованный с фильтрацией, , такой что уравнение (1) имеет решение; A, B, G- матрицы соответствующих размерностей,G≠0; - неслучайный вектор. Множество допустимых управлений обозначим U. В (1) αt>0, t≥0 - масштабирующая функция. Уравнение вида (1) ранее рассматривалось в различных приложениях при частичном масштабировании коэффициентов, см. (Karafyllis, Tsinias, 2003; Smith, Ratcliff, Sewell, 2014).
7 Для любого T>0 определим целевой функционал издержек
8

9 где - допустимое управление на интервале [0,T], Q, R, - постоянные матрицы, неотрицательно определенная и положительно определенная соответственно (- транспонирование). При наличии монотонной функции αt>0 в (2), αt можно придать смысл дисконтирующей. Положительное дисконтирование возникает для убывающей αt, а отрицательное имеет место в случае, когда αt - возрастает, см. (Паламарчук, 2015).
10 Обращаясь к анализу (1)-(2) в ситуации масштабирования, отметим, что если функция αt является монотонной и α0=1, то при αt>1 имеем инфляцию (рост абсолютных значений) коэффициентов, случай , аналогичен «гиперинфляции».
11

Ситуация означает отсутствие масштабирования, постоянство коэффициентов во времени и соответствует автономной системе управления. Если же αt, , приводит к вырождению матриц. 

12

Далее формулируются предположения, в рамках которых будут получены основные результаты исследования.

Предположение . Масштабирующая функция αt>0, t≥0 является интегрируемой и .

Предположение P. Пара матриц (A,B- стабилизируема, пара матриц  - выявляема (соответствующие определения см., напр., в (Дэвис, 1984, с.167-168)).

13 Постановка задачи и описание оптимальной установившейся стратегии управления
14 Хорошо известно, см. (Квакернаак, Сиван, 1977, Теорема 3.7, с. 275), что при условии выполнения предположения P существует так называемый оптимальный установившийся закон управления U*, имеющий вид
15

(3)

16 где матрица П является единственным неотрицательно определенным решением алгебраического уравнения Риккати
17

(4)

18 Для системы с постоянными параметрами стратегия U* оказывается решением задачи управления на бесконечном интервале времени с критерием долговременного среднего, см., напр., (Дэвис, 1984, Теорема 5.4.3, с. 169), а также вероятностного критерия потраекторного среднего (потраекторного эргодического):
19 (5)и с вероятностью 1.
20 При этом оптимальное значение обоих критериев совпадает и равно ((tr (.) - след матрицы).
21 Как было показано в (Паламарчук, 2016), приведенные критерии адекватно отражают воздействие фактора неопределенности на оценку качества управления только для случая системы (1)-(2) с ограниченными коэффициентами и невырожденной матрицей диффузии в (1). В рассматриваемой ситуации одновременного масштабирования параметров (1)-(2) для сравнении стратегий управления при будут использоваться понятия обобщенного долговременного среднего и обобщенного стохастического долговременного среднего, введенные в (Белкина, Паламарчук, 2013) для переменной матрицы Gt, когда в (5) вместо нормировки T используется. В данном случае, и в следующем разделе будет приведен результат о виде оптимального закона управления.
22 Основные результаты
23 Основным результатом работы является следующее утверждение.
24 Теорема.
25 Пусть выполнены предположения и P. Тогда закон управления U*, определяемый в (3)-(4), является оптимальным по критериям обобщенного долговременного среднего и обобщенного стохастического долговременного среднего, т.е. решением задач
26 и с вероятностью 1.
27 При этом оптимальная траектория задается уравнением
28

29 Значение критериев на оптимальном управлении равно
30

31 Полученный результат характеризует инвариантность решения задачи управления системой с масштабированием на бесконечном интервале времени. Вид управления U* совпадает с оптимальной стратегией, найденной для случая автономной системы. Значения соответствующих критериев оптимальности при использовании U* также остаются без изменений. Следует отметить, что подобная инвариантность в задачах стохастических линейных регуляторов с переменными параметрами может возникнуть и при других предположениях. Например, в работе (Czornik, 1998), где рассматривалась система с асимптотически постоянными матрицами

References

1. Belkina T.A., Palamarchuk E.S. O stokhasticheskoj optimal'nosti dlya linejnogo regulyatora s zatukhayuschimi vozmuscheniyami // Avtomatika i telemekhanika. 2013. № 4. S. 110-128.

2. Dehvis M.Kh.A. Linejnoe otsenivanie i stokhasticheskoe upravlenie. M.: Nauka, 1984.

3. Kvakernaak X., Sivan P. Linejnye optimal'nye sistemy upravleniya. M.: Nauka, 1977.

4. Palamarchuk E.S. Analiz kriteriev dolgovremennogo srednego v zadache stokhasticheskogo linejnogo regulyatora // Avtomatika i telemekhanika. 2016. № 10. S. 78-92.

5. Palamarchuk E.S. Stabilizatsiya linejnykh stokhasticheskikh sistem s diskontirovaniem: modelirovanie dolgosrochnykh ehffektov primeneniya optimal'nykh strategij upravleniya // Matematicheskoe modelirovanie. 2015. T. 27, № 1. S. 3-15.

6. Czornik A. On time-varying LQG // IFAC Proceedings Volumes. 1998. Vol. 31. No. 18. P. 411-415.

7. Karafyllis I., Tsinias J. Non-uniform in time stabilization for linear systems and tracking control for non-holonomic systems in chained form //International Journal of Control. 2003. Vol. 76. No. 15. P. 1536-1546.

8. Smith P.L., Ratcliff R., Sewell D.K. Modeling perceptual discrimination in dynamic noise: Time-changed diffusion and release from inhibition // Journal of Mathematical Psychology. 2014. Vol. 59. P. 95-113.