Условия оптимальности управления нелинейных стохастических

Введение В статье исследуются необходимые условия оптимальности управления нелинейными стохастическими системами с запаздыванием. В результате расширения фазового пространства исходный процесс, описываемый системой стохастических дифференциальных уравнений с запаздыванием, сводится к диффузионному марковскому процессу . Это позволяет представить исходную стохастическую задачу с запаздыванием в виде последовательности детерминированных задач с распределенными параметрами относительно плотности распределения компонент расширенного вектора состояний, удовлетворяющих параболическому уравнению Колмогорова — Фоккера — Планка (КФП) . Для исследования необходимых условий оптимальности используются конструкции доказательств, изложенные в работах . Постановка задачи Требуется определить оптимальное управление u, доставляющее минимум терминальному функционалу v w 0 0 Ф ( ) ( , ) , k I u x p t x dx (1) характеризующему эффективность системы, описываемой на отрезке времени нелинейными стохастическими дифференциальными уравнениями с запаздыванием v v w v w w v v w w v w v w v w 1 0 0 , , , , ; , , . i i n ij j j dX t X t X t u dt t X t d t X t t t t t { y y { (2) Здесь t — время; t0, tk — начальная и конечная точка рассматриваемого интервала времени ; — постоянное запаздывание; X(t) — n-мерная вектор-функция состояния фазовых координат системы, определенная на отрезке времени вектор-функцией (t); d j(t) — стохастические дифференциалы Стратоновича некоррелированных винеровских процессов j(t) с интенсивностями Gj ; u(t) — кусочно-непрерывная детерминированная r-мерная вектор-функция управления; p(tk, x) — плотность распределения компонент вектора состояний системы в конечный момент времени tk; x — реализация вектора состояний; Ф0(x) — заданная функция, определяющая эффективность управления системы. Как известно , процесс, описываемый уравнениями (2), в общем случае не является марковским и к нему не применим аппарат КФП-уравнений. Для сведения процесса (2) к марковскому расширим фазовое пространство , исключив из системы (2) запаздывание. Для этого покроем отрезок времени сеткой с шагом и узлами tq = t0 + q , q = 1, ?, N, где q — номер интервала длиной tq — tq-1 = ; N — количество интервалов; tk = t0 + N . Точки tq представляют собой «правильные точки» . Обозначим через s текущее время на интервале = . Введем на интервале вектор состояния системы v w v w v w 1 1 2 1 1 q , , , , q q n q X X t s X t s X t s { { { y y y где s , верхний индекс обозначает номер интервала, нижний — номер компоненты вектора состояний. Аналогично обозначим управление на интервале вектор-функцией v w 1 1 2 1 q ( ) , , q q u s u t s u t s { { y y v w v w 1 1 2 1 1 ( ) , , , q q r q u s u t s u t s u t s { { { y y y и аддитивные возмущения v w v w v w 1 1 2 1 1 q ( ) , , , . q q n q s t s t s t s { { { y y y 116 Н.Е. РОДНИЩЕВ, Р.А. АЮКАСОВ Введем расширенный вектор состояний 1, 2, , q X X 1 (s), X 2 (s), , X q (s) с компонентами фазовых состояний системы на последовательно примыкающих интервалах , q = 1, ?, N. Таким образом, в соответствии с принципом оптимальности Беллмана исходная задача (1)-(2) сводится к определению по интервалам оптимального управления 1 2 1, 2, , ( ), ( ), , q ( ) q u u s u s u s с компонентами управления системы на последовательно примыкающих интервалах , q = 1, ?, N, которое доставляет минимум функционалу v w v w v w 0 0 1, 2, …, 1, 2, …, Ф , min, N N N N I u x p x dx _ (3) характеризующему эффективность управления системы, поведение которой на отрезке времени по последовательно примыкающим участкам , q = 1, ?, N описывается стохастическими дифференциальными уравнениями v w v w v w v w v w v w 1 1 1 1 1 0 0 0 1 1 2 , , , , , 0, ; ( ) , ( 1, …, ), ( 1, …, ), ( 1, , ). m m m m i i m n m m ij m j i i i m m i m i m dX t s X X u ds t s X d s X t x s t s X t X t i n m q q N { { { { { { y y y y { y y (4) Здесь v 1 w 1 , m , m , m , i m t s x x { u { y v w 1 , m ij m t s x { y — заданные неслучайные, неупреждающие функции. Правые части (4) равномерно по управлению um удовлетворяют известным требованиям существования (4). Управление uq(s), определяемое на интервале , в соответствии с принципом оптимальности Беллмана не ухудшает оптимальное управление на предшествующих интервалах. Поэтому при расширении вектора состояния системы по последовательно примыкающим участкам в уравнениях (4) рассматривается управление 1, 2, , q u u x1(s), u x2 (s), , u xq (s) , где звездочкой обозначены оптимальные управления, определенные на предшествующих интервалах. Уравнения (4) описывают на отрезке времени последовательно по примыкающим участкам диффузионный марковский процесс, плотность вероятности которого удовлетворяет уравнению КФП. Таким образом, при расширении вектора состояний системы стохастическая задача (3)-(4) сводится к эквивалентной детерминированной задаче с распределенными параметрами (5)-(7) относительно плотности вероятности v w 1, 2, , , q p s x вектора состояний системы: v w v w v w 0 0 1, 2, …, 1, 2, …, Ф , min; q q q q q I u x p x dx _ (5) v w v w v w v w v w v w v w v w 1, 2, …, 1, 2, …, 1, 2, …, 1 2 1 1, 2, …, 3 2 1 , , , , 0, , , , | , , | , , | , , 1, , , 0, ; q q q q q q q p s x L s x u p s x s p s x p s x p s x x p s x x p s x x q N s { g { g e e (6) v 1 w v w v w v 1 w 1 0, , 0, , , ( 2, , ). p x x p xq p xq q N { { (7) Здесь 1 , N N m m ; m m V V { V { V v w v w v w v w v w v w v w 1, 2, …, 1 1 1 2 2 1 1 , , , , , 1 , , 2 q q q n m m m m m i m i i q n m m m ii m i i L s x u A s x x u x B s x x { g { y g g y g где m v , m , m 1 , m w i A s x x { u — коэффициенты сноса процесса (4): v w v w v w v w 1 1 1 1 1 1 , , , , , , 1 , , , 2 m m m m m m m i i m m n ij m m m ij m j j i A s x x u t s x x u t s x t s x G x { { { { { y y g y y y g а m v , m w ii B s x — коэффициенты диффузии v w v v w w2 1 1 , , . n m m m ii ij m j j B s x t s x G { y Необходимые условия оптимальности Для исследования необходимых условий оптимальности задачи (5)-(7) используется конструкция доказательств . Необходимые условия оптимальности управляемой стохастической системы в форме принципа минимума устанавливаются теоремой 1. Теорема 1 (слабый принцип минимума). Пусть v p x , u xq w — оптимальное решение задачи (5)-(7). Тогда существует не равная тождественно нулю функция v w 1, 2 1, 2, , , , q s x C такая, что: 117 а) vs, x1, 2, , q w удовлетворяет решению задачи Коши v w v w v w v w v w 1, 2, …, * * 1, 2, …, 1, 2, …, 1, 2, …, 0 , , , , 0, , 0 , ; q q q q q q s x L s x u s x s s x x g y g (8) б) почти для всех s v * w 0. q q q q R M u u u g { d g (9) Следствие. Оптимальное управление удовлетворяет соотношению q 0. q R M u g g В выражении (8) v w v w v w v w v w v w v w * 1, 2, …, 1, 2, …, 1, 2, …, 1 1 1 2 1, 2, …, 2 1 1 , , , , , , , 1 , , , 2 q q q q n q m m m m m i m i i q n q m m m ii m i i L s x u s x s x A s x x u x s x B s x x { g y g g y g в выражении (9) v w v w 1, 2, , 1, 2, , , , q , . q q q R L x s x u s x Для установления необходимых условий оптимальности сильного экстремума используется преобразование времени s _ , которое переводит в отрезок единичной длины , (1) , w( ) 0. d (10) Тогда задача (5)-(7) приводится к следующей эквивалентной задаче v w v w v w 0 0 1, 2, …, 1, 2, …, Ф (1), min; N q N N I u x p x dx _ (11) v 1, 2, …, w v w v w 1, 2, …, 1, 2, …, , ( ) , , , 0, 1, , , ; q q q q p x w L x u p x q N g { g (12) v w v w v w v w v w 1 2 1 3 2 1 , , , (1), , | (1), , (1), , q q q p x p x p x x p x x p x x { e e (13) v w v w v w v w 1 1 0 1 0, , 0, q (1), q 2, , ; p x x x p x p x { q N { (14) w( ) d 0. (15) Здесь 1 1 ( ( )) при : ( ) 0 , ( ) произвольно при : ( ) 0 . q q u s R w u R w Совершенно очевидно, что решение v p x , u xq , w x w задачи (11)-(15) является также решением задачи, которая отличается от задачи (11)-(15) тем, что управление u xq фиксируется и решение (11)-(15) ищется по w( ). Iineieueo ia?aie?aiea (15) eiaao aea w( ) M } E 1, M — выпуклое в E1 множество с внутренней точкой (положительная полуось), то, применяя к задаче (11) — (15) при фиксированном управлении u xq локальный принцип минимума (теорема 1), относительно управления w( ) получим, что для w*( ) согласно неравенству (9) выполняется условие v * w 0, M Rq w w w g { d g (16) где * v * w v w 1, 2, …, 1, 2, …, ( ) , , q , . q q q R w L x u x Принимая во внимание определение Rq из неравенства (16), получим v * w v 0 w 1, 2, …, , , q , 0 q q M R x u w { w d (17) почти для всех и w( ) d 0. Отсюда следует: а) v * w 1, 2, …, , , q , 0 q q M R x u почти для всех R1 = : w* ( ) 0 ; б) v * w 1, 2, …, , , q , 0 q q M R x u d почти для всех n nR1 = : w*( ) 0 . Проводя аналогично работе построение w*( ), u*( ), где w*( ) задается в виде * 1 2 1 0, ; ( ) 0, , R w R R { после перехода _s: (s) = inf{ : s( ) = s} получим: а) v * w 1, 2, …, , , q , 0 q q M R x u почти для всех s ; б) v * w 1, 2, …, , , q , 0 q q M R x u d почти для всех s . Таким образом, используя редукцию задачи (11)-(15) и применяя к ней теорему 1, получим необходимые условия оптимальности сильного экстреУПРАВЛЕНИЕ ПРОЦЕССАМИ И МОДЕЛИРОВАНИЕ 118 мума, сформулированного в форме принципа минимума теоремой 2 . Теорема 2 (сильный локальный минимум). Пусть v p x , u xq w — оптимальное решение задачи (5)-(7). Тогда существует не равная тождественно нулю функция v w 1, 2, , , q s x такая, что а) v w 1, 2, , , q s x удовлетворяет решению краевой задачи (8); б) почти при всех s оптимальному управлению u xq соответствует минимум v * w 1, 2, …, , , q , q q M R x u по переменной uq. Необходимые условия оптимал ности управления с обратной связью Из теоремы 2 при фиксировании реализации вектора состояний Xq(s) как предельные вытекают условия оптимальности управления с обратной связью. Оптимальное управление u xq u xq vs, xq w определяется как локальное управление, связанное в каждый момент времени s и соответствующим данному моменту времени состоянием xq X q (s) с программным управлением u xq (t) u xq vs, xq , t w , t относительно фиксированной начальной точки vs, xq w соотношением q ( ) q v , q , w q ( , ). t s u x t u x s x t u x s x Относительно точки vs, xq w решение уравнения КФП (6) определяется плотностью вероятности перехода p vt, yq | s, xq w, где yq X q (t) — состояние системы в момент времени t на отрезке времени . В качестве оценки эффективности управления рассматривается критерий v w v w 0 , 0 , min ( ) , ( 1, , ), q q q q s x I s x M X q N (18) представляющий собой функцию точки xq X q (s) фазового пространства системы в момент времени s, который характеризует эффективность управления uq(t) на отрезке времени при условии, что в момент времени s изображающая точка в фазовом пространстве находилась в состоянии X q (s) xq . Функционал (18) относительно точки vs, xq w и плотности вероятности перехода p vt, yq | s, xq w рассматриваетН.Е. РОДНИЩЕВ, Р.А. АЮКАСОВ ся при этом как условное математическое ожидание в момент времени при условии, что в момент времени s система находилась в состояни и X q (s) xq . Необходимые условия оптимальности управления uq uq vs, xq w устанавливает теорема 3. Теорема 3. Пусть u xq u xq vs, xq w — оптимальное управление, доставляющее при каждом v s, xq w минимум критерию (18). Тогда существует не равная тождественно нулю функция v w 1, 2 1, 2, , , q s x C , для которой имеет место следующее: а) функция v w 1, 2, , , q s x удовлетворяет уравнению Беллмана v w v w v w v w v w 1, 2, …, * 1, 2, …, 1, 2, …, 1, 2, …, 0 , min , , , 0, 0, ; , ; q q q q q u U q q s x s L s u x s x s x x g y g y (19) б) оптимальное управление u xq u xq vs, xq w при всех s удовлетворяет условию v w v w v w v w * * 1, 2, …, 1, 2, …, * 1, 2, …, 1, 2, …, , , , min , , , . q q q q q q q u L s u x s x L s u x s x (20) Доказательство приводится аналогично конструкциям доказательств в . Пример. В качестве примера рассмотрим задачу синтеза оптимального управления, которая формулируется следующим образом. Требуется определить управление u = u(t, x) при ограничении |u| T 1, которое минимизирует разброс состояния системы X(t) относительно математического ожидания mx(t) = 0 при t = 3: v v w2 w (3) (3) min . x M m { X _ (21) Функционирование системы описывается уравнением X t (t) {3,2X (t) y 3,2X(t {1) y 3,2u y (t) (22) с постоянным запаздыванием = 1 и аддитивным возмущением белого шума (t) на отрезке с начальным состоянием x(t) = 0 на отрезке . 119 Для исключения запаздывания введем следующие обозначения: 1 1 3 1 2 3 1 2 3 ( ) ( ); ( ) (1 ); ( ) (2 ); ( ) ( ); ( ) (1 ); ( ) (2 ); ( ) ( ); ( ) (1 ); ( ) (2 ). s X s X s X s X s X s X s u s u s u s u s u s u s s s s s s s y y y y y y (23) Тогда с учетом обозначений (23) задача (21)-(22) сводится к следующей последовательности задач: v v 1 w2 w 1 1 1 1 (1) (1) min ( ) 3, 2 ( ) 3, 2 ( ) ( ); x M m X X s X s u s s { _ t { y y (24) v v 2 w2 w 1 1 *1 1 2 2 1 2 2 (2) (2) min ( ) 3, 2 ( ) 3, 2 ( ) ( ); ( ) 3, 2 ( ) 3, 2 ( ) 3, 2 ( ) ( ); x M m X X s X s u s s X s X s X s u s s { _ { y y { y y y t t (25) v v 3 w2 w 1 1 *1 1 2 2 1 *2 2 3 3 2 3 3 (3) (3) min ( ) 3, 2 ( ) 3, 2 ( ) ( ); ( ) 3,2 ( ) 3, 2 ( ) 3, 2 ( ) ( ); ( ) 3, 2 ( ) 3, 2 ( ) 3,2 ( ) ( ), x M m X X s X s u s s X s X s X s u s s X s X s X s u s s { _ { y y { y y y { y y y t t t (26) где u*1 и u*2 — оптимальные управления на отрезках времени , определенные из решений задач (24)-(25). В соответствии с теоремой 3 оптимальное управление u*1 задачи (24) определяется из условия (20) минимума функции v w v w 2 1 1 1 1 1 1 1 1 1 1 1 1 2 , , , 3,2 3,2 1 . 2 R s x u x u x x x g g g { y y g g g Отсюда следует, что *1 1 1 u (s) sign , x g { g (27) где v 1 w 1 s, x определяется на отрезке времени решением v w v w v w 2 1 1 1 1 1 (1) 1 1 2 1 1 2 1 3,2 3,2 1 ; 2 1, (1) (1) . x x s x x x x m x g g g g y { g g g g { (28) Введение обратного времени = 1 — s позволяет свести задачу (28) к виду (29): v w v w v v w w 2 1 1 1 1 1 1 1 1 2 1 1 2 1 3,2 3,2 1 ; 2 0, (1) 1 . x x x x x x m x g g g g { { y g g g g { (29) Решение v 1 w 1 , x в задаче (29) будем искать в виде линейно-квадратичной формы с неопределенными коэффициентами v w v w1 1 1 2 1 0 1 11 ; x k ( ) y k ( )x y k ( ) x (30) при начальных условиях, которые в общем случае согласно работе определяются по формуле: 1 2 1 1, 2, .., 1 2 0 (0) 1 . ( 1)! … m m m m x x x k m x x x g { g g g (31) Подставляя значения производных v 1 w 1 , x в уравнение (29) и приравнивая коэффициенты при x1, получим следующие системы обыкновенных дифференциальных уравнений для определения k(s) на отрезке , которые связаны с производными функции в начале координат начальными условиями (31): 0 1 11 1 1 11 11 11 3, 2 ; 3, 2 6, 4 ; 6, 4 ; k k k k k k k k { y { { { t t t (32) 0 1 11 1 1 11 11 11 3, 2 ; 3, 2 6, 4 ; 6, 4 k k k k k k k k y { y { t t t (33) при начальных условиях k0(0) = k1(0) = 0, k11(0) = 2. Решив системы (32)-(33), получим: 6,4 3,2 1 1 1 3,2 6,4 1 1 6,4 11 4 4 при 0; ( ) 4 4 при 0; ( ) 2 . e e k x e e x k e { { { { { g { d g g { g Принимая во внимание, что 1 1 1 1 11 k ( ) 2k ( )x , x g y g определим оптима