Субоптимальное управление нелинейным объектом, линеаризуемым

ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ УДК 681.511.4 СУБОПТИМАЛЬНОЕ УПРАВЛЕНИЕ НЕЛИНЕЙНЫМ ОБЪЕКТОМ, ЛИНЕАРИЗУЕМЫМ ОБРАТНОЙ СВЯЗЬЮ* © 2011 г. , Москва, МИЭМ Поступила в редакцию 09.11.10 г. Для класса нелинейных систем, для которых существует координатное представление (диффеоморфизм), преобразующее исходную систему в систему с линейной основной частью и нелинейной обратной связью, ставится задача оптимального управления. При этом координатное преобразование существенно изменяет вид исходного квадратичного функционала. Матрицы штрафа становятся зависимыми от состояния системы. Линейность структуры преобразованной системы и квадратичный функционал позволяют при синтезе управления осуществить переход от уравнения Гамильтона–Якоби–Беллмана к уравнению типа Риккати с параметрами, зависящими от состояния. Отметим, что решить уравнение Риккати в полученном виде в общем случае аналитически невозможно. Возникает необходимость в аппроксимации решения, которая реализуется численными методами с использованием пакетов символьного программного обеспечения или интерполяционными методами. В последнем случае удается получить субоптимальное управление. Приведенный пример иллюстрирует использование предлагаемого метода управления нелинейной системы, линеаризуемой обратной связью. * Введение. Поведение нелинейных систем не может быть описано линейными функциями состояния или линейными дифференциальными уравнениями. Для линейных систем существует мощный и удобный математический аппарат, позволяющий проводить их анализ и синтез, однако все эти методы неприменимы или ограниченно применимы для нелинейных систем. Одним из методов синтеза нелинейных систем управления является метод, основанный на линеаризации системы обратной связью, с последующим использованием аппарата функций Ляпунова . Отдельно стоит отметить метод управления нелинейными объектами на основе итеративных процедур поиска условий выполнения нелинейных неравенств (неравенство Гамильтона–Якоби–Беллмана, неравенство Риккати ). В работе на основе линеаризации нелинейной системы обратной связью будет построен субоптимальный метод управления с точки зрения функционала качества системы; будет рассмотрено, что происходит с функционалом качества при линеаризации, а также что произойдет с системой при наличии возмущения и как синтезировать управление в этом случае. 1. Постановка задачи. Рассмотрим нелинейную стационарную систему, у которой m входов и n состояний m ii i xf x g x u f x g x u ? =+ =+ ? ? ? = ? ? dotnosp 1 0 () () () (), (1.1) = xx (0) , где , и – гладкие (C ? ) векторные поля, определенные на открытом множестве U x , содержащем начало. Если система (1.1) линеаризуема на U x , то существует координатное преобразование (диффеоморфизм) определенное на U x , и пара функций обратной связи ?(x) и ?(x), также определенных на U x , такие, что ?(x) – невырожденная для любого и ?() n xt R =(0) 0f 1 , , …, m fg g =?(),zx ? x xU ? ?? ?? +? = ?? 1 0 (() ()()) ,fx gx x Az (1.2) 14 АФА Н АС Ь Е В , О РЛО В ? =? ?? ?? ?= ?? ?? ? 1 0 () (()()) , xz gx x B x где = diag 01 ( , …, ), m AA A = diag 01 ( , …, ), m Bb b ? ? , ii dd i AR ? ? 1 , i d i bR ?? ? ? ?? ? ? == = ?? ? ? midhorizellipsis vertellipsisdownslopeellipsis downslopeellipsisvertellipsis vertellipsis vertellipsis downslopeellipsisdownslopeellipsisdownslopeellipsis vertellipsis vertellipsis downslopeellipsisdownslopeellipsisdownslopeellipsis midhorizellipsismidhorizellipsismidhorizellipsis 01 0 0 0 1 , , 1, …, , 0 10 00 1 ii Ab i m ?? ? ? ?? ? ? = = ? 1 . m i i dn и (1.3) (1.4) (1.5) В этом случае, применив закон обратной связи (1.6) =? +?() ()ux x v к системе (1.1), где – новый вектор входа, совместно с преобразованием координат получим = 1 ( , …, ) m vv v =?(),zx =+ ? ? = ? dotnosp 00 0 , (0) . zA z B zx v (1.7) Запишем систему с помехой mk ii j j ij xf x g x u h x w ? =+ + ? ? ? = ? ?? dotnosp 11 0 () () () , (1.8) == xx (0) , здесь – неизвестное возмущение, – гладкие (C ? ) векторные поля, определенные на U x . Перепишем систему (1.8) в виде 1 ( , …, ) k ww w= T 1 ,…, k hh =+ + ? ? = ? dotnosp 0 () () (), (0) . xf x g x u h x w xx (1.9) Синтез управления для объекта (1.9) может быть проведен в постановке задачи дифференциальной игры, если возмущение w интерпретировать как антагонистическое управление. Рассматривая задачу синтеза закона управления как дифференциальную игру двух игроков U и W на интервале введем функционал {} 0 1 (, , ) lim () () () () () () . 2 T T Jxuw x tQxt u tRut w tPwt dt >? =+ ? ? T TT (1.10) Здесь матрица Q может быть положительно полуопределенной; матрицы R, P – положительно определенные. Применяя закон обратной связи к системе (1.9), совместно с преобразованием координат получим =? +?() ()ux x v =?()zx ?? ?? ? =+ +dotnosp () ,zA z B h x wv СУБОПТИМАЛЬНОЕ УПРАВЛЕНИЕ НЕЛИНЕЙНЫМ ОБЪЕКТОМ 15 Обозначим ? =? ?? ?? = ?? ?? ? 1 () () (). xz hx Dz x Тогда система (1.11) примет вид =+ + ? ? = ? dotnosp 00 0 () , (0) . zA z B D z w zz v (1.12) Координатное преобразование и закон обратной связи (1.6) осуществляет переход от исходной нелинейной системы (1.9) к системе (1.12), имеющей линейную структуру, но с параметрами, зависящими от состояния. Учитывая, что цели управления остались теми же самыми, следует произвести соответствующее преобразование функционала качества (1.10). Поставив (1.6) в (1.10), будем иметь =?()zx ? ?? 1 (, ) ( ()) () 2 11 T ( ( ()) ( ()) ) ( ( ()) ( ()) ) . t Jz z Q z tildenosp ? v =? ? + { (1.13) } 0 ?? ?? 11 11 TT +?? +?? ?? +?? ? zz R z z w P w d t vv Из этой записи видно, что линеаризация системы ведет к нелинейным моделям функционала качества. Раскроем скобки 11 11 1 1 11 11 (( ()) ( ())) (( ()) ( ())) ( ()) ( ()) (( ) (( ) 2 ( ( ) ( ( ) . zz R z z z R z zR z zR z ?? ?? ? ? ?? ?? ?? +?? ?? +?? =? ? ?? + +?? ?? +?? ?? vv vv v TT TT T Введем ряд обозначений ?? 11 ?? ?? ?? ?? ?? =? ?? ?? ?? ?? ?? (( ) (( ) zz nz nz z zz nz nz ?? midhorizellipsis 1 n (), (( ) (( ) vertellipsisdownslopeellipsisvertellipsis ?? 11 mm n midhorizellipsis 1 11 ?? ?? ?? ?? =? ?? ?? ?? ?? zz nz nz z zz nz nz () () midhorizellipsis 1 n vertellipsisdownslopeellipsisvertellipsis (), () () ?? 11 nn n midhorizellipsis 1 () () () () (),zQ z zR z Qz?? + ? ? = T 1 () ( ()) (),zR z N z ? ?? ? = T (1.14) (1.15) (1.16) (1.17) 11 (( ) (( ) ( ) .zR z R z ?? ?? ?? = T (1.18) С такими обозначениями функционал принимает вид: t Jz z Qzz Rz z N z w Pw dt ? =+ + ? ? vv v v TT T tildenosp 1 (, ) () () 2 () . 2 T {} 0 (1.19) Как видим, матрицы , и зависят от состояния системы (1.12). Начальная задача управления объектом (1.9) с функционалом качества (1.10) преобразована к задаче синтеза управляющих воздействий для объекта (1.12) с функционалом (1.19). В этой постановке задача относится к классу задач, в которых параметры системы зависят от состояния системы. ()Qz ()Rz ()Nz 16 АФА Н АС Ь Е В , О РЛО В функционалами, матрицы штрафа которых также зависят от состояния объекта, была сформулирована в начале 1960-х годов в публикации . Разработка предложенного метода была продолжена и с конца 1990-х годов метод привлекает все большее внимание со стороны ученых и практиков. Дело в том, что преобразование исходного нелинейного дифференциального уравнения, которое описывает исходную систему управления, в систему с линейной структурой, но с параметрами, зависящими от состояния, и использование квадратичного функционала качества позволяют при синтезе управления осуществить переход от уравнения Гамильтона–Якоби–Беллмана к уравнению типа Риккати с параметрами, зависящими от состояния. Это и составляет основу метода синтеза оптимальных нелинейных систем управления (State Dependent Riccati Equations, SDRE). Неоднозначность представления нелинейной системы в виде системы линейной структуры, но с параметрами, зависящими от состояния, отсутствие достаточно универсальных алгоритмов решения уравнения Риккати, параметры которого также зависят от состояния, порождают множество возможных субоптимальных решений. 2. Синтез управления. Используя функционал (1.19), запишем уравнение Гамильтона–Якоби– Беллмана ? ? ?? ? ++ + + ? ??? ? ++ + ? = ? ? 00 (,) (,) inf sup ( ( ) ) V wW Vzt Vzt Az B Dzw tz v v (2.1) 1 (( ) ( ) 2 ( ) ) 0 , 2 vv v TT T T zQzz R z zN z w Pw где – функция Беллмана. Граничное условие в уравнении Гамильтона–Якоби–Беллмана отсутствует, так как время окончания переходного процесса не фиксировано. Кроме того, учитывая инвариантность во времени матриц системы (1.12), Перепишем (2.1) в следующем виде: (,)Vzt ? = ? (,) 0. Vzt t TT TT TT 00 0 () () () 11 inf sup 22 ? ? ? ?? ? ?? ?? +++ ? ?? ?? ?? ?? ? ?? ?? ?? ++ + + ?? ?? ?? ?? ? ++ + ? = ? ? Vz Vz Vz Az B B zz z v vv V wW T () () 111 () () () 222 11 1 1 () () () 0. 22 2 2 Vz Vz wD z wD z zQ zz zz Rzv N zz N zz w Pw TT TT TT T T T vv v Вынесем v T и w T за скобки T TT ? ? ?? ? ?? ?? ++ + + ?? ? ?? ?? ?? ? ?? ? ?? ? +? + + = ?? ?? ? ? ??? ?? 00 () () 1 inf sup ( ) ( ) 2 Vz Vz Az B Rz Nezz zz v vv V wW T T TT T T () 11 1 () () () 0. 22 2 Vz wD z P w z Q z z N z z z v Назначим управляющие воздействия в виде v T TT Vz Rz B N z z z Vz wP D z z ?? ? ?? =? + ?? ?? ??? ?? ? ?? = ?? ??? ? 1 0 () () () , T T ? 1 () () . Тогда уравнение (2.2) запишется как (2.2) (2.3) 00 () () () 11 1 1 () () () 0. 22 2 2 Vz Vz Vz Az B w D z z N zz z Qz zz ?? ? ?? ?? ?? ++ + + = ?? ?? ?? ?? ?? ?? vv TT T TT T T T T T (2.4) СУБОПТИМАЛЬНОЕ ПРАВЛЕНИЕ НЕЛИНЕЙНЫМ ОБЪЕКТОМ 17 T () () Vz Szz z ? ?? = ?? ??? . (2.5) Перепишем (2.3) с учетом (2.5) { } 1 0 1 () () () , ? TT vR z B S z N z z ? =? + (2.6) T wP D z S z z = () (). Выражение (2.4) становится уравнением Риккати 1 00 0 0 11 0 T TT T ? SzA A Sz R z B Sz N z B Sz ?? ?? +? + + ?? ?? ? ? ?+ + = ?? ? ? () () ()( () ()) () (2.7) TT TT T T T Rz B S z N z N z P D z S z D z S z Q z ()( () ()) () () () () () () 0. Перепишем (2.7) 11 00 0 0 () () () () () () () () () () () () 0SzA A Sz B Sz N z R z B Sz N z SzDzP D zSz Qz ?? ?? ?? +? + + + + = ?? ?? T TT T T T T (2.8) и раскроем выражение в квадратных скобках 11 1 00 0 11 () () () () () () () () () () () T TT TT T T ?? ? ?? ?? ?? ++ = + + ?? ?? ++ B Sz N z R z B Sz N z SzBR zB Sz NzR zN z (2.9) TT SzBR zN z N zR zB Sz () () () () () (). Тогда уравнение Риккати становится следующим: 11 00 00 1 00 ( ) ( ( )( ) ( ( )( ) ( ) () () () () () () () () () 0. S z A B R z Nz A B R z Nz S z Sz BR zB DzP D z Sz Qz N zR zN z ?? ? ?+ ? ?? ?? + ? = ?? TT T T (2.10) Отметим, что матрицы R и P должны задаваться так, чтобы матрица M = B 0 R –1 (z) – D(z)P –1 D T (z) была бы, по крайней мере, положительно полуопределенной. Учитывая обозначения (1.16) и (1.17), произведение может быть записано в виде B 0 T 1 () ()Rz N z ? T 11 1 1 1 1 1 1 ( ) ( ) ( ( )) ( ( ( ))) ( ( )) ( ) ( ( )) ( ).Rz N z z R z z R z z z ?? ? ? ? ? ? ? =? ? ? ? ? ? ? =? ? ? TT T (2.11) 1 () () () ()Qz N zR zN z ? ? T Разность также можно преобразовать, принимая во внимание (1.16), (1.17) и (1.18) TT T T T TT () () () () () () () () () () () ( ()) () () () () () () () () () (). Qz N zR zN z zQ z zR z zR z zR z zR z zQ z zR z zR z zQ z ?= ? + ? ? ? ? ? ? ? = =? ? +? ? ?? ? =? ? (2.12) Уравнение Риккати (2.10) с учетом (2.11) и (2.12) запишется как 11 11 00 00 00 ()( ( ())()) ( ( ())()) () () () () () () () () () 0. Sz A B z z A B z z Sz Sz BR zB DzP zD z Sz zQ z ?? ?? ??? ? + ??? ? ? ?? ?? + ? = ?? T TT (2.13) Произведение N T (z)z, привлекая (1.14) и (1.17), выражается как 11 1 ( ) (( ) ( ) (( ) (( ) .Nz z z R z z z R z ?? ? =? ? ? =? ? ?? TT T (2.14) Тогда управление v, учитывая (1.18), (2.5) и (2.14), можно представить как ?? ? ? ? ? ? ?? =+ = ? ? ? ? + ?? v TT T T 11 1 1 00 11 1 1 1 1 1 () () () ( ()) ( ( ())) ()Rz B S z N z z z R z B S z z ?? ? ? TT 18 АФА Н АС Ь Е В , О РЛО В Возвращаясь к системе (1.9), произведем обратную подстановку в законе обратной связи (1.6) 11 1 1 0 11 11 00 v TT ?? ? ? ux x x x x R x B S x x x x ?? ?? =? +? =? ?? ? ? ? ? +? ? = () () () () () ( ()) ( ()) () () () (2.16) TT TT =? ? ? ? ? ?? =? ? ? ? () ( ()) ( ()) () () ( ()) ( ()) (). xR x B S x x x R x B S x x Таким образом, оптимальное управление для системы (1.9) определяется выражением 11 0 ( ( )) ( ( )) ( ),uR x B S x x ?? =? ? ? ? TT (2.17) где – диффеоморфизм, а матрица является решением уравнения Риккати (2.13). Следует отметить, что структура полученного управления (2.16) напоминает структуру оптимального управления для линейных систем =?()zx ?=(()) ()Sx S z 1 .uR B S x ? =? T (2.18) Вернемся к уравнению (2.13). Заметим, что в матрицах и , входящих в это уравнение, как следует из (1.14) и (1.15), z i присутствует в знаменателях элементов этих матриц. Рассмотрим вопрос о синтезе управления при Пусть деление на ноль происходит в точках Обозначим через и следующие матрицы: ?()z ?()z = 0 i z ?=( : 1, …, ).ii n 12 , , …, . l kk k zz z ? tildenosp ()z ? tildenosp ()z ll kn k n ii ?? ?? ?? ?? ?? ?? ?? ?? ?= ?? ?? ?? ?? ?? ?? ?? 11 1, , 1 11 ?? (( ) (( ) () () () , (( ) (( ) () () zz nl z n l z z zz nl z n l z () () midhorizellipsis ?? ii == tildenosp vertellipsisdownslopeellipsisvertellipsis ll mm kn k n ii 11 1, , 1 11 ?? () () midhorizellipsis ?? ii == ll kn k n ii ?? ?? ?? ?? ?? ?? ?? ?= ?? ?? ?? ?? ?? ?? 11 1, , 1 11 ?? () ()) () () () . () () () () zz nl z n l z z zz nl z n l z () () midhorizellipsis ?? ii == tildenosp vertellipsisdownslopeellipsisvertellipsis ll nn kn k n ii 11 1, , 1 11 ?? () () midhorizellipsis ?? ii == (2.19) (2.20) Здесь ? – символ Кронекера. Уравнение Риккати при подстановке матриц (2.19) и (2.20) вместо и примет вид ?()z ?()z 11 11 00 00 00 ()( ( ())()) ( ( ())()) () () () () () () () () () 0 Sz A B z z A B z z Sz Sz BR zB DzP zD z Sz zQ z ?? ?? ??? ? + ??? ? ? ?? ?? + ? = ?? T TT tildenosptildenosp tildenosptildenosp (2.21) и будет определено для любого z. Справедливость такой замены будет показана в следующем разделе путем исследования устойчивости системы при синтезированном управлении. Стоит отметить, что решить уравнения Риккати в виде (2.21) при синтезе управления в общем случае аналитически невозможно. Возникает необходимость в аппроксимации решения, которая реализуется численными методами с использованием пакетов символьного программного обеспечения или интерполяционными методами . Точность аппроксимации зависит от про