Реферат: Синтез оптимальных уравнений
3. Уравнения движения объекта. Начнём с рассмотрения одного простого примера. Пусть G – тело, которое может совершать прямолинейное движение (рис. 10). Массу этого тела будем предполагать постоянной и равной m, а его размерами будем пренебрегать (т. е. будем считать G материальной точкой.) Координату тела G (отсчитываемую от некоторой точки O той прямой, по которой оно движется) будем обозначать через x1. При движении тела G его координата x1 меняется с течением времени. Производная представляет собой скорость движения тела G. Будем предполагать, что на тело G действуют две внешние силы: сила трения ─и упругая сила ─ kx1 и что, кроме того, тело G снабжено двигателем. Развиваемую двигателем силу воздействия на тело G обозначим через u. Таким образом, по второму закону Ньютона движение тела G с течением времени будет описываться дифференциальным уравнением
Обозначив скорость движения через x2 (т. е. положив ), мы сможем записать этот закон движения в виде следующей системы дифференциальных уравнений:
(1.1)
Здесь величины x1, x2 являются фазовыми координатами тела G, а величина u – управляющим параметром, т. е. мы имеем объект, схематически изображённый на рис. 11.
Уравнения (1.1) представляют собой закон изменения фазовых координат с течением времени (с учётом воздействия управляющего параметра), т. е. представляют собой закон движения фазовой точки в фазовой плоскости.
Мы рассмотрели лишь один частный случай, но можно было бы указать целый ряд других примеров, в которых закон движения объекта описывается дифференциальными уравнениями. Чаще всего (см.(1.1)) эти уравнения дают выражения производных от фазовых координат через сами фазовые координаты и управляющие параметры, т. е. имеют вид
(1.2)
где f1, f2,…, fn – некоторые функции, определяемые внутренним устройством объекта.
В дальнейшем мы сосредоточим своё внимание именно на таких объектах (рис. 2), закон движения которых описывается системой дифференциальных уравнений вида (1.2). В векторной форме систему (1.2) можно записать в виде
(1.3)
где x ─ вектор с координатами x1,…, xn, u – вектор с координатами u1,…, ur и, наконец, f(x, u) – вектор, координатами которого служат правые части системы (1.2).
Разумеется, невозможно решить систему дифференциальных уравнений (1.2) (т. е. найти закон движения объекта), не зная каким образом будут меняться с течением времени управляющие параметры u1, u2,…, ur. Напротив, зная поведение величин u1, u2,…,ur, т. е. зная управляющие функции u1(t), u2(t),…, ur(t) для t>t0 мы сможем из системы уравнений
(1.4)
или, что то же самое, из векторного уравнения
(1.5)
однозначно определить движение объекта (при t>t0), если нам известно начальное фазовое состояние объекта (в момент t=t0). Иначе говоря, задание управления u(t) и начального фазового состояния x0 однозначно определяет фазовую траекторию x(t) при t>t0, что согласуется со сделанными ранее (стр. 1) предположениями о свойствах объекта.
Тот факт, что задание начального фазового состояния (в момент t=t0) позволяет из системы (1.4) однозначно определить фазовую траекторию x(t), t>t0, вытекает из теоремы о существовании и единственности решений системы дифференциальных уравнений. Предположим, что, зная начальное фазовое состояние x0 и управление u(t)=(u1(t),…, ur(t)), мы определили фазовую траекторию x(t) (с помощью системы (1.4)). Если мы изменим управление u(t) (сохранив то же начальное состояние x0), то получим некоторую другую траекторию, исходящую из той же точки x0; вновь изменим управление u(t) – получим ещё одну траекторию и т. д. Таким образом, рассматривая различные управления u(t), мы получим много траекторий, исходящих из точки x0 (рис. 12). (Разумеется, это не противоречит теореме единственности в теории дифференциальных уравнений, так как, заменяя функции u1(t),…,ur(t) другими функциями, мы переходим от системы дифференциальных уравнений относительно фазовых координат x1,…, xn.)
Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u(t), для которого фазовая траектория x(t), соответствующая этому управлению в силу уравнения (1.5), проходит через точку x1 и переход из x0 в x1 осуществляется за кратчайшее время. Такое управление u(t) будем называть оптимальным управлением (в смысле быстродействия); точно так же соответствующую траекторию x(t) буде называть оптимальной траекторией.
4. Допустимые управления. Обычно управляющие параметры u1,…,ur не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u, развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α≤u≤β, где α и β – некоторые постоянные, характеризующие двигатель. В частности, при α=─1, β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x1 как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.
Для объектов, содержащих r управляющих параметров u1,…,ur, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:
α1≤u1≤ β1, α2≤u2≤β2,…, αr≤ur≤βr.
Иначе говоря, каждая из величин u1, u2,…,ur в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных
управляющих параметров и задаётся неравенствами
αi≤ui≤βi, i=1,…,r. (1.6)
Заметим, что при r=2 точки u=(u1, u2), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменных u1,u2,u3 прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.
В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u1,…, ur некоторое множество U и управляющие параметры u1, u2,…, ur должны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u1,u2,…,ur) принадлежала множеству U. Иначе говоря, разрешается рассматривать лишь такие управления u(t), что u(t) U для любого t. Множество U в дальнейшем будем называть областью управления. Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u1, u2,…,ur могут существовать связи, выражаемые, например, уравнениями вида φ(u1, u2,…, ur)=0 или неравенствами ψ(u1, u2,…, ur)≤0. Так, если параметры u1,u2 характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию
(u1)2 +(u2)2 ─1≤0 (1.7)
и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления U.
Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами u1,u2,…,ur, безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u1,u2,…,ur. В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u(t). Кроме того, будем предполагать, что каждое рассматриваемое управление u(t) непрерывно на концах отрезка t0≤t≤t1, на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t0<t<t1. Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u(t), t0≤t≤t1, со значениями в области управления U, непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t0; t1], на котором она задана.
Задача об оптимальных быстродействиях уточняется теперь следующим образом:
Среди всех допустимых управлений u=u(t), под воздействием которых управляемый объект (1.3) переходит из заданного начального фазового состояния x0 в предписанное конечное состояние x1, найти такое, для которого этот переход осуществляется за кратчайшее время
§ 2. Об основных направлениях в теории оптимальных процессов
5. Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x1. При этом конечную фазовую точку x1 будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мы будем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 1. Какова бы ни была отличная от x1 точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x0 в точку x1 (рис. 6).
Время, в течение которого осуществляется оптимальный переход из точки x0 в точку x1, обозначим через T(x). В дальнейших рассуждениях будет удобно вместо T(x) ввести функцию ω(x), отличающуюся от неё знаком
ω(x)= ─T(x). (1.8)
Так как каждая точка x фазового пространства имеет координаты x1,…,xn, то ω(x)= ─T(x) является функцией от n переменных, т. е. ω(x)= ω(x1,…,xn). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x1,…,xn) и о дифференцируемости этой функции по каждой из переменных x1,…,xn.
А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 2. Функция ω(x) непрерывна и всюду, кроме точки x1, имеет непрерывные частные производные
Пусть теперь x0 ─ произвольная отличная от x1 точка фазового пространства, а u0 ─ произвольная точка области U. Предположим, что объект находится в момент t0 в фазовом состоянии x0 и движется в течение некоторого времени под воздействием постоянного управления u= u0. Фазовую траекторию объекта при этом движении обозначим через y(t)=(y1(t),…, yn(t)). Таким образом, фазовая траектория y(t) при t>t0 удовлетворяет уравнениям
(1.9)
(см. (1.2), (1.3)) и начальному условию
y(t0)=x0. (1.10)
Если мы будем двигаться из точки x0 до точки y(t) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t0. Двигаясь затем из точки y(t) оптимально, мы затратим на движение от точки y(t) до точки x1 время T(y(t)). В результате мы совершим переход из точки x0 в точку x1, затратив на этот переход время (t ─ t0)+T(y(t)). Но так как оптимальное время движения от точки x0 до точки x1 равно T(x0), т. е. равно T(y(t0)), то T(y(t0))≤(t ─ t0)+T(y(t)). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─ t0, получаем отсюда и поэтому, переходя к пределу при t→t0, находим
│при ≤1. (1.11)
Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид Точки x0, u0 здесь были произвольными. Таким образом, для любой (отличной от x1) точки x фазового пространства и любой точки u области управления U выполнено соотношение
(1.12)