CASIA OpenIR  > 毕业生  > 博士学位论文
基于神经网络的非线性系统控制自适应动态规划方法研究
其他题名Adaptive Dynamic Programming for Control of Nonlinear Systems Based on Neural Networks
王鼎
学位类型工学博士
导师刘德荣
2012-05-16
学位授予单位中国科学院研究生院
学位授予地点中国科学院自动化研究所
学位专业控制理论与控制工程
关键词智能控制 神经网络 自适应动态规划 最优控制 非线性系统 Intelligent Control Neural Networks Adaptive Dynamic Programming Optimal Control Nonlinear System
摘要在控制理论研究和控制工程实践中,非线性系统的最优控制都是一个重要的主题。为了克服动态规划方法在求解此类问题中的不足,结合强化学习思想的自适应动态规划(Adaptive Dynamic Programming,ADP)方法逐渐成为控制科学特别是智能控制领域的研究热点之一。作为构建具有人脑智能行为的智能系统的重要方法,ADP有着广泛的应用前景。但是, 它的方法体系还没有得到完善,利用ADP方法研究非线性系统最优控制的许多理论与技术问题还有待解决。为此, 在国家自然科学基金重点项目“基于数据的非线性控制系统分析与设计(61034002)”等的资助下,本项课题基于ADP方法进一步研究非线性离散系统的最优控制问题,提出适合不同情形的迭代ADP算法,逐步扩展ADP方法的使用范围。本文的主要工作和贡献体现在以下四个方面。 1. 研究ADP方法的高级实现结构并用于求解未知非线性离散系统的最优控制问题。由于许多实际系统难以建立精确的数学模型,而且现有的实现结构不能同时达到计算误差小和直接输出代价函数的目标,本文首次提出采用全局二次启发式规划(Globalized Dual Heuristic Programming,GDHP)技术的迭代ADP算法并给出改进的收敛性证明方法,以此求解具有未知动态非线性系统的最优控制问题。此外,为了简化ADP方法的实现结构,本文同时研究只需要构造模型网络和评判网络的迭代ADP算法。仿真结果表明,这里提出的控制方案不仅能够成功地解决未知非线性系统的最优控制问题,而且可以获得令人满意的控制效果。 2. 提出有限时间迭代ADP算法并求解非线性离散系统的有限时间最优跟踪控制问题。首先通过系统变换将跟踪控制问题转化为误差系统的调节器设计问题,然后引入有限时间迭代ADP算法并给出收敛性分析,由此得到的反馈控制能够保证代价函数在ε误差界内接近其最优值。最后分别采用启发式动态规划和二次启发式规划技术来实现算法,并通过仿真实例验证所提方法的可行性。 3. 基于迭代GDHP算法设计具有控制约束非线性离散系统的最优控制策略。首先引入非二次型形式的代价函数来处理控制约束,然后基于迭代ADP算法设计最优反馈控制并进行相应的收敛性分析。在具体的算法实现过程中,分别构建模型网络、评判网络和执行网络以近似被控系统、代价函数及其偏导数和控制律。仿真结果显示本文提出的方法能够有效地克服控制约束现象。 4. 利用迭代ADP算法研究具有未知动态非仿射非线性离散系统的最优控制。提出针对非仿射非线性情形的迭代ADP算法,将相关结论推广至实际中广泛存在的一般非线性系统,进而研究具有控制约束未知非仿射非线性离散系统的最优控制,并通过仿真实例验证迭代GDHP算法在求解此类问题中的优越性。
其他摘要The optimal control of nonlinear systems is an important topic both in control theory research and control engineering practice. Though dynamic programming has been a useful technique in solving optimal control problems for many years, it is often computationally untenable to run it to obtain the optimal solutions. Therefore, the adaptive dynamic programming (ADP) approach, which combines dynamic programming with reinforcement learning, has become one of the key foci of control science, especially the intelligent control field. As a main method to be able to design truly brain-like general-purpose intelligent systems, the ADP approach has wide application prospects. However, the architecture of ADP approach is far from perfect. Many theoretical and technical issues of optimal control of nonlinear systems based on ADP have yet to be addressed. Under the support of the National Natural Science Foundation of China (61034002), the optimal control of nonlinear discrete-time systems using ADP is further studied in this thesis, the iterative ADP algorithms for different cases are developed, and the application scope of ADP is broadened significantly. The main contributions of the thesis include the following four parts. 1. The advanced implementation structures of ADP are investigated and then employed to handle the optimal control problems of unknown nonlinear discrete-time systems. It is well-known that the mathematical models of many real-world systems are difficult to build. Besides, existing structures cannot reach the objectives of getting small computational error and outputting directly the cost function simultaneously. Thus, for the first time, the iterative ADP algorithm using globalized dual heuristic programming (GDHP) technique is developed with convergence proof, in order to solve the optimal control problems of nonlinear systems with unknown dynamics. In addition, the iterative ADP algorithm which only consists of model network and critic network is investigated for the purpose of simplifying the implementation structure. The simulation results show that the proposed control schemes can not only solve the unknown nonlinear optimal control problems successfully, but also obtain satisfactory control performances. 2. The finite-horizon iterative ADP algorithm is developed and employed to devise finite-horizon optimal tracking controller for nonlinear discrete-time systems. First, the optimal tracking problem is converted into designing a finite-...
馆藏号XWLW1721
其他标识符200918014628012
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6413
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
王鼎. 基于神经网络的非线性系统控制自适应动态规划方法研究[D]. 中国科学院自动化研究所. 中国科学院研究生院,2012.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20091801462801(1128KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[王鼎]的文章
百度学术
百度学术中相似的文章
[王鼎]的文章
必应学术
必应学术中相似的文章
[王鼎]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。