横山亮次奖  |  百年刊庆  |  中文  |  English

审稿意见

基于优化并行的四足机器人运动技能学习

张思远, 朱晓庆, 陈江涛, 刘鑫源, 王涛

2024, 64 (10) : 1696-1705. https://doi.org/10.16511/j.cnki.qhdxxb.2024.27.018

基于优化并行的四足机器人运动技能学习发表于《清华大学学报(自然科学版)》2024年第10期。

送审稿

评审意见选登:

专家1

1. 文中缺乏对运动技能的内涵缺乏必要的解释和定义,是仅仅涉及斜坡上的步态调整? 
2. 关于整篇文章的结构需要进一步梳理和调整,比如:算法的提出是仅仅体现在1.1吗?而1.1是相关工作。在2中如何体现针对什么样的运动技能进行学习?算法的改进和提升体现在什么地方?创新点体现不充分。 
3. 关于实验部分,3.3的对比实验分析部分,缺乏参数的具体设计。此外,仅仅依靠足端的轨迹是否能够有效判断运动技能的学习效果,衡量的指标是什么? 
4. 全文有很多处书写错误之处,“随即优化”(1.1第一行);公式2下面有两个m(g)变量的解释(重复了),“针协方差矩阵”(公式5上两行);“最后将有”(公式20下一行)。全文仔细校对。

专家2

本文针对四足机器人强化学习训练过程的随机性太大这一问题,提出了一种新的解决方案。该方案结合了基于自适应协方差矩阵进化策略(Covariance Matrix Adaptation Evolutionary Strategy,CAM-ES)和软演员-评论家算法(Soft Actor Critic, SAC),通过进化策略丰富强化学习算法的经验池、更新强化学习算法训练得到的模型参数。 本文在仿真中测试了该算法在四足机器人斜坡路面行走的表现,验证所提出的方法拥有比基线更高的效率、更小的方差,并且其训练得到的控制器在行走方面的表现更稳定。本文通过消融实验,验证了知识继承与知识共享对训练的作用。 本文行文结构清晰,实验内容充实、分析到位,实验结果能支撑论文观点。  我对本文还有如下若干意见和建议:  
1.文章题目中的“并行”这一关键词,在研究内容中并未得到体现。研究内容中应当指出在哪一步采取了并行措施,或者解释“并行”的具体含义。  
2.文中第二章对CAM-ES与SAC的交互过程描述还不够清晰。在图2中,二者的交互元素为动作序列;而第二章倒数第三段则称二者交互的元素为最优策略和奖励值。图文不对应。  
3.第二章进化策略部分和强化学习部分,有若干符号在首次出现后没有立即说明其含义(如进化策略部分的φ_1,φ_2,〖point〗_t,〖point〗_(t+1)、强化学习部分的?_i,t_i,d_i,y_i,p_i,r_i,a_i)。建议在符号首次出现后立即显式地解释其含义。(如:“上面的公式中,?_i表示各个关节电机的角度,共12项……”)  第二章强化学习部分中,状态空间和动作空间的表述中错用了属于符号。“算法模型的状态空间s∈{,?_i,t_i,d_i,y_i,p_i,r_i,a_i}的维度为43”应当改为“算法模型的状态空间的维度为43,其中的元素的组成形式为s=[?_i,t_i,d_i,y_i,p_i,r_i,a_i ]”。对动作空间同理。  
4.第三章的对比实验结果中,没有指出其它基线方法(SAC+GA、SAC+SimpleES等)分别来自哪个文献。  
5.图4(c)的y轴范围太大导致损失函数指标的变化细节都看不到了。建议把Critic Loss单列为一图,并改用对数坐标。  
6.在第二章介绍机器人参数时,建议也一并介绍仿真环境的设计,包括地面的参数(摩擦系数、斜面坡度等)、环境更新的时间间隔(即状态从s_t转移到s_(t+1)的过程中,仿真中推进的时间)、机器人关节控制律(关节位置闭环的增益系数)等。如果采用了公开的机器人模型,应当给出该模型的来源文献。  
7.引言第一段末尾“上述启发式算法……在计算上存在梯度计算,大大增加了算法的训练效率”不符合上下文,是否想表达“上述启发式算法在计算上存在梯度计算,因而训练效率不高”?在第二章第一段也有类似问题。

专家3

针对四足机器人控制面临的诸多问题,如实时性差、控制不稳定、局部最优等,稿件《基于优化并行的四足机器人运动技能学习》在软演员评论家算法(SAC)基础上提出一种基于优化并行强化学习算法(OP-SAC)并开展了仿真验证实验,以验证其算法的有效性及其优越性。 基于强化学习的机器人控制算法的研究是深度学习领域的一个重要研究方向,该研究具有重要的工程应用价值和理论研究意义,论文的研究对四足机器人控制策略的研究具有一定的借鉴意义,但是评审专家认为论文存在以下不足: 

1)论文撰写的规范性有待提高,如摘要、结论的写作请参考科技论文的撰写规范;

2)论文在提出OP-SAC算法的基础上虽开展了仿真实验,但建议补充物理性验证实验以进一步验证算法的有效性及其优越性; 

3)论文虽开展了仿真实验,但是针对四足机器人控制中的实时性问题,请问该算法的实时性如何?其与现有主流算法比较其优越性如何? 

4)为验证算法的有效性,其以SAC作为Baseline,将OP-SAC与四种算法比较,但是结合深度学习与传统控制策略的机器人控制算法是现有机器人控制的发展趋势,因此仿真实验仅能验证算法的有效性其优越性无从验证,建议将该算法与现有的各主流算法进行仿真对比实验,从而验证算法的实时性、稳定性、全局最优等。


发布日期:2025-04-06
访问次数:96