近日,南方科技大学电子与电气工程系2021级专业硕士研究生阚哲涵在人体姿态估计领域取得重要进展,并以第一作者身份在国际计算机视觉三大顶级会议之一European Conference on Computer Vision(ECCV 2022)上发表研究成果,提出了一种新型有效的自约束人体姿态估计方法,解决了人体姿态估计中的遮挡、泛化问题。
图1:基于结构群自约束的人体姿态估计方法图释。
随着XR时代的到来,虚拟现实、人机交互、增强现实等技术逐渐成熟,作为XR研究中的核心问题,准确的人体姿态估计愈发重要。但极易发生对象间的遮挡,背景、纹理变化导致的泛化问题成为了人体姿态估计任务中最难以解决的部分。阚哲涵观察到,由于身体不同部位的生物学约束,人体姿态表现出强大的空间耦合和群体结构相关性。这种群体结构相关性可以被用来提高人体姿态估计的准确性和鲁棒性。
图2:所提出方法的总体框架。基准网络预测输入图像的全部关键点热图并分为6个结构群,每个结构群被分为两个子集。 在训练阶段,自约束的预测验证网络用来表征两个子集之间的结构相关性。 在测试阶段,验证网络将用于矫正低置信度远端关键点的预测结果。
本文开发了一个自约束的预测验证网络,以表征和学习训练过程中关键点之间的结构相关性。在推理阶段,来自验证网络的反馈信息能够进一步优化姿态预测结果,从而显著提高人体姿态估计的性能。具体而言,根据人体的生物结构将关键点分组。在每组中,关键点被进一步划分为两个子集,Proximal关键点子集和Distal关键点子集。利用自约束预测验证网络在这些关键点子集之间执行前向和后向的预测。姿态估计以及通用预测任务中的一个基本挑战是,在测试阶段由于无法获得真值,没有机制验证获得的姿势估计或预测结果是否准确。而自约束预测验证网络一旦成功学习,验证网络将用作前向姿势预测的准确性验证模块。在推理阶段,Proximal关键点子集的自约束损失指导Distal关键点子集对其姿态估计结果进行局部优化。本工作在公开数据集MS COCO 和 CrowdPose 上取得了显著的提升,为后续的研究提供了重要的参考启发价值。
南科大电子与电气工程系2021级硕士研究生阚哲涵为本文第一作者,南科大2021级硕士研究生陈烁硕和统计系助理教授李曾为本文共同作者,电子与电气工程系讲席教授何志海为本文通讯作者,南科大为论文第一单位。
论文链接:https://arxiv.org/abs/2207.02425
供稿:电子与电气工程系
通讯员:李佰英
主图:丘妍
编辑:朱增光