基于偏移学习的低分辨率人体姿态估计*

作者：林敏强（康佳集团股份有限公司，广东深圳 518057）时间：2022-09-24 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要：目前高分辨率人体姿态估计已经非常准确，但是低分辨率人体姿态估计效果并不理想，主要原因是低分辨率时模型性能严重下降，而偏移学习是解决模型性能下降的一种有效方法。实验表明，本文提出的基于偏移学习的低分辨率人体姿态估计算法量化误差小，准确率高。

本文引用地址：https://www.eepw.com.cn/article/202209/438527.htm

关键词：人体姿态估计；低分辨率；偏移学习

*基金项目：深圳市科技创新委员会资助项目（项目编号：JSGG20191129143214333）

人体姿态估计是人体生成，动作识别，行人序列重识别，行人跟踪和行人目标检测中最关键的技术之一。由于受人体的大尺度变换、人体遮挡和拍摄角度等因素干扰，人体姿态估计充满挑战。现有的人体姿态估计算法大部分是基于高分辨率的，低分辨率人体姿态估计研究较少。高分辨率人体姿态估计计算量大，严重阻碍了人体姿态估计的应用。城市监控多采用远距离拍摄，获取的图像分辨率都比较低，因此低分辨率人体姿态估计更具有研究和应用价值。

人体姿态估计算法主要分三类：基于坐标的人体姿态估计算法；基于热图的人体姿态估计算法；基于偏移的人体姿态估计算法。基于坐标的人体姿态估计算法是以人体 2D 图像作为输入并学习人体部位的归一化坐标，为了提升模型的性能，主要采用级联网络来改进预测效果，为了提高低分辨率人体姿态估计的性能，研究还采用了监督学习和对比学习的方法，强制让特征和输出保持一致性；基于坐标的方法的人体姿态估计算法模型简单，但是模型容易过拟合，基于热图的人体姿态估计算法刚好可以缓解过拟合。基于热图的人体姿态估计算法采用隐士人体结构，且用高斯分布对关键点坐标进行编码，不仅可以防止模型过拟合，而且可以增加容错能力；但是它容易受到下采样算子的影响，导致量化误差增大。基于偏移学习的人体姿态估计算法将人体姿态估计分为部分检测和偏移回归任务，明显减少了量化误差。本文采用基于偏移学习的人体姿态估计算法在低分辨率数据集上减少了量化误差，提升了准去率。

1 算法

基于偏移学习的人体姿态估计算法是从关键点坐标偏移场中提取偏移向量，再将偏移向量反馈到关键点坐标，通过热图回归和偏移回归方法来进行最终预测。训练时，激活区被定义为真实关键点的中心，通过激活每个像素来实现正确预测，也就是说，每个像素是平等的。测试时，首先用热图识别峰值位置，然后检索偏移量生成输出。假设偏移损失符合高斯混合模型，为了进一步用掩码来权衡灭国像素的偏移损失，将偏移学习和粗略预测相结合。

现有基于偏移学习的人体姿态估计多采用二进制热图来表示身体关节的激活区域，活圈区域内的置信度值都是 1，这样无法学习发哦真实数据位置和空间的关系，反应不了较近像素的置信度应该大于较远像素置信度关系，因此本文采用高斯分别缩放二进制热图，并将需要的置信度编码：

2 实验

本实验是 COCO 数据集上完成的。COCO 数据集是用于图像检测、语义分割、人体姿态估计最常用的数据集，它包含 220 张有标注的图像（COCO 数据集超过 330 张图像），150 万个目标，80 个行人、汽车、动物等目标类别，91 种草、墙、天空等材料类别，并且每张图片还包含 5 句图像描述，最重要的是它包含 250000 个带关键点标注的行人。实验用平均精度（mean average precision，mAP）和平均召回率（average recall, AR）来作为评价指标。实验结果如表 1。

从上表可以看出，本文算法在 COCO 数据集上的平均精度和平均召回率明显优于其它算法，说明本文提出的基于偏移学习的低分辨率人体姿态估计算法在低分辨率人体姿态估计上是有效的。

3 结语

本文提出的基于偏移学习的低分辨率人体姿态估计算法，在低分辨率人体姿态估计时，将人体姿态估计分为部分检测和偏移回归任务，明显减少了量化误差，提升了准确率。

参考文献：

[1] ZHANG Y, HASSAN M, NEUMANN H, et al. Generating 3d people in scenes without people[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:6193-6203.

[2] HUANG J, ZHU Z, GUO F, et al. Delving into unbiased data processing for human pose estimation[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:5700-5709.

[3] MA C, RAO Y, CHENG Y, et al. Structure-preserving super resolution with gradient guidance [C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7766-7775.

[4] FENG Z, XIATIAN Z, HANBIN D, et al. Distributionaware coordinate representation for human pose estimation[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7091-7100.

[5] QIAN X, FU Y, XIANG T, et al. Pose normalized image generation for person re-identification[C].2018 European Conference on Computer Vision,2018:661-678.

[6] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C].2018 IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112.

[7] SUN K, XIAO B, LIU D et al. Deep high-resolution representation learning for human pose estimation[C].2019 IEEE Conference on Computer Vision and Pattern Recognition,2019:5693-5703.

[8] XIAO B, WU H, WEI Y, et al. Simple baselines for human pose estimation and tracking[C].2018 European Conference on Computer Vision,2018:472-487.

(注：本文转载自《电子产品世界》杂志2022年9月期)

新闻中心

基于偏移学习的低分辨率人体姿态估计*

评论

相关推荐

技术专区