高级搜索

跨层融合与多模型投票的动作识别

罗会兰 卢飞 严源

引用本文: 罗会兰, 卢飞, 严源. 跨层融合与多模型投票的动作识别[J]. 电子与信息学报, 2019, 41(3): 649-655. doi: 10.11999/JEIT180373 shu
Citation:  Huilan LUO, Fei LU, Yuan YAN. Action Recognition Based on Multi-model Voting with Cross Layer Fusion[J]. Journal of Electronics and Information Technology, 2019, 41(3): 649-655. doi: 10.11999/JEIT180373 shu

跨层融合与多模型投票的动作识别

    作者简介: 罗会兰: 女,1974年生,博士,教授,研究方向为机器学习和模式识别等;
    卢飞: 男,1994年生,硕士生,研究方向为视频中的动作识别、图像语义分割等;
    严源: 男,1991年生,硕士生,研究方向为视频中的动作识别等
    通讯作者: 罗会兰,luohuilan@sina.com
  • 基金项目: 国家自然科学基金(61462035, 61862031),江西省青年科学家培养项目(20153BCB23010),江西省自然科学基金(20171BAB202014)

摘要: 针对动作特征在卷积神经网络模型传输时的损失问题以及网络模型过拟合的问题,该文提出一种跨层融合模型和多个模型投票的动作识别方法。在预处理阶段,借助排序池化的方法聚集视频中的运动信息,生成近似动态图像。在全连接层前设置对特征信息进行水平翻转结构,构成无融合模型。在无融合模型的基础上添加第2层的输出特征与第5层的输出特征融合结构,构造成跨层融合模型。训练时,对无融合模型和跨层融合模型两种基本模型采用3种数据划分方式以及两种生成近似动态图像顺序进行训练,得到多个不同的分类器。测试时使用多个分类器进行预测,对它们得到的结果进行投票集成,作为最终分类结果。在UCF101数据集上,提出的无融合模型和跨层融合模型的识别方法与动态图像网络模型的方法相比,识别率有较大提高;多模型投票的识别方法能有效缓解模型的过拟合现象,增加算法的鲁棒性,得到更好的平均性能。

English

    1. [1]

      BLACKBURN J and RIBEIRO E. Human Motion Recognition Using Isomap and Dynamic Time Warping[M]. Berlin Heidelberg: Springer, 2007: 285–298.

    2. [2]

      QU Hang and CHENG Jian. Human action recognition based on adaptive distance generalization of isometric mapping[C]. Proceedings of the International Congress on Image and Signal Processing, Bangalore, India, 2013: 95–98. doi: 10.1109/cisp.2012.6469785.

    3. [3]

      WANG Heng, KLÄSER A, SCHMID C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International Journal of Computer Vision, 2013, 103(1): 60–79. doi: 10.1007/s11263-012-0594-8

    4. [4]

      WANG Heng and SCHMID C. Action recognition with improved trajectories[C]. Proceedings of the IEEE International Conference on Computer Vision, Sydney, Australia, 2013: 3551–3558. doi: 10.1109/iccv.2013.441.

    5. [5]

      OHNISHI K, HIDAKA M, and HARADA T. Improved dense trajectory with cross streams[C]. ACM on Multimedia Conference, Amsterdam, Holland, 2016: 257–261. doi: 10.1145/2964284.2967222.

    6. [6]

      AHAD M A R, TAN J, KIM H, et al. Action recognition by employing combined directional motion history and energy images[C]. IEEE Conference On Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 73–78. doi: 10.1109/CVPRW.2010.5543160.

    7. [7]

      BILEN H, FERNANDO B, GAVVES E, et al. Dynamic image networks for action recognition[C]. Proceedings of the Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 3034–3042. doi: 10.1109/cvpr.2016.331.

    8. [8]

      CHERIAN A, FERNANDO B, HARANDI M, et al. Generalized rank pooling for activity recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA, 2017: 3222–3231. doi: 10.1109/cvpr.2017.172.

    9. [9]

      SIMONYAN K and ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]. Proceedings of the International Conference on Neural Information Processing Systems, Sarawak, Malaysia, 2014: 568–576. doi: 10.1109/iccvw.2017.368.

    10. [10]

      LIU Hong, TU Juanhui, and LIU Mengyuan. Two-stream 3D convolutional neural network for skeleton-based action recognition[OL]. https://arxiv.org/abs/1705.08106, 2017.

    11. [11]

      MOLCHANOV P, GUPTA S, KIM K, et al. Hand gesture recognition with 3D convolutional neural networks[C]. Proceedings of the Computer Vision and Pattern Recognition Workshops, Boston, USA, 2015: 1–7. doi: 10.1109/cvprw.2015.7301342.

    12. [12]

      ZHU Yi, LAN Zhenzhong, NEWSAM S, et al. Hidden two-stream convolutional networks for action recognition[OL]. https://arxiv.org/abs/1704.00389, 2017.

    13. [13]

      WEI Xiao, SONG Li, XIE Rong, et al. Two-stream recurrent convolutional neural networks for video saliency estimation[C]. Proceedings of the IEEE International Symposium on Broadband Multimedia Systems and Broadcasting, Cagliari, Italy, 2017: 1–5. doi: 10.1109/bmsb.2017.7986223.

    14. [14]

      SHI Yemin, TIAN Yonghong, WANG Yaowei, et al. Sequential deep trajectory descriptor for action recognition with three-stream CNN[J]. IEEE Transactions on Multimedia, 2017, 19(7): 1510–1520. doi: 10.1109/TMM.2017.2666540

    15. [15]

      SONG Sibo, CHANDRASEKHAR V, MANDAL B, et al. Multimodal multi-stream deep learning for egocentric activity recognition[C]. Proceedings of the Computer Vision and Pattern Recognition Workshops, Las Vegas, USA, 2016: 24–31. doi: 10.1109/cvprw.2016.54.

    16. [16]

      NISHIDA N and NAKAYAMA H. Multimodal Gesture Recognition Using Multi-Stream Recurrent Neural Network[M]. New York, Springer-Verlag, Inc., 2015: 682–694.

    17. [17]

      朱丽, 吴雨川, 胡峰, 等. 老年人动作识别系统研究[J]. 计算机工程与应用, 2017, 53(14): 24–31. doi: 10.3778/j.issn.1002-8331.1703-0470
      ZHU Li, WU Yuchuan, HU Feng, et al. Study on action recognition system for the aged[J]. Computer engineering and Application, 2017, 53(14): 24–31. doi: 10.3778/j.issn.1002-8331.1703-0470

    18. [18]

      寿质彬. 基于神经网络模型融合的图像识别研究[D]. [硕士论文], 华南理工大学, 2015.
      SHOU Zhibin. Research on image recognition base on neural networks and model Combination[D]. [Master dissertation], South China University of Technology, 2015.

    19. [19]

      HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.

    20. [20]

      DIETTERICH T G. Ensemble methods in machine learning[J]. 1st International Workshgp on Multiple Classifier Systems, 2000, 1857(1): 1–15. doi: 10.1007/3-540-45014-9_1

    21. [21]

      FERNANDO B, GAVVES E, ORAMAS M J, et al. Modeling video evolution for action recognition[C]. Proceedings of the Computer Vision and Pattern Recognition, Boston, USA, 2015: 5378–5387. doi: 10.1109/cvpr.2015.7299176.

    22. [22]

      SOOMRO K, ZAMIR A R, and SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[OL]. https://arxiv.org/abs/1212.0402, 2012.

    23. [23]

      TRAN A and CHEONG L F. Two-stream flow-guided convolutional attention networks for action recognition[C]. Proceedings of the IEEE International Conference on Computer Vision Workshop, Venice, Italy, 2017: 3110–3119. doi: 10.1109/iccvw.2017.368.

    24. [24]

      SRIVASTAVA N, MANSIMOV E, and SALAKHUTDINOV R. Unsupervised learning of video representations using LSTMs[C]. International Conference on Machine Learning, Lille, France, 2015: 843–852.

    1. [1]

      雷大江, 张策, 李智星, 吴渝. 基于多流融合生成对抗网络的遥感图像融合方法. 电子与信息学报, 2020, 41(0): 1-8.

    2. [2]

      兰红, 方治屿. 零样本图像识别. 电子与信息学报, 2020, 42(5): 1188-1200.

    3. [3]

      孙闽红, 丁辰伟, 张树奇, 鲁加战, 邵鹏飞. 基于统计相关差异的多基地雷达拖引欺骗干扰识别. 电子与信息学报, 2020, 42(0): 1-7.

    4. [4]

      姚敏立, 王旭健, 张峰干, 戴定成. 基于动态参数差分进化算法的多约束稀布矩形面阵优化. 电子与信息学报, 2020, 42(5): 1281-1287.

    5. [5]

      牛莹, 张勋才. 基于变步长约瑟夫遍历和DNA动态编码的图像加密算法. 电子与信息学报, 2020, 42(6): 1383-1391.

    6. [6]

      张天骐, 范聪聪, 葛宛营, 张天. 基于ICA和特征提取的MIMO信号调制识别算法. 电子与信息学报, 2020, 41(0): 1-8.

    7. [7]

      殷志祥, 唐震, 张强, 崔建中, 杨静, 王日晟, 赵寿为, 张居丽. 基于DNA折纸基底的与非门计算模型. 电子与信息学报, 2020, 42(6): 1355-1364.

    8. [8]

      李骜, 刘鑫, 陈德运, 张英涛, 孙广路. 基于低秩表示的鲁棒判别特征子空间学习模型. 电子与信息学报, 2020, 42(5): 1223-1230.

    9. [9]

      夏晓峰, 向宏, 肖震宇, 蔡挺. 基于国产密码算法的数控网络AUTH-VRF模型研究及安全评估. 电子与信息学报, 2020, 42(0): 1-7.

    10. [10]

      刘政怡, 刘俊雷, 赵鹏. 基于样本选择的RGBD图像协同显著目标检测. 电子与信息学报, 2020, 42(0): 1-8.

    11. [11]

      王璐慧, 王越, 钱梦瑶, 董亚非. 基于氧化石墨烯与金属离子的逻辑模型设计与可控性验证. 电子与信息学报, 2020, 42(6): 1410-1419.

    12. [12]

      蒲磊, 冯新喜, 侯志强, 余旺盛. 基于自适应背景选择和多检测区域的相关滤波算法. 电子与信息学报, 2020, 41(0): 1-7.

    13. [13]

      高东, 梁子林. 基于能量效率的双层非正交多址系统资源优化算法. 电子与信息学报, 2020, 42(5): 1237-1243.

    14. [14]

      刘焕淋, 杜理想, 陈勇, 王展鹏. 基于灾难预测多区域故障的虚拟光网络生存性映射. 电子与信息学报, 2020, 42(7): 1710-1717.

    15. [15]

      张文明, 姚振飞, 高雅昆, 李海滨. 一种平衡准确性以及高效性的显著性目标检测深度卷积网络模型. 电子与信息学报, 2020, 42(5): 1201-1208.

    16. [16]

      张惊雷, 厚雅伟. 基于改进循环生成式对抗网络的图像风格迁移. 电子与信息学报, 2020, 42(5): 1216-1222.

    17. [17]

      曹祥红, 李欣妍, 魏晓鸽, 李森, 黄梦溪, 李栋禄. 基于Dijkstra-ACO混合算法的应急疏散路径动态规划. 电子与信息学报, 2020, 42(6): 1502-1509.

    18. [18]

      董道广, 芮国胜, 田文飚. 时域流信号的多任务稀疏贝叶斯动态重构方法研究. 电子与信息学报, 2020, 42(7): 1758-1765.

    19. [19]

      姜文, 牛杰, 吴一戎, 梁兴东. 机载多通道SAR运动目标方位向速度和法向速度联合估计算法. 电子与信息学报, 2020, 42(6): 1542-1548.

    20. [20]

      晋守博, 魏章志, 李耀红. 基于大通讯时滞的2阶多智能体系统的一致性分析. 电子与信息学报, 2020, 42(0): 1-6.

  • 图 1  无融合模型

    图 2  跨层融合模型

    表 1  4种不同权重融合模型的平均识别准确度(%)

    模型融合0.50融合0.25融合0.20融合0.10
    平均准确度53.8963.1263.9464.82
    下载: 导出CSV

    表 2  跨层融合模型动作识别准确度(%)

    动作类转呼啦圈键盘打字军队行进弹吉他掷铁饼类平均
    split1+正序87.1480.40${\underline{87.14}}$${\underline{91.33}}$${\underline{77.45}}$82.47
    split1+反序${\underline{86.29}}$79.6387.9091.6576.8682.16
    split2+正序77.2888.3586.6489.2973.60${\underline{83.06}}$
    split2+反序76.66${\underline{88.88}}$86.2790.8871.3183.87
    split3+正序78.7289.2587.0291.2178.2083.03
    split3+反序78.9186.4686.9990.6676.6582.79
    注:粗体数字代表动作类中识别率最高,带下划线数字代表动作类的识别率次高。
    下载: 导出CSV

    表 3  VADMMR在5类动作上的识别准确度(%)

    动作类转呼啦圈键盘打字军队行进弹吉他掷铁饼类平均
    VADMMR83.7787.4388.8391.5879.8384.67
    下载: 导出CSV

    表 4  本文提出的VADMMR与其它动作识别方法对比

    文献技术策略年份平均识别率(%)
    文献[9]Spatial Stream ConvNet201473.0
    文献[9]Temporal Stream ConvNet201483.7
    文献[24]Composite LSTM201584.3
    文献[7]动态图像网络(MDI)201670.9
    文献[23]Spatial-C3D201783.6
    本文方法VADMMR201884.67
    下载: 导出CSV
  • 加载中
图(2)表(4)
计量
  • PDF下载量:  42
  • 文章访问数:  646
  • HTML全文浏览量:  428
文章相关
  • 通讯作者:  罗会兰, luohuilan@sina.com
  • 收稿日期:  2018-04-24
  • 录用日期:  2018-11-02
  • 网络出版日期:  2018-11-12
  • 刊出日期:  2019-03-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章