高级搜索

基于难分样本挖掘的快速区域卷积神经网络目标检测研究

张烨 许艇 冯定忠 蒋美仙 吴光华

引用本文: 张烨, 许艇, 冯定忠, 蒋美仙, 吴光华. 基于难分样本挖掘的快速区域卷积神经网络目标检测研究[J]. 电子与信息学报, 2019, 41(6): 1496-1502. doi: 10.11999/JEIT180702 shu
Citation:  Ye ZHANG, Ting XU, Dingzhong FENG, Meixian JIANG, Guanghua WU. Research on Faster RCNN Object Detection Based on Hard Example Mining[J]. Journal of Electronics and Information Technology, 2019, 41(6): 1496-1502. doi: 10.11999/JEIT180702 shu

基于难分样本挖掘的快速区域卷积神经网络目标检测研究

    作者简介: 张烨: 男,1973年生,副教授,硕士生导师,研究方向为物联网、深度学习、无线传感器网络的设计与仿真等;
    许艇: 男,1993年生,硕士生,研究方向为计算机视觉、深度学习、物联网技术等;
    冯定忠: 男,1963年生,教授,博士生导师,研究方向为企业智能物流、工业工程技术及应用等;
    蒋美仙: 女,1973年生,副教授,硕士生导师,研究方向为企业物流、系统工程等;
    吴光华: 男,1983年生,讲师,博士,研究方向为智能物流、物联网技术等
    通讯作者: 蒋美仙,1056294025@qq.com
  • 基金项目: 国家自然科学基金(51605442),浙江省科技厅公益项目(LGN18G010002)

摘要: 针对经典的快速区域卷积神经网络(Faster RCNN)训练过程存在太多难训练样本、召回率低等问题,该文采用一种基于在线难分样本挖掘技术(OHEM)与负难分样本挖掘(HNEM)技术相结合的方法,通过训练中实时筛选的最大损失值难分样本进行误差传递,解决了模型对难分样本检测率低问题,提高模型训练效率;为更好地提高模型的召回率和模型的泛化性,该文改进了非极大值抑制(NMS)算法,设置了置信度阈值罚函数,又引入多尺度、数据增强等训练方法。最后通过比较改进前后的结果,经敏感性实验分析表明,该算法在VOC2007数据集上取得了较好效果,平均精度均值从69.9%提升到了74.40%,在VOC2012上从70.4%提升到79.3%,验证了该算法的优越性。

English

    1. [1]

      吕博云. 数字图像处理技术及应用研究[J]. 科技与创新, 2018(2): 146–147. doi: 10.15913/j.cnki.kjycx.2018.02.146
      LÜ Boyun. Research on the technology and application of digital image processing[J]. Science and Technology &Innovation, 2018(2): 146–147. doi: 10.15913/j.cnki.kjycx.2018.02.146

    2. [2]

      王湘新, 时洋, 文梅. CNN卷积计算在移动GPU上的加速研究[J]. 计算机工程与科学, 2018, 40(1): 34–39. doi: 10.3969/j.issn.1007-130X.2018.01.005
      WANG Xiangxin, SHI Yang, and WEN Mei. Accelerating CNN on mobile GPU[J]. Computer Engineering &Science, 2018, 40(1): 34–39. doi: 10.3969/j.issn.1007-130X.2018.01.005

    3. [3]

      胡炎, 单子力, 高峰. 基于Faster-RCNN和多分辨率SAR的海上舰船目标检测[J]. 无线电工程, 2018, 48(2): 96–100. doi: 10.3969/j.issn.1003-3106.2018.02.04
      HU Yan, SHAN Zili, and GAO Feng. Ship detection based on faster-RCNN and multiresolution SAR[J]. Radio Engineering, 2018, 48(2): 96–100. doi: 10.3969/j.issn.1003-3106.2018.02.04

    4. [4]

      GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 580–587. doi: 10.1109/CVPR.2014.81.

    5. [5]

      REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031

    6. [6]

      FELZENSZWALB P, MCALLESTER D, and RAMANAN D. A discriminatively trained, multiscale, deformable part model[C]. Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, USA, 2008: 1–8. doi: 10.1109/CVPR.2008.4587597.

    7. [7]

      YAN Junjie, LEI Zhen, WEN Longyin, et al. The fastest deformable part model for object detection[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 2497–2504.

    8. [8]

      FORSYTH D. Object detection with discriminatively trained part-based models[J]. Computer, 2014, 47(2): 6–7. doi: 10.1109/MC.2014.42

    9. [9]

      DALAL N and TRIGGS B. Histograms of oriented gradients for human detection[C]. Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Diego, USA, 2005: 886–893. doi: 10.1109/CVPR.2005.177.

    10. [10]

      WANG Xiaoyu, HAN T X, and YAN Shuicheng. An HOG-LBP human detector with partial occlusion handling[C]. Proceedings of 2009 IEEE 12th International Conference on Computer Vision, Kyoto, Japan, 2009: 32–39. doi: 10.1109/ICCV.2009.5459207.

    11. [11]

      ERHAN D, SZEGEDY C, TOSHEV A, et al. Scalable object detection using deep neural networks[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 2155–2162. doi: 10.1109/CVPR.2014.276.

    12. [12]

      NEUBECK A and VAN GOOL L. Efficient non-maximum suppression[C]. Proceedings of the 18th International Conference on Pattern Recognition, Hongkong, China, 2006: 850–855. doi: 10.1109/ICPR.2006.479.

    13. [13]

      李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 18–23.
      LI Hang. Statistical Learning Method[M]. Beijing: Tsinghua University Press, 2012: 18–23.

    14. [14]

      周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 23–35.
      ZHOU Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016: 23–35.

    15. [15]

      SUN Changming and VALLOTTON P. Fast linear feature detection using multiple directional non-maximum suppression[J]. Journal of Microscopy, 2009, 234(2): 147–157. doi: 10.1111/jmi.2009.234.issue-2

    1. [1]

      程帅, 孙俊喜, 曹永刚, 刘广文, 韩广良. 多示例深度学习目标跟踪. 电子与信息学报, 2015, 37(12): 2906-2912.

    2. [2]

      董书琴, 张斌. 基于深度特征学习的网络流量异常检测方法. 电子与信息学报, 2019, 41(0): 1-9.

    3. [3]

      程帅, 曹永刚, 孙俊喜, 赵立荣, 刘广文, 韩广良. 基于增强群跟踪器和深度学习的目标跟踪. 电子与信息学报, 2015, 37(7): 1646-1653.

    4. [4]

      侯志强, 王鑫, 余旺盛, 戴铂, 金泽芬芬. 基于自适应深度稀疏网络的在线跟踪算法. 电子与信息学报, 2017, 39(5): 1079-1087.

    5. [5]

      焦亚萌, 黄建国, 侯云山. 一种基于峰均功率比的信源个数检测新方法. 电子与信息学报, 2011, 33(7): 1589-1593.

    6. [6]

      冯浩, 黄坤, 李晶, 高榕, 刘东华, 宋成芳. 基于深度学习的混合兴趣点推荐算法. 电子与信息学报, 2019, 41(4): 880-887.

    7. [7]

      李彩林, 张青华, 陈文贺, 江晓斌, 袁斌, 杨长磊. 基于深度学习的绝缘子定向识别算法. 电子与信息学报, 2019, 41(0): 1-8.

    8. [8]

      文成林, 吕菲亚. 基于深度学习的故障诊断方法综述. 电子与信息学报, 2020, 42(1): 234-248.

    9. [9]

      张淑军, 张群, 李辉. 基于深度学习的手语识别综述. 电子与信息学报, 2020, 42(0): 1-13.

    10. [10]

      侯斐斐, 施荣华, 雷文太, 董健, 许孟迪, 席景春. 面向探地雷达 B-scan图像的目标检测算法综述. 电子与信息学报, 2020, 42(1): 191-200.

    11. [11]

      孙志军, 薛磊, 许阳明. 基于深度学习的边际Fisher分析特征提取算法. 电子与信息学报, 2013, 35(4): 805-811.

    12. [12]

      李寰宇, 毕笃彦, 杨源, 查宇飞, 覃兵, 张立朝. 基于深度特征表达与学习的视觉跟踪算法研究. 电子与信息学报, 2015, 37(9): 2033-2039.

    13. [13]

      智洪欣, 于洪涛, 李邵梅, 高超, 王艳川. 一种基于深度度量学习的视频分类方法. 电子与信息学报, 2018, 40(11): 2562-2569.

    14. [14]

      吴泽民, 王军, 胡磊, 田畅, 曾明勇, 杜麟. 基于卷积神经网络与全局优化的协同显著性检测. 电子与信息学报, 2018, 40(12): 2896-2904.

    15. [15]

      李如玮, 李涛, 孙晓月, 杨登才, 王琪. 基于时频单元选择的双耳目标声源定位. 电子与信息学报, 2019, 41(12): 2932-2938.

    16. [16]

      侯志强, 戴铂, 胡丹, 余旺盛, 陈晨, 范舜奕. 基于感知深度神经网络的视觉跟踪. 电子与信息学报, 2016, 38(7): 1616-1623.

    17. [17]

      孙锐, 张广海, 高隽. 基于深度分层特征表示的行人识别方法. 电子与信息学报, 2016, 38(6): 1528-1535.

    18. [18]

      杨宏宇, 王峰岩. 基于深度卷积神经网络的气象雷达噪声图像语义分割方法. 电子与信息学报, 2019, 41(10): 2373-2381.

    19. [19]

      王星, 周一鹏, 周东青, 陈忠辉, 田元荣. 基于深度置信网络和双谱对角切片的低截获概率雷达信号识别. 电子与信息学报, 2016, 38(11): 2972-2976.

    20. [20]

      唐伦, 赵培培, 赵国繁, 陈前斌. 基于深度信念网络资源需求预测的虚拟网络功能动态迁移算法. 电子与信息学报, 2019, 41(6): 1397-1404.

  • 图 1  增设的OHEM模块

    图 2  经典非极大值抑制存在的问题

    图 3  改进前后损失曲线与召回率的表现

    图 4  敏感性分析实验

    表 1  负难分样本挖掘参数设置

    参数名称代表含义参数取值
    FG_THRESH正样本IoU阈值[0.7, 1.0]
    BG_THRESH_LO负样本IoU阈值[0, 0.5)
    HNEM_NMS_THRESH非极大值抑制阈值0.7
    HNEM_BATCHSIZE图片目标批次大小64
    RPN_FG_FRACTION正样本比例0.25
    RPN_BG_FRACTION负样本比例0.75
    下载: 导出CSV

    表 2  在线样本挖掘参数设置

    参数名称代表含义参数取值
    ITERS每次迭代个数1
    OHEM_ROI_POOL5在线样本兴趣池化7×7
    OHEM_FC6在线样本全连接层4096
    OHEM_RELU6在线样本激活操作
    OHEM_FC7在线样本全连接层4096
    OHEM_RELU7在线样本激活操作
    OHEM_CLS_SCORE在线样本分类数21
    OHEM_CLS_PRED在线样本边框矩阵84
    OHEM在线样本处理模块OHEMData
    下载: 导出CSV

    表 3  改进的非极大值抑制算法

     输入:候选边框集合$B = \left\{ {{{{b}}_1}, {{{b}}_2}, ·\!·\!·, {{{b}}_{{N}}}} \right\}$,置信度集合
    $S = \left\{ {{{{s}}_1}, {{{s}}_2}, ·\!·\!·, {{{s}}_{{N}}}} \right\}$, IoU阈值${N_{\rm t}}$
     循环操作:
     最优框$D \leftarrow \left\{ {} \right\}$
     While $B \ne {\rm Null}$ do
      $m \leftarrow \arg {\rm Max}\ \left( S \right)$
      $M \leftarrow {b_m}$
      $D \leftarrow D \cup M;B \leftarrow B - M$
      for ${{{b}}_{{i}}}$ in $B$ do
       If ${\rm{IoU}}\left( {M, {{{b}}_{{i}}}} \right) \ge {N_{\rm t}}$ then
         ${\rm weight} = {\rm Method}\left( {1 - 3} \right)$
         ${{{s}}_{{i}}} \leftarrow {{{s}}_{{i}}} * {\rm weight}$
         If ${{{s}}_{{i}}} \le {\rm threshold}$
           $B \leftarrow B - {{{b}}_{{i}}}$
         End
       End
      End
     End
     输出最终结果:$D$, $S$
    下载: 导出CSV

    表 4  在线样本挖掘等实验mAP指标结果

    类别birdboatbottlebuscarchaircowtabledoghorsepersonplantsheepsofatrainmAP
    FRCNN68.554.750.678.180.250.774.665.581.383.775.738.370.667.180.769.9
    ohem_fc69.257.946.581.879.147.976.268.983.280.872.739.967.566.275.669.9
    ohem1: 171.154.652.379.781.350.374.366.880.783.776.740.970.068.277.670.4
    ohem1: 1071.858.553.279.382.952.281.270.081.483.277.943.771.967.175.071.7
    ohem1: 372.257.856.680.884.053.877.568.082.284.077.643.270.968.479.472.1
    数据增强69.862.055.280.283.654.580.367.280.785.078.044.670.869.479.072.5
    NMS-线74.564.457.880.084.357.480.870.183.283.781.348.371.968.479.474.1
    NMS-高74.764.058.580.584.556.981.570.183.884.281.547.871.569.179.674.3
    NMS-指73.763.756.979.683.956.580.769.482.882.780.848.070.566.879.273.3
    Lr-调整75.863.357.681.184.756.583.170.684.885.281.247.871.668.679.174.4
    12+ohem76.864.861.485.084.159.982.661.988.585.286.956.779.567.585.477.5
    12+ohem*78.165.055.484.984.062.183.667.391.388.985.654.783.877.388.379.3
    下载: 导出CSV
  • 加载中
图(4)表(4)
计量
  • PDF下载量:  38
  • 文章访问数:  785
  • HTML全文浏览量:  302
文章相关
  • 通讯作者:  蒋美仙, 1056294025@qq.com
  • 收稿日期:  2018-07-13
  • 录用日期:  2019-01-28
  • 网络出版日期:  2019-02-18
  • 刊出日期:  2019-06-01
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章