高级搜索

基于多模态生成对抗网络和三元组损失的说话人识别

陈莹 陈湟康

引用本文: 陈莹, 陈湟康. 基于多模态生成对抗网络和三元组损失的说话人识别[J]. 电子与信息学报, doi: 10.11999/JEIT190154 shu
Citation:  Ying CHEN, Huangkang CHEN. Speaker Recognition Based on Multimodal GenerativeAdversarial Nets with Triplet-loss[J]. Journal of Electronics and Information Technology, doi: 10.11999/JEIT190154 shu

基于多模态生成对抗网络和三元组损失的说话人识别

    作者简介: 陈莹: 女,1976年生,教授,博士,研究方向为信息融合、模式识别;
    陈湟康: 男,1994年生,硕士生,研究方向为说话人识别
    通讯作者: 陈莹,chenying@jiangnan.edu.cn
  • 基金项目: 国家自然科学基金(61573168)

摘要: 为了挖掘说话人识别领域中人脸和语音的相关性,该文设计多模态生成对抗网络(GAN),将人脸特征和语音特征映射到联系更加紧密的公共空间,随后利用3元组损失对两个模态的联系进一步约束,拉近相同个体跨模态样本的特征距离,拉远不同个体跨模态样本的特征距离。最后通过计算公共空间特征的跨模态余弦距离判断人脸和语音是否匹配,并使用Softmax识别说话人身份。实验结果表明,该方法能有效地提升说话人识别准确率。

English

    1. [1]

      BREDIN H and CHOLLET G. Audio-visual speech synchrony measure for talking-face identity verification[C]. Proceedings of 2007 IEEE International Conference on Acoustics, Speech and Signal Processing, Honolulu, USA, 2007: Ⅱ-233–Ⅱ-236.

    2. [2]

      HAGHIGHAT M, ABDEL-MOTTALEB M, and ALHALABI W. Discriminant correlation analysis: Real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(9): 1984–1996. doi: 10.1109/TIFS.2016.2569061

    3. [3]

      CHENG H T, CHAO Y H, YEH S L, et al. An efficient approach to multimodal person identity verification by fusing face and voice information[C]. 2005 IEEE International Conference on Multimedia and Expo, Amsterdam, Netherlands, 2005: 542–545.

    4. [4]

      SOLTANE M, DOGHMANE N, and GUERSI N. Face and speech based multi-modal biometric authentication[J]. International Journal of Advanced Science and Technology, 2010, 21(6): 41–56.

    5. [5]

      HU Yongtao, REN J S J, DAI Jingwen, et al. Deep multimodal speaker naming[C]. Proceedings of the 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 1107–1110.

    6. [6]

      GENG Jiajia, LIU Xin, and CHEUNG Y M. Audio-visual speaker recognition via multi-modal correlated neural networks[C]. 2016 IEEE/WIC/ACM International Conference on Web Intelligence Workshops, Omaha, USA, 2016: 123–128.

    7. [7]

      REN J, HU Yongtao, TAI Y W, et al. Look, listen and learn-a multimodal LSTM for speaker identification[C]. The 30th AAAI Conference on Artificial Intelligence, Phoenix, USA, 2016: 3581–3587.

    8. [8]

      LIU Yuhang, LIU Xin, FAN Wentao, et al. Efficient audio-visual speaker recognition via deep heterogeneous feature fusion[C]. The 12th Chinese Conference on Biometric Recognition, Shenzhen, China, 2017: 575–583.

    9. [9]

      GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. The 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680.

    10. [10]

      唐贤伦, 杜一铭, 刘雨微, 等. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018, 44(5): 855–864.
      TANG Xianlun, DU Yiming, LIU Yuwei, et al. Image recognition with conditional deep convolutional generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 855–864.

    11. [11]

      孙亮, 韩毓璇, 康文婧, 等. 基于生成对抗网络的多视图学习与重构算法[J]. 自动化学报, 2018, 44(5): 819–828.
      SUN Liang, HAN Yuxuan, KANG Wenjing, et al. Multi-view learning and reconstruction algorithms via generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 819–828.

    12. [12]

      郑文博, 王坤峰, 王飞跃. 基于贝叶斯生成对抗网络的背景消减算法[J]. 自动化学报, 2018, 44(5): 878–890.
      ZHENG Wenbo, WANG Kunfeng, and WANG Feiyue. Background subtraction algorithm with Bayesian generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 878–890.

    13. [13]

      RADFORD A, METZ L, and CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv: 1511.06434 , 2015.

    14. [14]

      DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]. The 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 1486–1494.

    15. [15]

      LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 105–114.

    16. [16]

      WANG Xiaolong and GUPTA A. Generative image modeling using style and structure adversarial networks[C]. The 14th European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 318–335.

    17. [17]

      PENG Yuxin and QI Jinwei. CM-GANs: Cross-modal generative adversarial networks for common representation learning[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2019, 15(1): 22.

    18. [18]

      HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212–223.

    1. [1]

      李健伟, 曲长文, 彭书娟, 江源. 基于生成对抗网络和线上难例挖掘的SAR图像舰船目标检测. 电子与信息学报,

    2. [2]

      梁春燕, 袁文浩, 李艳玲, 夏斌, 孙文珠. 基于判别邻域嵌入算法的说话人识别. 电子与信息学报,

    3. [3]

      罗会兰, 卢飞, 严源. 跨层融合与多模型投票的动作识别. 电子与信息学报,

    4. [4]

      冯维, 徐永鑫, 刘浩, 许晓荣, 姚英彪. 无线多跳网络快速跨层资源优化分配算法. 电子与信息学报,

    5. [5]

      钱亚冠, 卢红波, 纪守领, 周武杰, 吴淑慧, 云本胜, 陶祥兴, 雷景生. 基于粒子群优化的对抗样本生成算法. 电子与信息学报,

    6. [6]

      刘政怡, 段群涛, 石松, 赵鹏. 基于多模态特征融合监督的RGB-D图像显著性检测. 电子与信息学报,

    7. [7]

      盖杉, 鲍中运. 基于改进深度卷积神经网络的纸币识别研究. 电子与信息学报,

    8. [8]

      贺丰收, 何友, 刘准钆, 徐从安. 卷积神经网络在雷达自动目标识别中的研究进展. 电子与信息学报,

    9. [9]

      谢湘, 张立强, 王晶. 残差网络在婴幼儿哭声识别中的应用. 电子与信息学报,

    10. [10]

      费高雷, 张亚萌, 胡志宇, 周磊, 胡光岷. 基于网络结构特征的IP所属区域识别. 电子与信息学报,

    11. [11]

      郭晨, 简涛, 徐从安, 何友, 孙顺. 基于深度多尺度一维卷积神经网络的雷达舰船目标识别. 电子与信息学报,

    12. [12]

      寇广, 王硕, 张达. 基于深度堆栈编码器和反向传播算法的网络安全态势要素识别. 电子与信息学报,

    13. [13]

      黄宏程, 刘宁, 胡敏, 陶洋, 寇兰. 基于博弈的机器人认知情感交互模型. 电子与信息学报,

    14. [14]

      王进, 王科, 闵子剑, 孙开伟, 邓欣. 基于迁移权重的条件对抗领域适应. 电子与信息学报,

    15. [15]

      陈鸿昶, 吴彦丞, 李邵梅, 高超. 基于行人属性分级识别的行人再识别. 电子与信息学报,

    16. [16]

      金梁, 蔡奥林, 黄开枝, 钟州, 楼洋明. 基于多随机信号流的密钥生成方案. 电子与信息学报,

    17. [17]

      郭一鸣, 彭华. 成对载波多址复用混合信号非合作接收单通道盲分离性能界. 电子与信息学报,

    18. [18]

      桑海峰, 陈紫珍. 基于双向门控循环单元的3D人体运动预测. 电子与信息学报,

    19. [19]

      刘焕淋, 方菲, 陈勇, 向敏, 马跃. 基于无色无向无冲突可重构光分插复用器节点的全光IP组播能效调度. 电子与信息学报,

    20. [20]

      涂开辉, 黄志洪, 侯峥嵘, 杨海钢. 基于配置模式匹配和层次化映射结构的高效FPGA码流生成系统研究. 电子与信息学报,

  • 图 1  本文所提网络结构图

    图 2  不同margin值的ROC

    图 3  不同阈值的识别结果

    图 4  是否具有公共层的ROC曲线对比

    图 5  有无特征匹配判断网络识别结果对比

    表 1  不同特征的身份识别准确率(%)

    特征ID识别准确率
    语音公共特征95.57
    人脸公共特征99.41
    串联特征99.59
    下载: 导出CSV

    表 2  说话人身份识别准确率(%)

    方法ID识别准确率匹配准确率
    Multimodal Correlated NN[6]83.26
    Multimodal CNN[5]86.12
    Multimodal LSTM[7]90.1594.35
    Deep Heterogeneous Feature Fusion.[8]97.80
    本文AVGATN99.4199.02
    下载: 导出CSV
  • 加载中
图(5)表(2)
计量
  • PDF下载量:  12
  • 文章访问数:  613
  • HTML全文浏览量:  178
文章相关
  • 通讯作者:  陈莹, chenying@jiangnan.edu.cn
  • 收稿日期:  2019-03-15
  • 录用日期:  2019-09-09
  • 网络出版日期:  2019-09-19
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章