高级搜索

基于时频单元选择的双耳目标声源定位

李如玮 李涛 孙晓月 杨登才 王琪

引用本文: 李如玮, 李涛, 孙晓月, 杨登才, 王琪. 基于时频单元选择的双耳目标声源定位[J]. 电子与信息学报, doi: 10.11999/JEIT181127 shu
Citation:  Ruwei LI, Tao LI, Xiaoyue SUN, Dengcai YANG, Qi WANG. Binaural Target Sound Source Localization Based on Time-frequency Units Selection[J]. Journal of Electronics and Information Technology, doi: 10.11999/JEIT181127 shu

基于时频单元选择的双耳目标声源定位

    作者简介: 李如玮: 女,1972年生,博士,副教授,硕士生导师,研究方向为语音信号处理;
    李涛: 男,1994年生,硕士生,研究方向为语音信号处理;
    孙晓月: 女,1995年生,硕士生,研究方向为语音信号处理;
    杨登才: 男,1978年生,博士,副研究员,信号与光信号处理;
    王琪: 女,1991年生,在站博士后,研究方向为语音信号处理
    通讯作者: 李如玮,liruwei@bjut.edu.cn
  • 基金项目: 国家自然科学基金(51477028),北京市教委科技计划面上项目(KM201510005007)

摘要: 针对复杂声学环境下,现有目标声源定位算法精度低的问题,该文提出了一种基于时频单元选择的双耳目标声源定位算法。该算法首先利用双耳目标声源的频谱特征训练1个基于深度学习的时频单元选择模型,然后使用时频单元选择器从双耳输入信号中提取可靠的时频单元,减少非目标时频单元对定位精度的负面影响。同时,基于深度神经网络的定位系统将双耳空间线索映射到方位角的后验概率。最后,依据与可靠时频单元相对应的后验概率完成目标语音的声源定位。实验结果表明,该算法在低信噪比和各种混响环境,特别是存在与目标声源类似的噪声环境下目标声源的定位精度得到明显改善,性能优于对比算法。

English

    1. [1]

      MAY T, VAN DE PAR S, and KOHLRAUSCH A. A probabilistic model for robust localization based on a binaural auditory front-end[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(1): 1–13. doi: 10.1109/TASL.2010.2042128

    2. [2]

      李如玮, 潘冬梅, 张爽, 等. 基于Gammatone滤波器分解的HRTF和GMM的双耳声源定位算法[J]. 北京工业大学学报, 2018, 44(11): 1385–1390. doi: 10.11936/bjutxb2017090015
      LI Ruwei, PAN Dongmei, ZHANG Shuang, et al. Binaural sound source localization algorithm based on HRTF and GMM Under Gammatone filter decomposition[J]. Journal of Beijing University of Technology, 2018, 44(11): 1385–1390. doi: 10.11936/bjutxb2017090015

    3. [3]

      WOODRUFF J and WANG Deliang. Binaural localization of multiple sources in reverberant and noisy environments[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(5): 1503–1512. doi: 10.1109/TASL.2012.2183869

    4. [4]

      MA Ning, MAY T, and BROWN G J. Exploiting deep neural networks and head movements for robust binaural localization of multiple sources in reverberant environments[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(12): 2444–2453. doi: 10.1109/TASLP.2017.2750760

    5. [5]

      MA Ning, GONZALEZ J A, and BROWN G J. Robust binaural localization of a target sound source by combining spectral source models and deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2122–2131. doi: 10.1109/TASLP.2018.2855960

    6. [6]

      WANG Yuxuan, HAN Kun, and WANG Deliang. Exploring monaural features for classification-based speech segregation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(2): 270–279. doi: 10.1109/TASL.2012.2221459

    7. [7]

      JIANG Yi, WANG Deliang, LIU Runsheng, et al. Binaural classification for reverberant speech segregation using deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12): 2112–2121. doi: 10.1109/TASLP.2014.2361023

    8. [8]

      ZHANG Xueliang and WANG Deliang. Deep learning based binaural speech separation in reverberant environments[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(5): 1075–1084. doi: 10.1109/TASLP.2017.2687104

    9. [9]

      WANG Deliang and CHEN Jitong. Supervised speech separation based on deep learning: An overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1702–1726. doi: 10.1109/TASLP.2018.2842159

    10. [10]

      WIERSTORF H, GEIER M, and SPORS S. A free database of head related impulse response measurements in the horizontal plane with multiple distances[C]. Proceedings of the Audio Engineering Society Convention 130, Berlin, Germany, 2011.

    11. [11]

      HUMMERSONE C, MASON R, and BROOKES T. Dynamic precedence effect modeling for source separation in reverberant environments[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(7): 1867–1871. doi: 10.1109/TASL.2010.2051354

    12. [12]

      MA Ning, BROWN G J, and GONZALEZ J A. Exploiting top-down source models to improve binaural localisation of multiple sources in reverberant environments[C]. Proceedings of the 16th Annual Conference of the International Speech Communication Association, Dresden, Germany, 2015: 160–164.

    13. [13]

      COOKE M, BARKER J, CUNNINGHAM S, et al. An audio-visual corpus for speech perception and automatic speech recognition[J]. The Journal of the Acoustical Society of America, 2006, 120(5): 2421–2424. doi: 10.1121/1.2229005

    14. [14]

      MAY T, MA Ning, and BROWN G J. Robust localisation of multiple speakers exploiting head movements and multi-conditional training of binaural cues[C]. Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing, Brisbane, Australia, 2015: 2679–2683.

    15. [15]

      MAY T. Robust speech dereverberation with a neural network-based post-filter that exploits multi-conditional training of binaural cues[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(2): 406–414. doi: 10.1109/TASLP.2017.2765819

    1. [1]

      冯浩, 黄坤, 李晶, 高榕, 刘东华, 宋成芳. 基于深度学习的混合兴趣点推荐算法. 电子与信息学报,

    2. [2]

      桑海峰, 陈紫珍. 基于双向门控循环单元的3D人体运动预测. 电子与信息学报,

    3. [3]

      张烨, 许艇, 冯定忠, 蒋美仙, 吴光华. 基于难分样本挖掘的快速区域卷积神经网络目标检测研究. 电子与信息学报,

    4. [4]

      董书琴, 张斌. 基于深度特征学习的网络流量异常检测方法. 电子与信息学报,

    5. [5]

      杨宏宇, 王峰岩. 基于深度卷积神经网络的气象雷达噪声图像语义分割方法. 电子与信息学报,

    6. [6]

      唐伦, 赵培培, 赵国繁, 陈前斌. 基于深度信念网络资源需求预测的虚拟网络功能动态迁移算法. 电子与信息学报,

    7. [7]

      袁野, 贾克斌, 刘鹏宇. 基于深度卷积神经网络的多元医学信号多级上下文自编码器. 电子与信息学报,

    8. [8]

      谢湘, 张立强, 王晶. 残差网络在婴幼儿哭声识别中的应用. 电子与信息学报,

    9. [9]

      陈鸿昶, 吴彦丞, 李邵梅, 高超. 基于行人属性分级识别的行人再识别. 电子与信息学报,

    10. [10]

      郝本建, 王林林, 李赞, 赵越. 面向TDOA被动定位的定位节点选择方法. 电子与信息学报,

    11. [11]

      兰巨龙, 于倡和, 胡宇翔, 李子勇. 基于深度增强学习的软件定义网络路由优化机制. 电子与信息学报,

    12. [12]

      王鑫, 李可, 宁晨, 黄凤辰. 基于深度卷积神经网络和多核学习的遥感图像分类方法. 电子与信息学报,

    13. [13]

      刘政怡, 徐天泽. 基于优化的极限学习机和深度层次的RGB-D显著检测. 电子与信息学报,

    14. [14]

      王斐, 吴仕超, 刘少林, 张亚徽, 魏颖. 基于脑电信号深度迁移学习的驾驶疲劳检测. 电子与信息学报,

    15. [15]

      郭晨, 简涛, 徐从安, 何友, 孙顺. 基于深度多尺度一维卷积神经网络的雷达舰船目标识别. 电子与信息学报,

    16. [16]

      尹柏强, 王署东, 何怡刚, 佐磊, 李兵, 程珍. 基于快速S变换时频空间模型的电磁干扰复杂度评估方法. 电子与信息学报,

    17. [17]

      曾芳玲, 欧阳晓凤, 徐浩, 吕大千. 基于时频融合的长码直接捕获优化算法研究. 电子与信息学报,

    18. [18]

      李世宝, 王升志, 刘建航, 黄庭培, 张鑫. 基于接收信号强度非齐性分布特征的半监督学习室内定位指纹库构建. 电子与信息学报,

    19. [19]

      余东平, 郭艳, 李宁, 刘杰, 杨思星. 基于多维测量信息的压缩感知多目标无源被动定位算法. 电子与信息学报,

    20. [20]

      余东平, 郭艳, 李宁, 杨思星, 宋晓祥. 压缩感知多目标无源定位中的字典适配方法. 电子与信息学报,

  • 图 1  本文算法原理框图

    表 1  房间特性参数

    房间ABCD
    T60(s)0.320.470.680.89
    DRR(dB)6.095.318.826.12
    下载: 导出CSV

    表 2  噪声类型与描述

    噪声噪声描述
    symphony弦乐器的声音,频率范围分布较广且与目标语音频率范围重叠
    baby与目标语音相比有更高的共振峰,且频率范围重叠
    babble随机选取于TIMIT数据集的32条语音混合形成,与目标语音频谱类似
    alarm信号能量大部分集中于2 kHz左右的窄带噪声
    telephone窄带噪声,能量集中于1 kHz与2 kHz附近
    white白噪声,能量在整个频带内均匀分布
    下载: 导出CSV

    表 3  目标声源定位精度

    噪声信噪比(dB)房间A(%)房间B(%)房间C(%)房间D(%)
    对比
    算法1
    对比
    算法2
    本文
    算法
    对比
    算法1
    对比
    算法2
    本文
    算法
    对比
    算法1
    对比
    算法2
    本文
    算法
    对比
    算法1
    对比
    算法2
    本文
    算法
    symphony 6 85.3 97.9 96.8 83.2 97.8 98.0 82.1 100.0 97.9 85.3 98.9 98.8
    0 69.8 95.7 96.8 71.6 96.8 97.9 78.8 96.8 96.8 74.7 98.9 96.9
    –6 40.0 90.5 92.6 35.3 88.4 94.7 57.7 92.6 96.8 51.2 93.3 96.8
    –12 13.7 64.8 77.9 8.4 55.2 72.9 11.6 67.1 75.8 21.1 70.7 76.8
    baby 6 94.7 100.0 100.0 94.8 97.9 98.9 92.6 93.7 100.0 94.8 100.0 100.0
    0 83.1 97.9 100.0 88.7 97.4 100.0 84.6 95.8 100.0 89.5 97.9 100.0
    –6 75.7 95.2 96.8 80.6 92.6 95.8 79.8 92.6 94.9 80.0 94.7 97.9
    –12 56.8 73.7 87.4 61.1 78.9 85.7 71.6 80.5 87.4 74.7 81.5 91.2
    babble 6 81.1 92.6 98.9 85.2 93.7 100.0 82.1 89.5 97.9 85.3 94.7 97.8
    0 66.2 87.4 97.8 68.7 88.4 97.9 73.6 88.4 98.6 72.5 92.6 98.9
    –6 47.6 64.2 87.5 44.2 57.9 78.7 60.5 72.2 88.4 61.2 76.8 87.6
    –12 44.5 58.2 67.4 34.7 53.4 75.7 57.9 64.7 71.6 52.6 61.2 78.9
    alarm 6 95.8 100.0 98.9 94.7 100.0 97.9 91.6 98.9 94.7 94.7 98.9 98.9
    0 89.7 98.9 98.9 87.4 96.8 97.9 84.2 97.9 94.7 90.5 98.9 98.9
    –6 69.9 93.7 95.8 63.9 94.7 95.8 66.1 94.7 95.3 86.8 95.2 95.8
    –12 21.1 86.3 84.2 30.5 85.2 91.6 43.2 83.2 88.4 64.2 85.3 83.2
    telephone 6 69.5 100.0 98.9 75.8 100.0 98.7 70.5 100 100.0 83.2 100.0 100.0
    0 48.3 91.5 91.6 52.4 99.1 97.8 46.9 95.8 96.8 62.4 97.9 98.9
    –6 29.5 88.4 89.5 25.1 84.7 89.1 26.2 88.7 91.6 41.3 90.5 92.6
    –12 16.8 77.6 88.4 10.5 81.1 86.7 14.7 77.9 89.7 21.1 84.2 85.9
    white 6 64.2 85.3 89.5 60.0 90.5 95.8 54.7 84.2 84.2 66.3 83.2 93.7
    0 41.1 78.9 82.1 38.9 82.1 83.2 26.3 76.8 83.2 45.3 82.6 86.4
    –6 18.9 48.7 61.1 16.8 44.2 64.2 5.3 31.9 59.6 19.5 41.1 57.9
    –12 10.5 18.9 44.2 7.4 14.7 35.9 2.1 7.4 12.6 8.4 13.7 27.4
    下载: 导出CSV
  • 加载中
图(1)表(3)
计量
  • PDF下载量:  14
  • 文章访问数:  484
  • HTML全文浏览量:  448
文章相关
  • 通讯作者:  李如玮, liruwei@bjut.edu.cn
  • 收稿日期:  2018-12-06
  • 录用日期:  2019-05-21
  • 网络出版日期:  2019-06-04
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

/

返回文章