Exploiting Spectro-temporal Structures Using NMF For DNN-based Supervised Speech Separation
Nie S(聂帅)1; Shan Liang1; Hao Li2; XueLiang Zhang2; ZhanLei Yang1; WenJu Liu1
2016-03
会议名称IEEE International Conference on Acoustics, Speech and Signal Processing
会议日期2016-3-20~2016-3-25
会议地点Shanghai, China
摘要

The targets of speech separation, whether ideal masks or magnitude spectrograms of interest, have prominent spectro-temporal structures. These characteristics are very worthy to be exploited for speech separation, however, they are usually ignored in previous works. In this paper, we use nonnegative matrix factorization (NMF) to exploit the spectro-temporal structures of magnitude spectrograms. With nonnegative constrains, NMF can capture the basis spectra patterns of speech and noise. Then the learned basis spectra are integrated into a deep neural network (DNN) to reconstruct the magnitude spectrograms of speech and noise with their nonnegative linear combination. Using the reconstructed spectrograms, we further explore a discriminative training objective and a joint optimization framework for the proposed model. Systematic experiments show that the proposed model is competitive with the previous methods in monaural speech separation tasks.

其他摘要

 

语种英语
文献类型会议论文
条目标识符http://ir.ia.ac.cn/handle/173211/40646
专题多模态人工智能系统全国重点实验室_智能交互
通讯作者Nie S(聂帅)
作者单位1.中国科学院自动化研究所
2.内蒙古大学
第一作者单位中国科学院自动化研究所
通讯作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
Nie S,Shan Liang,Hao Li,et al. Exploiting Spectro-temporal Structures Using NMF For DNN-based Supervised Speech Separation[C],2016.
条目包含的文件 下载所有文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
ICASSP-2016.pdf(357KB)会议论文 开放获取CC BY-NC-SA浏览 下载
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[Nie S(聂帅)]的文章
[Shan Liang]的文章
[Hao Li]的文章
百度学术
百度学术中相似的文章
[Nie S(聂帅)]的文章
[Shan Liang]的文章
[Hao Li]的文章
必应学术
必应学术中相似的文章
[Nie S(聂帅)]的文章
[Shan Liang]的文章
[Hao Li]的文章
相关权益政策
暂无数据
收藏/分享
文件名: ICASSP-2016.pdf
格式: Adobe PDF
此文件暂不支持浏览
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。