CASIA OpenIR  > 毕业生  > 博士学位论文
基于变换域分析的噪声鲁棒声源定位方法研究及无人车应用
其他题名Research on Noise Robust Direction of Arrival Estimation Based on Transform Domain Analysis and Application on the Intelligent Vehicle
雪巍
学位类型工学博士
导师刘文举
2015-05-30
学位授予单位中国科学院大学
学位授予地点中国科学院自动化研究所
学位专业模式识别与智能系统
关键词麦克风阵列 声源定位 空间声学 变换域分析 噪声 无人驾驶汽车 Directional Of Arrival Microphone Arrays Spatial Audio Transform Domain Analysis Noise Intelligent Vehicle
摘要声源的方位信息对诸多智能音频系统具有重要价值。例如,智能摄像机可根据声源方位自动转向,基于麦克风阵列的语音增强系统可设计指向语音方位的空间滤波器,无人驾驶汽车可根据说话人方位确定语音指令的发送者,并根据外部声源方位辨识所处交通环境。通常可以利用麦克风阵列估计目标声源方位。然而,现实环境中的噪声给鲁棒声源定位带来了巨大挑战。 本论文在认真总结现有声源定位方法的基础上,深入分析现实环境中的噪声特点,从变换域分析的角度出发,提出了一系列在不同变换域上噪声鲁棒的声源定位理论和方法。此外,针对无人驾驶汽车的特定应用场景,设计制作了车外声源定位软硬件原型系统,并进行了若干实验验证。本文的主要工作和创新点如下: (1)针对低信噪比无向噪声条件下的声源定位问题,在听觉谱域,提出了基于听觉谱子带加权的声源定位算法。由于目标音频和背景噪声具有不同的频率分布特性,目标音频的各个频带受噪声干扰的程度不尽相同。假设背景噪声的频带分布较为平坦,那么能量较大的频带被认为包含更多的目标音频。因此在各个子频带上分别计算声源定位结果,并提高目标音频子带计算结果的权重,可以降低背景噪声的干扰。实验表明,该算法取得了比传统算法更好的性能。 (2)针对强方向性干扰声源存在时声源定位问题,在时频域,提出了融合历史信息和短时频谱相关性的声源定位算法。声源定位是逐帧持续过程,历史定位信息为提高声源定位的性能提供了可能性。参考历史定位结果,通过“后波束形成”可以得到抑制干扰源、增强目标音频的信号。进而,利用语音的短时频谱相关性,计算得到用于估计当前帧声源位置的时频单元权重。最后,提出了一种基于频域加权空间相关矩阵的代价函数,以利用该时频单元权重进行干扰源鲁棒的声源定位。实验结果表明,在强干扰源存在时,该算法可以取得比传统算法更加稳定和精确的定位结果。 (3)同时针对无向噪声和有向干扰源下的声源定位问题,在双谱域,提出了基于双谱加权空间相关矩阵的声源定位算法。双谱是一种高阶统计量,由于高斯信号的高阶统计量为零,该方法理论上消除了高斯噪声的影响。此外,利用通道间双谱相位差的冗余性,可以提高宽带非高斯噪声环境下的声源定位性能。本方法将双谱相位差集成到双谱加权空间相关矩阵的数学框架内,通过决策导向的方法,计算双谱权重,以加强语音主导双谱单元的作用。最终通过对双谱加权空间相关矩阵特征值分析,找到目标声源方位。在不同噪声环境下的实验结果表明,该算法明显改善了强噪声环境下声源定位的精度,并取得了更低的均方误差。 (4)无人车车外声源定位原型系统的制作和实验验证。针对交通环境下无人车对车外警笛声源的定位问题,本工作设计并制作了基于USB2.0和FPGA 框架的麦克风阵列硬件系统,并编制了相应的下位机与上位机软件程序。此外,采用该原型系统采集了交通环境警报声的实际数据,并基于所提出的频域加权空间相关矩阵,利用警报声的长时时频相关性,设计频带权重,最终估计声源方位。实际数据下的测试结果表明,所采用的算法能够根据原型系统的实测数据,有效...
其他摘要The direction of arrival (DOA) of the sound source is essential to many intelligent speech signal processing systems. For instance, the video camera can automatically steer its direction to the active speaker when the speaker's direction is known; a beamfomer, which is a spatial filter, can be designed to enhance the signal from the speech direction while suppressing the signals from other directions; also, the intelligent vehicle can determine the sender of a speech command according to the estimated speech DOA, or perceive its surrounding environment by exploiting the DOA information of the sound sources outside the vehicle. Usually, a microphone array, which is composed by a set of microphones with an specific geometry, can be used for DOA estimation. However, the noise, which appears almost everywhere in the real world, brings great challenges to high-performance DOA estimation. In this thesis, based on the comprehensive investigation on the state-of-art DOA estimation methods, by analyzing the properties of the noise in real world conditions, we study the noise robust DOA estimation problem in different transform domains. A series of algorithms have been proposed, which utilizes the advantages of representing the speech signal in different transform domains to improve the robustness in noisy environments. Moreover, with respect to the application of DOA estimation to the intelligent vehicle, we have designed and made the microphone array DOA estimation prototype system, and tested the DOA estimation performance using real recordings. The main contributions and novelties of this thesis work include: (1) For the nondirectional low signal-to-noise(SNR) noise conditions, in the auditory spectrum domain, we propose a DOA estimation method based on sub-band weighting. As the target speech and the noise have different frequency distributions, different sub-bands of speech are not equally effected by the noise. Assuming that the noise signal has a flatter energy distribution over different sub-bands than the speech, then the sub-bands with high energies can be considered to contain more speech components. Therefore, it can be expected that by performing DOA estimation in each sub-band, and emphasizing the estimation results in speech bands, the robustness of the algorithm against the noise can be improved. The experiments in different undirected noisy environments show that the proposed method can achieve better performance than the conventional method...
其他标识符201218014628073
语种中文
文献类型学位论文
条目标识符http://ir.ia.ac.cn/handle/173211/6736
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
雪巍. 基于变换域分析的噪声鲁棒声源定位方法研究及无人车应用[D]. 中国科学院自动化研究所. 中国科学院大学,2015.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
CASIA_20121801462807(6711KB) 暂不开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[雪巍]的文章
百度学术
百度学术中相似的文章
[雪巍]的文章
必应学术
必应学术中相似的文章
[雪巍]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。