为研究信号相关性在语音情感识别中的作用,提出了一种面向语音情感识别的语谱图特征提取算法.首先,对语谱图进行处理,得到归一化后的语谱图灰度图像;然后,计算不同尺度、不同方向的Gabor图谱,并采用局部二值模式提取Gabor图谱的纹理特征;最后,将不同尺度、不同方向Gabor图谱提取到的局部二值模式特征进行级联,作为一种新的语音情感特征进行情感识别.柏林库(EMO-DB)及FAU Ai Bo库上的实验结果表明:与已有的韵律、频域、音质特征相比,所提特征的识别率提升3%以上;与声学特征融合后,所提特征的识别率较早期声学特征至少提高5%.因此,利用这种新的语音情感特征可以有效识别不同种类的情感语音.
声源定位技术是语音增强、语音识别技术的前提和基础。基于麦克风阵列的声源定位技术已经成为一大研究热点,其广阔的应用前景得到了广泛的关注。本文提出基于变步长标准最小均方差VLMS(Variable Step Size Least Mean Square)的声源定位算法。该算法利用VLMS算法自适应估计声源到麦克风的脉冲响应系数,进而估计出各麦克风之间时延,并利用几何方法定位声源在3D空间的位置。此外,本文设计了基于Cortex-A8嵌入式平台的声源定位系统,并进行了相应的硬件选型与调试及算法移植工作。实时实验显示,本系统的方案合理有效,能够较好的实现声源定位。
针对助听器回声路径快速变化下易产生啸叫的问题,本文提出一种变步长标准最小均方差-陷波器(Variable Step Normalized least mean square-Notch Filter,VSN-NF)算法。在回声路径相对稳定时,提出一种基于状态分类的变步长标准最小均方差算法来估计回声信号。算法根据滤波器系数能量的长时平均值和短时平均值,将滤波器当前状态分为收敛态、过渡态与稳态,并根据不同状态选择不同的步长。在路径突然变化并产生啸叫时,算法通过关闭变步长NLMS算法来稳定啸叫频点,然后基于ZoomFFT算法动态生成陷波器来进行啸叫抑制;当啸叫抑制后,再开启变步长NLMS进行回声估计。针对易产生多频点啸叫的回声路径,VSN-NF算法还引入不同频带的两个陷波器来进行双频点啸叫抑制。同其它助听器回声抵消算法的对比实验显示,VSN-NF算法的回波抵消性能最好,尤其具有快速啸叫抑制能力。此外,算法生成的语音质量较高,实时性能好,适合于像助听器类的低功耗、小体积产品。