蔡猛
- 作品数:5 被引量:28H指数:3
- 供职机构:清华大学电子工程系更多>>
- 发文基金:国家自然科学基金北京市自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于深度神经网络和Bottleneck特征的说话人识别系统被引量:13
- 2016年
- 近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。
- 田垚蔡猛何亮刘加
- 关键词:说话人识别
- 低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统被引量:9
- 2015年
- 语音识别系统需要大量有标注训练数据,在低数据资源条件下的识别性能往往不理想.针对数据匮乏问题,本文先研究子空间高斯混合声学模型通过参数共享减少待估计的参数规模,并使用基于最大互信息准则的区分型训练技术提高识别精度;而后在特征层面应用基于深度神经网络的Bottleneck特征来达到特征提取和降维的目的;最后将上述研究成果结合并构建了低资源条件下的语音识别系统.在国际标准的Open KWS 2013数据库上的实验结果表明,本文的技术能够有效改善低资源条件下的系统识别性能,相比基线系统有12%左右的词错误率降低.
- 吴蔚澜蔡猛田垚杨晓昊陈振锋刘加夏善红
- 关键词:语音识别声学模型声学特征
- 发音错误检测中基于多数据流的Tandem特征方法被引量:1
- 2014年
- 针对发音错误检测中标注的发音数据资源有限的情况,提出在Tandem系统框架下利用其他数据来提高特征的区分性。以中国人的英语发音为研究对象,选取了相对容易获取的无校正发音数据、母语普通话和母语英语作为辅助数据,实验结果表明,这几种数据都能够有效地提高系统性能,其中无校正数据表现出最好的性能。同时,比较了不同的扩展帧长,以多层神经感知(MLP)和深度神经网络(DNN)作为典型的浅层和深层神经网络,以及Tandem特征的不同结构对系统性能的影响。最后,多数据流融合的策略用于进一步提高系统性能,基于DNN的无校正发音数据流和母语英语数据流合并的Tandem特征取得了最好的性能,与基线系统相比,识别正确率提高了7.96%,错误类型诊断正确率提高了14.71%。
- 袁桦蔡猛赵军红张卫强刘加
- 关键词:发音错误检测发音规则
- 基于音素后验概率的样例语音关键词检测方法被引量:3
- 2015年
- 低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能.
- 张卫强宋贝利蔡猛刘加
- 关键词:动态时间规整
- 集合分类中的鉴别式局部信息距离保持映射被引量:2
- 2011年
- 该文提出鉴别式局部信息距离保持映射,以解决一类集合分类问题。鉴别式局部信息距离保持映射假设集合所对应的概率密度分布位于统计流形上,选取Fisher信息距离作为概率密度分布间的距离,并将最小化同类点的信息距离、最大化异类近邻点的信息距离作为目标函数,利用特征值分解的方法,求解线性映射矩阵。基于美国国家标准技术署于2008年公布的说话人识别数据库的实验结果表明:鉴别式局部信息距离保持映射优于无用分量投影和鉴别式无用分量投影。
- 何亮栗志意蔡猛刘加
- 关键词:流形学习信息距离局部保持映射说话人识别