国家自然科学基金(61175018) 作品数:4 被引量:7 H指数:2 相关作者: 谢磊 杨鹏 张艳宁 李冰锋 周祥增 更多>> 相关机构: 西北工业大学 更多>> 发文基金: 国家自然科学基金 陕西省自然科学基金 霍英东基金 更多>> 相关领域: 自动化与计算机技术 更多>>
实时语音驱动的虚拟说话人 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分... 李冰锋 谢磊 周祥增 付中华 张艳宁关键词:可视语音合成 文献传递 低资源语言的无监督语音关键词检测技术综述 被引量:3 2015年 目的低资源(low-resource)语言的无监督的关键词检测技术近年来引起了广泛的研究兴趣。低资源语言由于缺乏足够的标注数据及相关的专家知识,使得传统的基于大词汇量语音识别系统的关键词检测技术无法使用。近年来,研究者试图寻找一种无监督的技术来完成针对低资源语言的语音关键词检测。方法首先阐述了该技术目前面临的问题与挑战,然后介绍了该技术使用的主流的基于动态时间规整的算法框架,并从特征表示、模板匹配方法、效率提升等几个重要方面介绍了近几年来主要的研究成果,最后介绍了该任务常用的系统评价标准及目前所能达到的水平,讨论了未来可能的研究方向。结果该任务的研究目前取得了很多成果,但仍处于实验室阶段,多系统融合策略导致系统庞大,而且目前还没有好的进行索引的方法,导致检测时间过长,对于低资源语音的关键词检测技术,还有很多研究工作要做。结论期望通过对目前低资源语言的无监督的关键词检测技术做出一个全面的综述,从而给研究者的工作带来便利。 杨鹏 谢磊 张艳宁关键词:动态时间规整 基于DTW的语音关键词检出 近年来,针对少资源语言的语音关键词检出技术受到了国内外研究机构的广泛关注。本文在基于动态时间规整(Dynamic Time Warping,DTW)的关键词检出框架下,提出了基于音素边界的局部匹配策略,用以解决基于样例的... 侯靖勇 谢磊 杨鹏 肖雄 梁祥智 徐海华 王磊 吕航 马斌 CHNG EngSiong 李海洲关键词:检出 动态时间规整 近似查询 文献传递 基于BLSTM-RNN的语音驱动逼真面部动画合成 本文提出了一种基于深度BLSTM(bidirectional long short-term memory)的语音驱动面部动画合成方法。BLSTM是一种特殊的递归神经网络(recurrent neural network... 阳珊 樊博 谢磊 王丽娟 宋謌平关键词:递归神经网络 主动外观模型 文献传递 语音驱动虚拟说话人的自然头动生成 2013年 从语音信号预测伴随头动时,基于隐Markov模型(hidden Markov model,HMM)的头动合成方法的效果依赖于头动模式的划分和头动模式的正确识别。该文尝试了不同头动模式划分方法的头动合成效果。由于语音和头动之间是非确定性的多对多的映射关系,很难用固定的类别描述清楚,因此该类方法的头动模式识别率不高,头动合成效果受限。该文尝试采用逆传播(back-propagation,BP)神经网络的非线性回归方法,通过学习语音与头动之间的映射关系,实现语音信号到头动参数之间的直接连续映射,避免了HMM方法中头动模式不明确、头动模式识别错误带来的负面影响。实验表明,基于BP神经网络的回归方法有效地提高了语音到头动预测的准确度和头动合成的自然度。 李冰锋 谢磊 朱鹏程 樊博关键词:隐MARKOV模型 神经网络 基于分段动态时间规整和后验特征的中文语音模式发现 被引量:2 2013年 语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。 杨鹏 谢磊 陈虹洁关键词:动态时间规整 实时语音驱动的虚拟说话人 被引量:2 2011年 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。 李冰锋 谢磊 周祥增 付中华 张艳宁关键词:可视语音合成