陕西省自然科学基金(2011JM8009) 作品数:3 被引量:4 H指数:2 相关作者: 谢磊 李冰锋 周祥增 杨鹏 陈虹洁 更多>> 相关机构: 西北工业大学 更多>> 发文基金: 陕西省自然科学基金 国家自然科学基金 霍英东基金 更多>> 相关领域: 自动化与计算机技术 更多>>
语音驱动虚拟说话人的自然头动生成 本文研究了从语音信号预测伴随头动的方法。基于HMM的头动合成方法的效果有赖于头动模式的划分和头动模式的正确识别。为此,本文尝试了不同头动模式划分方法的头动合成效果。由于语音和头动之间是非确定性的多对多的映射关系,很难用固... 李冰锋 谢磊 朱鹏程 樊博语音驱动虚拟说话人的自然头动生成 2013年 从语音信号预测伴随头动时,基于隐Markov模型(hidden Markov model,HMM)的头动合成方法的效果依赖于头动模式的划分和头动模式的正确识别。该文尝试了不同头动模式划分方法的头动合成效果。由于语音和头动之间是非确定性的多对多的映射关系,很难用固定的类别描述清楚,因此该类方法的头动模式识别率不高,头动合成效果受限。该文尝试采用逆传播(back-propagation,BP)神经网络的非线性回归方法,通过学习语音与头动之间的映射关系,实现语音信号到头动参数之间的直接连续映射,避免了HMM方法中头动模式不明确、头动模式识别错误带来的负面影响。实验表明,基于BP神经网络的回归方法有效地提高了语音到头动预测的准确度和头动合成的自然度。 李冰锋 谢磊 朱鹏程 樊博关键词:隐MARKOV模型 神经网络 基于分段动态时间规整和后验特征的中文语音模式发现 被引量:2 2013年 语音模式发现是从语音流中检测出重复出现的音节、词或短语等语音单元的任务。该文基于分段动态时间规整(segmental dynamic time warping,SDTW)算法,尝试直接在中文语料上进行语音模式发现。Mel频率倒谱系数(Mel frequency cepstral coefficient,MFCC)特征在衡量两个语音片段声学相似度上不够鲁棒,特别是针对多说话人语料,语音模式发现的效果大打折扣。该文尝试了基于音素后验概率(posteriorgram)的特征表示方法。实验表明:在多说话人和单说话人的语料上,音素后验特征均可以得到比MFCC更好的效果。该文尝试了用词边界确定分段进行语音模式发现,这种设置可以看作基于SDTW进行模式发现的效果上限。实验表明:在预知词边界的情况下,效率和正确率都得到了明显提升。 杨鹏 谢磊 陈虹洁关键词:动态时间规整 实时语音驱动的虚拟说话人 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分... 李冰锋 谢磊 周祥增 付中华 张艳宁关键词:可视语音合成 文献传递 实时语音驱动的虚拟说话人 被引量:2 2011年 该文实现了一个实时语音驱动的虚拟说话人面部动画方案。随着语音信号的输入,同步生成对应的面部动画。这种实时语音驱动的虚拟说话人在可视电话、虚拟会议、音视频聊天等即时通讯与娱乐媒体领域具有巨大的应用潜力。由于音素是最小的可分发音单元,因此构建音素识别器,对输入语音信号进行实时音素识别。为提高语音与口型的同步效果,改进了音素识别与输出算法。考虑协同发音影响,利用动态视素生成算法,将识别得到的音素转化为对应的面部动画参数序列。最后用参数序列驱动按照MPEG-4面部动画标准参数化的3-D头部模型,实现面部动画的同步生成。主观MOS评测结果表明:本文所实现的实时语音驱动虚拟说话人在的同步性和逼真度上的MOS评分分别达到了3.42和3.50。 李冰锋 谢磊 周祥增 付中华 张艳宁关键词:可视语音合成