公共文化服务平台

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

智能环境下基于音频视频信息融合的多说话人跟踪: 人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话...; 郑景润; 关键词：音频视频均值漂移声源定位; 文献传递

音视频信息融合的说话人跟踪算法研究被引量：1: 2012年; 针对单独的音频和视频信息跟踪的缺陷,提出了一种音视频信息融合的粒子滤波跟踪算法。采用闭环跟踪框架,分为底层跟踪、融合、重要性粒子滤波、跟踪输出和反馈五个环节。底层跟踪环节利用说话人脸部肤色信息进行均值漂移跟踪的同时,利用说话人声音信号到达麦克风阵列的时间延迟进行跟踪定位;融合环节对这两者得到的跟踪信息进行整合,得出基于音视频信息融合的重要性函数和融合似然模型;滤波环节利用重要性粒子滤波算法对融合的数据进行滤波处理;跟踪环节根据滤波结果对说话人进行跟踪;反馈环节将跟踪结果动态反馈给人脸肤色跟踪和声源定位跟踪模块。流程化的闭环处理过程保证了算法的实时性。最后,采用AMI会议语料库对该算法进行测试,结果表明该算法平均误跟率仅为9.32%,比使用单一音频或视频信息的跟踪算法稳定性好、准确性高。; 曹洁郑景润; 关键词：声源定位均值漂移

全选清除导出

共1页<1>

郑景润