郑景润
- 作品数:2 被引量:3H指数:1
- 供职机构:兰州理工大学电气工程与信息工程学院更多>>
- 发文基金:甘肃省自然科学基金中央级公益性科研院所基本科研业务费专项更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 智能环境下基于音频视频信息融合的多说话人跟踪
- 人类大脑能够对来自各个感官的多源传感信息进行融合加工,帮助人们在复杂的环境下准确跟踪和识别事物。在智能会议环境中,对说话人进行跟踪是人机交互的一个重大研究课题,如何借鉴大脑的融合机理,利用多模态传感信息,有效融合同源说话...
- 郑景润
- 关键词:音频视频均值漂移声源定位
- 文献传递
- 音视频信息融合的说话人跟踪算法研究被引量:1
- 2012年
- 针对单独的音频和视频信息跟踪的缺陷,提出了一种音视频信息融合的粒子滤波跟踪算法。采用闭环跟踪框架,分为底层跟踪、融合、重要性粒子滤波、跟踪输出和反馈五个环节。底层跟踪环节利用说话人脸部肤色信息进行均值漂移跟踪的同时,利用说话人声音信号到达麦克风阵列的时间延迟进行跟踪定位;融合环节对这两者得到的跟踪信息进行整合,得出基于音视频信息融合的重要性函数和融合似然模型;滤波环节利用重要性粒子滤波算法对融合的数据进行滤波处理;跟踪环节根据滤波结果对说话人进行跟踪;反馈环节将跟踪结果动态反馈给人脸肤色跟踪和声源定位跟踪模块。流程化的闭环处理过程保证了算法的实时性。最后,采用AMI会议语料库对该算法进行测试,结果表明该算法平均误跟率仅为9.32%,比使用单一音频或视频信息的跟踪算法稳定性好、准确性高。
- 曹洁郑景润
- 关键词:声源定位均值漂移