国家自然科学基金(61003087)
- 作品数:1 被引量:8H指数:1
- 相关作者:贾佳杨学军更多>>
- 相关机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于共享内存的多进程共享GPU技术
- GPU的发展,大量的并行科学计算程序都采用GPU进行加速计算.然而,现有的GPU不支持多个进程同时访问.当一个进程初始化GPU之后,在释放GPU之前,其它的进程是无法使用GPU的.提出了一种基于共享内存的多进程共享GPU...
- 杜云飞杨灿群王锋
- 关键词:图形处理器共享内存数据通信
- 一种基于冗余线程的GPU多副本容错技术被引量:8
- 2013年
- 目前随着通用GPU(general purpose computation on graphic processing units,GPGPU)性能的不断提高,利用CPU和GPU构建的异构系统已经成为高性能计算领域的研究热点.然而随着并行计算系统的不断增长,系统可靠性越来越低,已成为并行计算向大规模扩展的一个不容忽视的制约因素.由于商用GPGPU容错能力较弱,所以由CPU和GPU构建的大规模异构并行系统的可靠性问题更为尖锐,尚缺乏实用的容错手段,针对这一现实问题提出了一种基于冗余线程的GPU多副本容错技术:RB-TMR(Rollback TMR),同时根据异构系统的编程模型及程序特征对这一面向异构系统的容错机制的设计实现及其编译框架进行了具体分析和描述.最后通过10个案例对此技术进行了实现并评估了其性能.这一技术为异构系统的容错技术研究提供了新的思路,具有重大意义.
- 贾佳杨学军李志凌
- 关键词:异构系统容错技术多副本