国家重大技术装备创新研制项目(ZDYZ2008-2)
- 作品数:7 被引量:28H指数:3
- 相关作者:张云泉葛蔚王小伟袁良王婷更多>>
- 相关机构:中国科学院研究生院中国科学院软件研究所中国科学院更多>>
- 发文基金:国家重大技术装备创新研制项目中国科学院知识创新工程重要方向项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于CUDA的蛋白质翻译后修饰鉴定MS-Alignment算法加速研究被引量:1
- 2010年
- 对MS-Alignment算法进行分析得出该算法很难满足大规模数据对鉴定速度的要求,而且具有的一个特点是相同的任务在不同的数据上重复计算,为数据划分提供了基础。基于CUDA编程模型使用图形处理器(GPU)对步骤数据库检索及候选肽段生成进行加速优化,设计了该步骤在单GPU上的实现方法。测试结果表明,此方法平均加速比为30倍以上,效果良好,可以满足蛋白质翻译后修饰鉴定中大规模数据快速计算的需求。
- 翟艳堂涂强郎显宇陆忠华迟学斌
- 关键词:图形处理器统一计算设备架构
- 基于CUDA的体数据可视化工具
- 2011年
- GPU的可编程性和并行计算能力的飞速发展为可视化提供了新的解决途径。基于支持CUDA的GPU,利用光线投射,实现了一个可以对体数据进行交互式可视化的工具,包括阻光度融合、等值面绘制、MIP绘制以及X光线投影等多种绘制效果,并加入了Phong光照模型以提高阻光度融合和等值面绘制的图像质量。实验表明,该工具较好的利用了GPU的并行计算能力,能够绘制出较高质量的图像,并具有良好的可交互性和可扩展性。
- 叶良单桂华刘俊迟学斌
- 关键词:CUDA可视化光线投射PHONG光照模型
- 对角线稀疏矩阵的SpMV自适应性能优化被引量:4
- 2013年
- 稀疏矩阵向量乘(SpMV)是科学计算中常用的内核之一,其运行速率跟非零元分布相关.针对对角线稀疏矩阵,提出了压缩行片段对角(compressed row segment diagonal,CRSD)存储格式.它利用"对角线格式"有效描述矩阵的对角线分布,区别于以往通用的计算方法,CRSD通过对给定应用的对角线稀疏矩阵采样再进行特定的优化.并且在软件安装阶段,通过自适应的方法选取适合具体运行平台的最优SpMV实现.在CPU端进行多线程并行化实现时,自适应调优过程中收集的信息还被用于线程间任务划分,以实现负载平衡.同时完成CRSD存储格式在GPU端的实现,并根据GPU端计算与访存的特点进行优化.实验结果表明:在Intel和AMD的多核平台使用相同线程数的情况下,与DIA相比,使用CRSD的加速比可以达到2.37X(平均1.7X);与CSR相比,可以达到4.6X(平均2.1X).
- 孙相征张云泉王婷李焱袁良
- 关键词:GPU
- 基于横向局部性的多核计算模型被引量:2
- 2012年
- 片内多核已成为延长摩尔定律的方式,并行算法设计、编程模型、编译器和运行时系统都需要利用计算模型进行分析。现有多核模型对线程间共享缓存等资源的竞争已有较精确的模型,但是对于线程间数据共享考虑较少。提出线程间共享缓存的横向局部性和任务共享率概念,基于此扩展串行存储层次模型RAM(h),提出考虑任务共享率的多核并行计算模型MRAM(h)。
- 袁良张云泉
- 关键词:多核并行计算模型共享缓存
- PLASMA自适应调优与性能优化的设计与实现
- 2012年
- PLASMA是一个高效的线性代数软件包,其数据分布结合分堆、细粒度并行以及乱序执行机制等大大提高了程序的性能。但PLASMA仍然存在一些问题,比如分块大小对程序性能的影响非常大,以及产生了大量的数据拷贝等。通过对比传统的LAPACK和PLASMA的实现机制,分析了PLASMA中存在的优势和不足,介绍了两种弥补PLASMA自身不足的方法。针对PLASMA的架构,经过大量的测试与分析,提出了边缘矩阵的概念并分析了其对性能的影响,据此提出了一种自适应调优的方法。并通过数据拷贝与计算并行的运行方式,进一步提高了PLASMA性能,最后通过大量的测试验证了该优化方法的效果。
- 吕渐春张云泉王婷肖玄基
- 关键词:LAPACKPLASMA
- 基于CUDA加速的光线投射法研究
- 传统的基于CPU的光线投射算法绘制速度较慢,限制了它的应用。在保证绘制质量的同时,为了提高光线投射体绘制的速度以达到实时可交互,本文利用离屏渲染技术,提出了一种基于CUDA的层次包围盒空间跳跃加速的光线投射体绘制算法,利...
- 叶良单桂华迟学斌
- 关键词:光线投射法CUDA
- 文献传递
- 基于时驱硬球算法与格子玻尔兹曼方法的颗粒流体系统直接数值模拟被引量:6
- 2011年
- 实现了一种直接数值模拟颗粒流体系统的耦合算法,颗粒间相互作用由时驱硬球算法描述,而流体的控制方程采用格子玻尔兹曼方法求解,流固耦合用浸入运动边界法实现.该方法使用欧拉网格求解流场,拉格朗日网格跟踪颗粒,避免了非结构化贴体网格方法需要重新划分网格的问题.通过模拟两个圆形颗粒在黏性流体中的沉降过程,成功地复现了经典的Drafting-Kissing-Tumbling(DKT)过程,验证了耦合算法的有效性.
- 周国峰王利民王小伟熊勤钢葛蔚
- 关键词:格子玻尔兹曼方法直接数值模拟
- 耦合Nvidia/AMD两类GPU的格子玻尔兹曼模拟被引量:15
- 2009年
- 利用图形处理单元(graphic processing unit,GPU)进行通用计算近年来得到关注,Nvidia和AMD公司已推出了各自的开发环境CUDA和ASC.很多计算在GPU上的速度远高于目前的CPU.格子玻尔兹曼方法(lattice Boltzmann method,LBM)作为一种网格上的粒子方法,对流动模拟具有良好的内在并行性,非常适合利用GPU进行大规模并行计算.本文提出了一种耦合Nvidia和AMD的两类GPU完成LBM凹槽流模拟的算法,对于两类GPU,在LBM的D2Q9模型下分别设计了相应的算法和程序,之后利用消息传递接口(message passing interface,MPI)协议通过多程序多数据流(multi-progra mmulti-data,MPMD)模式使其能够联合计算,以充分发挥混合GPU集群系统的性能.通过GPU和CPU程序结果的比较,证实了GPU计算的正确性和所能带来的显著的加速比,为建设通用大规模GPU并行计算平台提供了重要参考.
- 李博李曦鹏张云陈飞国徐骥王小伟何险峰王健葛蔚李静海
- 关键词:GPGPUNVIDIAAMD