颜深根
- 作品数:5 被引量:5H指数:1
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 龙芯3A上三个自适应FFT包的对比与分析
- 2012年
- FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW,UHFFT,SPIRAL这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FFTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。
- 赵美超张云泉刘益群李焱颜深根
- 关键词:SPIRALLOONGSONFFT
- 基于OpenCL的均值平移算法在多个众核平台的性能优化研究被引量:1
- 2013年
- OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速。由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速。通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,另一方面体会不同优化方法的优劣,在优劣的相互转化中寻求最优的解决方案。实验表明,算法并行优化前、后在AMD 5850、Tesla C2050和APU A6-3650上分别达到了9.68、5.74和1.27倍加速,并行相比串行程序达到79.73、93.88和2.22倍加速,前两个平台OpenCL版本相比,CUDA版本的OpenCV程序达到1.27和1.24倍加速。
- 庞旭张云泉龙国平贾海鹏颜深根
- 关键词:GPUAPUOPENCL均值平移算法
- 基于OPENCL的ADDWEIGHTED和MAGNITUDESQR算法性能优化研究
- 目前GPU 已经成为提高算法性能的一个重要途径,OPENCL 是一个为异构平台编写程序的框架,此异构平台可由CPU、GPU 或其他类型的多核/众核处理器组成.本文主要介绍基于OPENCL 框架在GPU 上对开源视觉库...
- 张龙张云泉龙国平贾海鹏颜深根
- 关键词:GPUOPENCVOPENCL
- 文献传递网络资源链接
- 基于OPENCL的均值平移算法在多个众核平台的性能优化研究
- OPENCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速.由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速.本文通过对均值平移算法在GPU和APU平台的优化,探讨了...
- 庞旭张云泉龙国平贾海鹏颜深根
- 关键词:GPUAPUOPENCL均值平移算法
- 文献传递网络资源链接
- 基于OpenCL的Kmeans算法的优化研究被引量:4
- 2014年
- Kmeans算法是无监督机器学习中一种典型的聚类算法,是对已知数据集进行划分和分组的重要方法,在图像处理、数据挖掘、生物学领域有着广泛的应用。随着实际应用中数据规模的不断变大,对Kmeans算法的性能也提出了更高的要求。在充分考虑不同硬件平台体系架构差异的基础上,系统地研究了Kmeans算法在GPU和APU平台上实现与优化的关键技术:片上全局同步高效实现,冗余计算减少全局同步次数,线程任务重映射,局部内存重用等,实现了Kmeans算法在不同硬件平台上的高性能与性能移植。实验结果表明,优化后的算法在考虑数据传输时间的前提下,在AMD HD7970 GPU上相对于CPU版本取得136.975~170.333倍的加速比,在AMD A10-5800K APU上相对于CPU版本取得22.2365~24.3865倍的加速比,有效验证了优化方法的有效性和平台的可移植性。
- 吴再龙张云泉徐建良贾海鹏颜深根解庆春
- 关键词:并行计算迭代算法跨平台