陈强
- 作品数:2 被引量:1H指数:1
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家高技术研究发展计划国家科技重大专项国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 排序算法在龙芯3A上的优化实现
- 2011年
- 分析归并排序算法和快速排序算法,根据国产CPU龙芯3A的体系结构特性,提出2种优化算法并进行实现。综合利用访存特性,引入拷贝优化、循环展开、交换操作优化和不同基本排序混用等优化技术。测试结果表明,在不影响排序稳定性的前提下,与Glibc 2.11库中的排序函数相比,2种优化算法均能提升16.9%~90.5%的排序性能。
- 翁玉萍顾乃杰李恺陈强
- 关键词:龙芯3A优化算法
- 龙芯3A上复数矩阵乘法的多线程优化被引量:1
- 2011年
- BLAS库分为两类函数运算:复数函数与实数函数。矩阵乘法函数是BLAS库的核心函数,BLAS库中的许多函数在实现时都调用了矩阵乘法函数。文章结合龙芯3A体系结构的特点,通过对矩阵乘法计算过程的分析选择了先对矩阵分块然后进行任务划分的方式,从而减少了数据拷贝数量,提高了拷贝数据的利用率,并运用循环展开、指令调度、数据分块等技术对子线程的运算进行了优化。优化后的ZGEMM函数的多线程运算速度是ATLAS库的两倍。
- 陈强何颂颂王坤
- 关键词:多线程