您的位置: 专家智库 > >

国家高技术研究发展计划(2008AA010902)

作品数:5 被引量:16H指数:3
相关作者:刘燕君何颂颂顾乃杰翁玉萍李恺更多>>
相关机构:中国科学技术大学安徽大学安徽省计算与通讯软件重点实验室更多>>
发文基金:国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 2篇电子电信

主题

  • 5篇龙芯
  • 3篇龙芯3A
  • 1篇优化算法
  • 1篇体系结构
  • 1篇向量
  • 1篇向量化
  • 1篇龙芯2F
  • 1篇解码
  • 1篇解码器
  • 1篇矩阵
  • 1篇矩阵乘
  • 1篇矩阵乘法
  • 1篇BLAS
  • 1篇FFMPEG
  • 1篇FFT
  • 1篇H.264
  • 1篇H.264解...
  • 1篇H.264解...
  • 1篇LINPAC...
  • 1篇乘法

机构

  • 5篇中国科学技术...
  • 2篇安徽大学
  • 1篇中国科学院
  • 1篇安徽省计算与...

作者

  • 2篇何颂颂
  • 2篇刘燕君
  • 2篇顾乃杰
  • 2篇李恺
  • 2篇翁玉萍
  • 1篇裴晓航
  • 1篇郭利财
  • 1篇朱海涛
  • 1篇陈强

传媒

  • 2篇电子技术(上...
  • 2篇小型微型计算...
  • 1篇计算机工程

年份

  • 2篇2012
  • 1篇2011
  • 2篇2010
5 条 记 录,以下是 1-5
排序方式:
基于龙芯2F的Glibc库优化被引量:2
2010年
Glibc库是Linux系统最底层的函数库。本文分析了Glibc库的函数构成,在龙芯2F平台上对其中的字符串与内存的处理、数据转换、哈希表查找、以及加密函数的代码优化。实验结果表明,大部分函数的优化比率达到了30%以上,对龙芯2F平台的整体运行性能提升具有重要意义。
李恺翁玉萍
关键词:龙芯2F
面向龙芯3A体系结构的BLAS库优化被引量:8
2012年
双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
何颂颂顾乃杰朱海涛刘燕君
关键词:矩阵乘法BLASLINPACK
龙芯3A处理器上FFT的高效实现被引量:5
2012年
FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.
郭利财刘燕君
关键词:龙芯3AFFT
排序算法在龙芯3A上的优化实现
2011年
分析归并排序算法和快速排序算法,根据国产CPU龙芯3A的体系结构特性,提出2种优化算法并进行实现。综合利用访存特性,引入拷贝优化、循环展开、交换操作优化和不同基本排序混用等优化技术。测试结果表明,在不影响排序稳定性的前提下,与Glibc 2.11库中的排序函数相比,2种优化算法均能提升16.9%~90.5%的排序性能。
翁玉萍顾乃杰李恺陈强
关键词:龙芯3A优化算法
基于龙芯3B的H.264解码器的向量化被引量:3
2010年
本文实现了ffmpeg解码器到龙芯3B平台的移植,并针对龙芯3B所支持的向量扩展指令,对ffmpeg解码器进行了向量化。实验结果表明:实现向量化的ffmpeg解码器,其性能比使用GCC向量化编译得到的ffmpeg解码器具有更好的性能,而且性能提升的比率比在一些商业平台上更大。
裴晓航何颂颂
关键词:H.264FFMPEG解码器向量化
共1页<1>
聚类工具0