您的位置: 专家智库 > >

国家高技术研究发展计划(2012AA01A30904)

作品数:3 被引量:8H指数:2
相关作者:毛睿刘刚张恒张滇陆克中更多>>
相关机构:深圳大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...

主题

  • 2篇数据预取
  • 2篇龙芯
  • 2篇矩阵
  • 2篇矩阵乘
  • 2篇矩阵乘法
  • 2篇乘法
  • 1篇索引
  • 1篇体系结构
  • 1篇系统结构
  • 1篇计算机
  • 1篇计算机系
  • 1篇计算机系统
  • 1篇计算机系统结...
  • 1篇架构
  • 1篇海量
  • 1篇海量数据
  • 1篇函数优化
  • 1篇分布式
  • 1篇分布式索引
  • 1篇BLAS

机构

  • 3篇深圳大学

作者

  • 3篇毛睿
  • 2篇张滇
  • 2篇张恒
  • 2篇刘刚
  • 1篇陆克中
  • 1篇岳磅
  • 1篇江小燕

传媒

  • 1篇计算机时代
  • 1篇小型微型计算...
  • 1篇深圳大学学报...

年份

  • 2篇2014
  • 1篇2013
3 条 记 录,以下是 1-3
排序方式:
面向龙芯3B1500体系结构的DGEMM函数优化被引量:3
2014年
双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上.
刘刚张恒张恒毛睿
关键词:BLAS矩阵乘法数据预取
基于龙芯3B处理器的Linpack优化实现被引量:3
2014年
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右.
刘刚张恒张滇毛睿
关键词:计算机系统结构矩阵乘法数据预取
应对海量数据检索:分布式局部索引的架构被引量:2
2013年
通过理论分析对全局和分布式索引架构进行了比较,分析了分布式全局索引架构所能够应对的数据规模的上界和分布式局部索引架构在特定数据规模下相应最优的机群规模等。可以证明,在海量数据背景条件下,由于需要求交集的查询结果数据量过大,会导致全局索引架构在查询结果求交集阶段处理时间过长,以致信息检索系统不能满足用户对系统响应时间的需求,因此局部索引架构会成为在面对海量数据时信息检索系统的必然选择。
张滇岳磅江小燕毛睿
关键词:分布式索引海量数据
共1页<1>
聚类工具0