公共文化服务平台

2024年8月30日星期五

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家高技术研究发展计划(2012AA01A30904): 作品数：3 被引量：8H指数：2; 相关作者：毛睿刘刚张恒张滇陆克中更多>>; 相关机构：深圳大学更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

3篇中文期刊文章

领域

3篇自动化与计算...

主题

2篇数据预取
2篇龙芯
2篇矩阵
2篇矩阵乘
2篇矩阵乘法
2篇乘法
1篇索引
1篇体系结构
1篇系统结构
1篇计算机
1篇计算机系
1篇计算机系统
1篇计算机系统结...
1篇架构
1篇海量
1篇海量数据
1篇函数优化
1篇分布式
1篇分布式索引
1篇BLAS

机构

3篇深圳大学

作者

3篇毛睿
2篇张滇
2篇张恒
2篇刘刚
1篇陆克中
1篇岳磅
1篇江小燕

传媒

1篇计算机时代
1篇小型微型计算...
1篇深圳大学学报...

年份

2篇2014
1篇2013

共 3 条记录，以下是 1-3

全选清除导出

排序方式：

面向龙芯3B1500体系结构的DGEMM函数优化被引量：3: 2014年; 双精度普通矩阵乘法DGEMM函数是高性能计算基础软件BLAS库中最重要的第三级函数.本文针对龙芯3B1500处理器体系结构的特点,利用保留的物理内存与大页技术减少内存页的换进换出以及TLB缺失,通过龙芯128位向量访存指令和向量乘加指令实现矩阵乘法的向量化运算,同时针对矩阵乘法中各矩阵的访存特点设计合理分块策略,并运用3B1500的cache锁机制将重复利用率高的分块锁在cache中以减少cache缺失,最后针对矩阵A和B的预取时间大于计算时间这一问题,设计了一种新的矩阵预取算法.该预取算法通过增大核心计算的计算量,将矩阵A和B的预取时间全部掩藏在计算中,并且通过ld指令与$0寄存器的配合使用来实现对C矩阵的预取.优化后的DGEMM函数无论在单线程和多线程时的性能都达到了理论峰值的80%以上.; 刘刚张恒张恒毛睿; 关键词：BLAS 矩阵乘法数据预取

基于龙芯3B处理器的Linpack优化实现被引量：3: 2014年; HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右.; 刘刚张恒张滇毛睿; 关键词：计算机系统结构矩阵乘法数据预取

应对海量数据检索:分布式局部索引的架构被引量：2: 2013年; 通过理论分析对全局和分布式索引架构进行了比较,分析了分布式全局索引架构所能够应对的数据规模的上界和分布式局部索引架构在特定数据规模下相应最优的机群规模等。可以证明,在海量数据背景条件下,由于需要求交集的查询结果数据量过大,会导致全局索引架构在查询结果求交集阶段处理时间过长,以致信息检索系统不能满足用户对系统响应时间的需求,因此局部索引架构会成为在面对海量数据时信息检索系统的必然选择。; 张滇岳磅江小燕毛睿; 关键词：分布式索引海量数据

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张