您的位置: 专家智库 > >

国家教育部博士点基金(20104307110002)

作品数:7 被引量:12H指数:2
相关作者:张春元杨乾明管茂林伍楠文梅更多>>
相关机构:国防科学技术大学北京油料研究所更多>>
发文基金:国家教育部博士点基金国家自然科学基金湖南省研究生科研创新项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 1篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 4篇处理器
  • 3篇嵌入式
  • 3篇VLIW
  • 3篇高性能
  • 2篇嵌入式处理器
  • 2篇嵌入式计算
  • 2篇ET
  • 1篇代码
  • 1篇代码压缩
  • 1篇低复杂度
  • 1篇调度
  • 1篇硬件
  • 1篇软硬件
  • 1篇软硬件协同
  • 1篇体系结构
  • 1篇嵌入式微处理...
  • 1篇微处理器
  • 1篇小波
  • 1篇小波变换
  • 1篇离散小波变换

机构

  • 7篇国防科学技术...
  • 2篇北京油料研究...

作者

  • 6篇杨乾明
  • 6篇张春元
  • 5篇管茂林
  • 4篇伍楠
  • 2篇全巍
  • 2篇文梅
  • 2篇黄达飞
  • 1篇李京旭
  • 1篇荀长庆
  • 1篇张雄明

传媒

  • 3篇国防科技大学...
  • 1篇计算机研究与...
  • 1篇电子学报
  • 1篇计算机工程与...
  • 1篇Journa...

年份

  • 3篇2013
  • 3篇2012
  • 2篇2011
7 条 记 录,以下是 1-8
排序方式:
流体系结构指令存储器优化设计研究被引量:3
2012年
针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果证明,该技术减少了38%的片外指令访存,降低约65%的片上指令存储器空间需求;分布式指令存储器减少了约37%的片上指令存储器面积,使得MASA的系统面积降低了8.92%,并降低了61%的指令存储器功耗.
管茂林何义杨乾明张春元伍楠
关键词:流体系结构
Efficient fine-grained shared buffer management for multiple OpenCL devices
2013年
OpenCL programming provides full code portability between different hardware platforms,and can serve as a good programming candidate for heterogeneous systems,which typically consist of a host processor and several accelerators.However,to make full use of the computing capacity of such a system,programmers are requested to manage diverse OpenCL-enabled devices explicitly,including distributing the workload between different devices and managing data transfer between multiple devices.All these tedious jobs pose a huge challenge for programmers.In this paper,a distributed shared OpenCL memory(DSOM) is presented,which relieves users of having to manage data transfer explicitly,by supporting shared buffers across devices.DSOM allocates shared buffers in the system memory and treats the on-device memory as a software managed virtual cache buffer.To support fine-grained shared buffer management,we designed a kernel parser in DSOM for buffer access range analysis.A basic modified,shared,invalid cache coherency is implemented for DSOM to maintain coherency for cache buffers.In addition,we propose a novel strategy to minimize communication cost between devices by launching each necessary data transfer as early as possible.This strategy enables overlap of data transfer with kernel execution.Our experimental results show that the applicability of our method for buffer access range analysis is good,and the efficiency of DSOM is high.
Chang-qing XUNDong CHENQiang LANChun-yuan ZHANG
关键词:OPENCL
基于程序特征分析的流处理器VLIW压缩技术与解压实现被引量:1
2012年
代码体积和代码稀疏是VLIW处理器一直存在的问题。通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行。实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%。
管茂林何义杨乾明张春元
关键词:流处理器代码压缩
ET:一种能耗有效的高性能嵌入式处理器被引量:1
2011年
随着标准和算法的不断演进,高端嵌入式应用对性能和能耗提出了越来越高的要求。然而,能耗问题成为将VLSI潜力转换为实际应用需求的最大挑战,基于此,提出ET(Embedded Tera-scale Computing)处理器设计。ET以众多轻量级处理器(称为小核)来搭建目标处理器,每个小核都是一个基于显式数据和指令管理的VLIW处理器,能单独执行一个线程,采用层次化的寄存器文件和非对称全分布式指令寄存器来分别降低数据和指令的供应能耗。为了进一步降低功耗,ET处理器采用了较短的运算流水线和简单的循环控制结构,并面向应用领域针对循环体进行优化。初步的实验结果表明,在40nm工艺下,ET处理器可以获得单芯片1TOPS以上的性能,同时保持操作能效比在100GOPS/W以上。
杨乾明伍楠管茂林张春元全巍黄达飞
关键词:嵌入式计算
共享存储可重构计算机软硬件通信的优化实现被引量:6
2013年
可重构硬件操作系统BORPH提供的硬件进程概念和以硬件为中心的执行模型可极大地提高可重构计算平台的易用性.BORPH-N为BORPH的扩展系统,主要的扩展是支持在共享存储可重构计算平台上的运行.BORPH-N为硬件进程提供基于共享存储、符合Unix语义的高性能进程间通信支持:共享存储和信号量.利用这两项服务,硬件进程可与系统中其他所有软件进程和硬件进程进行交互.可重构计算的重要目标是利用可重构逻辑对应用的耗时部分进行加速,所以软硬件交互机制的效率至关重要.通过类似远程调用这种简单方式来提供这两项服务,软硬件交互频繁,开销较大,性能难以满足需求.BORPH-N使用的优化策略基于独立执行的基本思路进行设计.实验结果表明,BORPH-N所需硬件开销较小,为硬件进程提供的共享存储和信号量的效率逼近硬件平台的峰值,可以满足实际应用的需求.
荀长庆杨乾明伍楠文梅张春元
关键词:可重构计算软硬件协同共享存储进程间通信
ET:一种能耗有效的高性能嵌入式处理器
随着标准和算法的不断演进,高端嵌入式应用对性能和能耗提出了越来越高的要求。然而,能耗问题成为将VLSI潜力转换为实际应用需求的最大挑战,基于此,本文提出ET(Embedded Tera-scale Computing)处...
杨乾明伍楠管茂林张春元全巍黄达飞
关键词:嵌入式计算
文献传递
基于分解反折结构的低内存低复杂度离散小波变换
2013年
通过将反折结构分解为奇、偶时间索引对应的操作,在不增加计算复杂度的前提下提出了一种内存需求更低且处理器负载均衡的即时DWT实现—分解反折结构DFS。以图像/视频压缩中常用的CDF 9/7小波滤波器组为例,DFS与提升结构LS及FS具有相同的计算复杂度,但是内存需求(单层变换)从6个存储单元下降为5个。实验结果表明,基于DFS的DWT分解相对于常规LS实现及实时LS实现分别加速了44%和14%。
李京旭张雄明
关键词:离散小波变换低复杂度
面向能耗有效高性能嵌入式微处理器的VLIW调度被引量:1
2012年
为了降低功耗,目前能耗有效的嵌入式微处理器一般都采用分布式与层次化的寄存器文件结构。第一层的超小寄存器文件(TORF)的极小容量使得很多数据必须存放到第二层的通用寄存器文件(GRF)中,这给编译器带来了新的挑战。通过分析程序特征,提出了新的VLIW调度算法,通过在编译时对变量进行检测,在恰当的时机插入虚拟的copy操作并进行指令与通信调度,为对寄存器需求较大的全局变量与软流水变量构建了新的包含GRF的数据传输路由,将对TORF的压力转移到GRF中。实验结果表明,新的VLIW调度算法符合处理器的设计初衷。与不使用GRF相比,在程序性能只降低约8%的情况下,降低了约51%的寄存器访问能耗,43%的处理器能耗。最关键的是避免了程序员手工分配优化的难题。
管茂林杨乾明张春元文梅
共1页<1>
聚类工具0