公共文化服务平台

共 5 条记录，以下是 1-6

全选清除导出

排序方式：

一种支持优化分块策略的矩阵乘加速器设计被引量：4: 2016年; 在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。; 沈俊忠肖涛乔寓然杨乾明文梅; 关键词：FPGA 矩阵乘法分块策略

Exploiting a depth context model in visual tracking with correlation filter: 2017年; Recently correlation filter based trackers have attracted considerable attention for their high computational efficiency. However, they cannot handle occlusion and scale variation well enough. This paper aims at preventing the tracker from failure in these two situations by integrating the depth information into a correlation filter based tracker. By using RGB-D data, we construct a depth context model to reveal the spatial correlation between the target and its surrounding regions. Furthermore, we adopt a region growing method to make our tracker robust to occlusion and scale variation. Additional optimizations such as a model updating scheme are applied to improve the performance for longer video sequences. Both qualitative and quantitative evaluations on challenging benchmark image sequences demonstrate that the proposed tracker performs favourably against state-of-the-art algorithms.; Zhao-yun CHENLei LUODa-fei HUANGMei WENChun-yuan ZHANG; 关键词：上下文模型相关滤波器视觉跟踪跟踪器

Efficient fine-grained shared buffer management for multiple OpenCL devices: 2013年; OpenCL programming provides full code portability between different hardware platforms,and can serve as a good programming candidate for heterogeneous systems,which typically consist of a host processor and several accelerators.However,to make full use of the computing capacity of such a system,programmers are requested to manage diverse OpenCL-enabled devices explicitly,including distributing the workload between different devices and managing data transfer between multiple devices.All these tedious jobs pose a huge challenge for programmers.In this paper,a distributed shared OpenCL memory(DSOM) is presented,which relieves users of having to manage data transfer explicitly,by supporting shared buffers across devices.DSOM allocates shared buffers in the system memory and treats the on-device memory as a software managed virtual cache buffer.To support fine-grained shared buffer management,we designed a kernel parser in DSOM for buffer access range analysis.A basic modified,shared,invalid cache coherency is implemented for DSOM to maintain coherency for cache buffers.In addition,we propose a novel strategy to minimize communication cost between devices by launching each necessary data transfer as early as possible.This strategy enables overlap of data transfer with kernel execution.Our experimental results show that the applicability of our method for buffer access range analysis is good,and the efficiency of DSOM is high.; Chang-qing XUNDong CHENQiang LANChun-yuan ZHANG; 关键词：OPENCL

一种面向片上集群体系结构的原型验证系统: 对处理器设计的验证方法可分为软件方法和硬件方法。众核体系结构处理器的逻辑规模较大,软件方法验证速度较慢,一般采取使用FPGA搭建原型系统验证。在实践过程中发现,硬件原型系统往往存在以下问题：(1)由于单块FPGA容量无法...; 王自伟乔寓然杨乾明伍楠文梅; 关键词：CLUSTER CHIP 逻辑划分

CNN卷积计算在移动GPU上的加速研究被引量：5: 2018年; 卷积神经网络(CNN)凭借其优秀的表现正在诸如图像分类、语音识别等领域里扮演着越来越重要的角色,已经有一些研究人员想要将这个深度学习过程复制到手机上。但是,由于CNN巨大的计算量,移植程序的性能一直难以令人满意。为了探讨如何解决这一问题,借助MXNet这样一个深度学习的框架在手机上实现了CNN的前向过程,并且将注意力放在了使用手机上另一个强大的计算设备——GPU上。最终选择使用OpenCL通用编程框架将前向过程中最耗时的卷积操作利用矩阵乘来完成,并转移到GPU上进行。在此基础之上还针对手机GPU做了一些优化。最终,实验结果显示我们成功地将前向过程的时间降低到了原来时间的一半。; 王湘新时洋文梅; 关键词：CNN 手机 OPENCL

使用“基于分析的代码转换方法”来提升GPU特定的OpenCL kernel在多核/众核CPU上的性能移植性(英文): 2015年; 目的:针对面向GPU设计的Open CL kernel程序在CPU上性能移植性欠佳这一问题,设计一种基于访存特征分析的代码转换方法,提升性能移植性。创新点:通过分析Open CLkernel中的访存模式,去除不必要的局部存储数组及其带来的同步语句,并使用向量化和局域性重开发进一步优化代码,最终取得显著的性能提升。方法:首先,针对Open CL kernel代码中的数组访问,设计一种精确的线性化访问描述子(图2)。然后,利用该描述子,分两步对GPU特定的Open CL kernel代码进行转换,以提高其在CPU上的性能(图7)。第一步为基于分析的work-item折叠,即通过分析访问描述子,找出并去除不必要的局部存储数组及其带来的同步语句,然后完成work-item折叠。第二步为适应架构的代码优化,即针对CPU架构的特点,使用向量化和局域性重开发进一步优化折叠后的代码。最后,上述代码转换过程被整合为一个工具链,连同一个调度程序,嵌入到一个开源的Open CL运行时系统中(图11)。实验结果表明,这种转换方法可以显著提升GPU特定的Open CL kernel在Intel Sandy Bridge架构CPU和Intel Knights Corner架构协处理器上的性能。结论:准确分析Open CL kernel代码中的访存模式,不仅利于判断局部存储数组是否适合于CPU架构,还能用于指导之后的代码优化过程,因此是提高性能移植性的重要步骤。; Mei WENDa-fei HUANGChang-qing XUNDong CHEN; 关键词：OPENCL

全选清除导出

共1页<1>

国家自然科学基金(61272145)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61272145)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈