公共文化服务平台

国家高技术研究发展计划(2012AA010902): 作品数：17 被引量：49H指数：4; 相关作者：于俊清刘雷魏海涛刘磊龙国平更多>>; 相关机构：中国科学院华中科技大学中国科学院大学更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金国家教育部博士点基金更多>>; 相关领域：自动化与计算机技术电子电信更多>>

COStream:一种面向数据流的编程语言和编译器实现被引量：10: 2013年; 数据流编程模型作为高效的并行编程模型被广泛应用于媒体处理和网络服务等应用中.然而,多/众核结构的底层计算、存储和通信的复杂性对数据流程序的性能提出了新的挑战,数据流程序在不同的多/众核结构上的可移植性和可编程性也为编译器提出了更高的要求.针对数据流程序所面临的问题,提出并设计实现一种数据流编程模型——COStream数据流编程语言及其编译系统,提高了数据流程序的可编程性.COStream在C语言文法的基础上加入表征数据流图的文法结构,文法结构清晰,具有良好的可重用性和可扩展性.COStream编译系统利用同步数据流图作为中间表示,根据目标系统的结构特点对数据流程序进行并行优化并构造流水线调度,进而生成高效的可并行执行的目标代码.在X86多核架构下实现了COStream编译系统,并对该领域的多个实验程序进行了测试,测试结果表明,COStream具有良好的可扩展性和高加速比.; 张维维魏海涛于俊清李鹤黎昊杨秋吉; 关键词：多核处理器数据流

火电企业配煤模型与优化算法被引量：1: 2015年; 针对目前的企业配煤应用模型存在的问题,把煤的发热量、挥发分、硫分等煤质指标和自身限制当作约束条件,将配煤成本设置为目标函数,创建一个具有线性关系的火电企业实用型配煤优化模型。通过大量实验对粒子群算法进行改进,将改进后的粒子群算法应用到模型的求解当中。实验结果表明,通过选取恰当的配煤模型,利用改进后的粒子群算法求解,得出的各单煤的配煤比例符合实际要求,该算法具有一定的稳定性。; 李彬尉守科于俊清李石君; 关键词：煤质分析粒子群算法惯性权重

一种基于GPU的二维离散多分辨率小波变换加速方法被引量：3: 2015年; 针对传统CPU平台下小波变换算法难满足当前高分辨率、大数据规模下的实时性要求,提出一种基于GPU的并行小波变换算法,并通过改善Local Memory访存数据的局部性和增加Global Memory访存带宽的优化技术,利用多Kernel并行提高多种分辨率下小波变换的性能.实验结果表明,与CPU串并行版本相比,GPU并行优化算法在高分辨率变换情况下,加速比最高可达30~60倍,可满足对变换实时性的要求.; 刘磊张子佳刘雷张睿; 关键词：小波变换多分辨率 GPU加速

基于页着色的多核处理器共享Cache动态分区被引量：2: 2014年; 随着多核/众核成为处理器结构发展的主流,并行任务间共享地使用Cache而导致的冲突越来越成为性能提升的瓶颈.利用页着色可以实现对Cache的分区管理,减少共享Cache导致的冲突.页着色的原理是利用内存与Cache之间的组相联映射关系,通过控制分配固定区域的内存而达到分配固定区域Cache的目的,这一方面限制了任务能够请求的物理内存范围,另一方面调整程序使用的Cache空间需要做大量的内存拷贝,带来了不可忽视的开销.为了克服页着色的缺点,文中通过动态内存分配的方式,只对动态分配的页进行着色,在不修改内核和程序源码的前提下实现了动态Cache分区.文中提出的动态内存分配策略(CachePM)会根据运行时环境为任务分配内存,避免不同任务间共享Cache的冲突和同一任务内出现Cache的访问热点,通过合理划分程序运行时动态分配的内存达到Cache分区的目的.当任务的运行环境改变时,CachePM自适应地改变已经分配的堆中数据在物理内存中的布局,以实现Cache分区的动态调节.为进一步降低动态页着色的开销,作者采用了减少和延迟内存拷贝的策略.实验表明,该方法能够有效实现动态Cache分区,从而提高并行运行的任务的性能;同时由于动态内存分配策略避免了同一任务内出现Cache访问热点,单独运行的任务的性能也较在libc下运行有所提升.; 张栌丹王锐刘轶钱德沛; 关键词：动态内存分配

特定领域语言MISPC及其编译框架实现技术被引量：2: 2016年; 基于C语言扩展定义一种新的特定领域编程语言MISPC,并描述其应用于多媒体和无线网络领域主流场景的特征,利用Backus-Naur范式对其数据类型等进行描述.针对该语言特点,提出一个面向异构平台的编译框架,以生成较高性能的目标代码.结合领域中一个经典算法进行验证,实验结果表明,对比不同输入规模、不同版本的代码实现,显著提高了领域开发的效率,并可获得最高5.59倍的执行加速比.通过定义相应高层语言并构建编译框架,提供领域编程框架的系统解决方法和技术,有效降低了领域编程和调试的难度,提升了领域开发效率及程序性能.; 刘磊李振国高艳华丁岩申春刘雷; 关键词：多媒体无线网络 GPU SIMD

基于OpenCL的均值平移算法在多个众核平台的性能优化研究被引量：1: 2013年; OpenCL作为一种面向多种平台、通用目的的编程标准,已经对许多应用程序进行了加速。由于平台硬件和软件环境的差异,通用的优化方法不一定在所有平台都有很好的加速。通过对均值平移算法在GPU和APU平台的优化,探讨了不同平台各种优化方法的贡献力,一方面研究各个平台的计算特性,另一方面体会不同优化方法的优劣,在优劣的相互转化中寻求最优的解决方案。实验表明,算法并行优化前、后在AMD 5850、Tesla C2050和APU A6-3650上分别达到了9.68、5.74和1.27倍加速,并行相比串行程序达到79.73、93.88和2.22倍加速,前两个平台OpenCL版本相比,CUDA版本的OpenCV程序达到1.27和1.24倍加速。; 庞旭张云泉龙国平贾海鹏颜深根; 关键词：GPU APU OPENCL 均值平移算法

自适应光学数值仿真成像在GPU上的实现被引量：2: 2014年; 在自适应光学（AO）系统中，成像是不可或缺的一部分。AO仿真系统中的探测器和哈特曼-夏克波前传感器的成像过程一般用二维的离散卷积来计算，而通常它的数值算法用快速傅立叶变换（FFT）实现。但是随着矩阵维数的增加，卷积的运算量会急剧增大，成为制约整个AO仿真效率的一个瓶颈。利用图形处理器（GPU）的强大计算能力，可以使成像系统运行速度大幅提高。在NVIDIA Tesla C2050 GPU上，针对不同分辨率的图像，获得了相对于串行程序5-24倍的加速比。; 吴振华唐秋艳王中杰马文静龙国平李玉成; 关键词：自适应光学系统卷积快速傅立叶变换图形处理器

面向X10的数据流程序编译优化算法被引量：1: 2013年; 数据流编程作为一种编程模式已被广泛应用到各个领域.然而,多核体系结构的不同使得数据流程序在不同平台上移植困难.X10作为一种新型并行编程语言,为不同的多核体系结构提供了统一的并行计算环境.如何利用X10语言的特性来提高数据流程序的效率已成为目前研究工作的一大难点.本文设计并实现了一个面向X10的编译优化系统,该系统确立了三种优化算法:针对X10语言的代码生成优化减少了生成的X10代码量;针对同步数据流图的任务划分优化在负载均衡的基础上,避免了死锁的产生,同时减少了通信开销;针对底层硬件资源的通信优化在机器间通信、机器内部线程间通信、线程内部通信方面进行了区分和优化,减少了通信开销.实验结果表明,设计的三种编译优化算法都获得了较大的性能提升.; 刘小宪魏海涛于俊清; 关键词：X10 并行计算

GPU矩阵乘法和FFT算法的性能优化被引量：5: 2013年; 当前GPU的体系结构为高性能计算提供了良好的可编程性。为了得到众核GPU高性能程序设计的一般方法,探索GPU程序性能优化技术,对在GPU上进行高性能程序设计的经验进行了总结。通过基准测试,得到GPU性能指标,对GPU程序设计进行指导。使用CUDA对单精度矩阵乘法和FFT进行性能优化,前一个算法是计算密集型任务,后一个算法是带宽密集型任务。在NVIDIA GeForce GTX280 GPU上,矩阵乘法算法达到393 Gflop/s的峰值速度,比CUBLAS 2.0数学库提高了5%;对于一些维度的FFT计算也取得了较好的性能。; 李晓雯崔翔; 关键词：矩阵乘法快速傅里叶变换性能优化技术

面向并发性能下降的调度策略的综述被引量：4: 2014年; 随着行业应用的飞速扩张,数据中心以及云等日益成为主流服务平台.高性能的片上多核系统也随之成为重要的可分配资源之一.然而,在对多用户提供服务(并发执行、并置执行)时,其所固有的共享资源会引发严重的并发性能下降.在此背景下,多核系统的性能以及资源利用率问题成为研究热点.软件调度策略作为一种性价比较高的调节手段对于缓解资源冲突一直行之有效,然而,硬件技术的变迁对其调节的效力将产生一定影响.首先从片上多核结构关键技术入手,对共享资源的变化进行了详细阐述,在此基础上,对当前主流应用领域中两种不同类型的软件调度策略进行介绍和分析.在总结现有策略的局限性以及面临的新挑战的同时,对未来的研究趋势作了展望.; 吕方崔慧敏霍玮冯晓兵; 关键词：片上多核处理器共享资源映射调度

国家高技术研究发展计划(2012AA010902)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家高技术研究发展计划(2012AA010902)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈