您的位置: 专家智库 > >

刘进锋

作品数:13 被引量:89H指数:5
供职机构:宁夏大学数学计算机学院更多>>
发文基金:国家自然科学基金宁夏回族自治区自然科学基金宁夏高等学校科学技术研究项目更多>>
相关领域:自动化与计算机技术电子电信文化科学石油与天然气工程更多>>

文献类型

  • 12篇期刊文章
  • 1篇学位论文

领域

  • 13篇自动化与计算...
  • 1篇石油与天然气...
  • 1篇电子电信
  • 1篇文化科学

主题

  • 4篇图形处理器
  • 4篇CUDA
  • 4篇处理器
  • 3篇统一计算设备...
  • 3篇计算设备
  • 3篇架构
  • 3篇GPU
  • 3篇H.264
  • 3篇JM
  • 2篇动态关联规则
  • 2篇神经网
  • 2篇神经网络
  • 2篇数据库
  • 2篇数据挖掘
  • 2篇网络
  • 2篇文本挖掘
  • 2篇矩阵
  • 2篇矩阵乘
  • 2篇矩阵乘法
  • 2篇关联规则

机构

  • 6篇宁夏大学
  • 4篇西北工业大学
  • 3篇浙江大学
  • 1篇上海交通大学
  • 1篇视网

作者

  • 13篇刘进锋
  • 4篇郭雷
  • 2篇荣冈
  • 1篇夏雨人
  • 1篇顾海杰
  • 1篇张海燕

传媒

  • 4篇计算机工程与...
  • 3篇微型机与应用
  • 1篇情报科学
  • 1篇计算机应用与...
  • 1篇控制理论与应...
  • 1篇科学技术与工...
  • 1篇宁夏工程技术

年份

  • 1篇2014
  • 2篇2013
  • 1篇2012
  • 3篇2011
  • 1篇2007
  • 2篇2006
  • 3篇2005
13 条 记 录,以下是 1-10
排序方式:
神经网络前向传播在GPU上的实现被引量:1
2011年
基于CUDA架构在GPU上实现了神经网络前向传播算法,该算法利用神经网络各层内神经元计算的并行性,每层使用一个Kernel函数来并行计算该层神经元的值,每个Kernel函数都根据神经网络的特性和CUDA架构的特点进行优化。实验表明,该算法比普通的CPU上的算法快了约7倍。研究结果对于提高神经网络的运算速度以及CUDA的适用场合都有参考价值。
刘进锋郭雷
关键词:神经网络CUDAGPU
一种简洁高效的加速卷积神经网络的方法被引量:16
2014年
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。
刘进锋
关键词:卷积神经网络矩阵乘法CUDABLAS
H.264快速模式确定方法被引量:2
2005年
H.264/AVC是最新的视频编码标准,与以前的视频标准相比编码效率最多提高了50%。与此同时,H.264编码器的计算复杂度也比H.263提高了约3倍。这对于资源受限的应用系统来说是个巨大的挑战。分析发现,H.264编码器中宏块的模式确定占了编码时间的90%左右。论文提出了一种简单而有效的快速模式确定方法,模拟试验的结果表明,该方法在编码性能几乎没有降低的情况下,总体编码时间比传统方法减少了50%以上。
刘进锋张海燕
关键词:H.264JM率失真
GPU上实现的向量点积的性能分析被引量:4
2012年
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。
郭雷刘进锋
H.264/AVC编码模式选择被引量:5
2005年
H.264/AVC是最新的视频编码标准。与以前的视频标准相比编码模式更多,压缩效率更高,同时在编码模式的选择上也更复杂,计算量更大。编码时如何选择合适的编码模式对H.264/AVC的压缩性能和计算复杂度是非常关键的。本文讲述了JVT的参考软件是如何实现H.264/AVC编码模式选择。
刘进锋夏雨人
关键词:H.264JM视频编码标准
CPU与GPU上几种矩阵乘法的比较与分析被引量:7
2011年
描述了矩阵乘法在CPU上的三种实现方法和在GPU上基于CUDA架构的四种实现方法,分析了高性能方法的原由,发现它们的共同特点都是合理地组织数据并加以利用,这样能有效地减少存取开销,极大地提高算法的速度。其中CPU上的最优实现方法比普通算法快了200多倍,GPU上的最优实现方法又比CPU上的最优实现方法快了约6倍。
刘进锋郭雷
关键词:矩阵乘法统一计算设备架构图形处理器存储模式
CUDA加速分形火焰绘制被引量:1
2013年
提出了一种基于CUDA的并行分形火焰绘制算法,该算法利用了GPU的单指令多线程的特点,将常用于迭代函数系统(IFS)的传统的混沌游戏(Chaos Game)算法作了并行化修改,并在图形输出时利用了CUDA与OpenGL互操作加速分形火焰绘制。实验证明,该并行方法比CPU上运行的普通算法快了15倍左右,能够实时绘制分形火焰图形。在上述基本算法的基础上,又进一步研究了消除分支分歧的改进算法,改进算法的运行时间具有相对于变换函数数量的恒定性,多数情况下比基本算法性能更优越。
刘进锋
关键词:迭代函数系统统一计算设备架构图形处理器
CUDA和OpenGL互操作的实现及分析被引量:8
2011年
CUDA和OpenGL互操作的基本方式是使用CUDA生成数据,再利用OpenGL在屏幕上绘制出数据所表示的图形。两者的结合可以通过使用OpenGL的PBO(像素缓冲区对象)或VBO(顶点缓冲区对象1两种方式来实现。描述了CUDA和OpenGL互操作的步骤并展示了一个使用PBO的实例。该实例运行结果表明,互操作的方式比单纯使用OpenGL方式快了7-8倍。
刘进锋郭雷
关键词:CUDAOPENGL
几种CUDA加速高斯滤波算法的比较被引量:11
2013年
目前已有几种CUDA加速的图像高斯滤波算法,但这些算法有的描述不清楚,也没有人对它们的性能进行详尽的比较,这给理解及应用带来了困难。描述了几种CUDA加速的图像高斯滤波算法,包括直观的实现方式、使用共享内存的分离滤波器方法、使用纹理内存的分离滤波器方法、基于CUFFT的卷积滤波以及递归高斯滤波器。强调了这些算法的核心思想,比较了它们的时间复杂度,通过实验对它们的性能进行了分析。
刘进锋
关键词:高斯滤波统一计算设备架构图形处理器
H.264编码器复杂度分析被引量:2
2005年
通过多组试验,具体分析了H.264的编码工具Inter预测块尺寸、Hadamard转换、率失真优化、B-帧、CABAC、搜索范围及多参考帧的编码性能与复杂度.试验表明,不同的编码工具对编码器性能的影响有较大的差异:⑴某些工具或设置对编码性能影响很小,却增加了计算的复杂度,如Inter预测块的4×4块、Hadamard转换、搜索范围大于16、参考帧多于5等.⑵适当的选择编码工具可在编码效率和计算复杂度之间取得平衡.⑶复杂的设置对低比特率视频的压缩性能提高有限,但对高比特率视频的压缩性能提高较多.
刘进锋王居川徐虹
关键词:H.264JM复杂度编码器优化
共2页<12>
聚类工具0