您的位置: 专家智库 > >

陈瑶

作品数:8 被引量:71H指数:3
供职机构:广东工业大学计算机学院更多>>
发文基金:NSFC-广东联合基金国家自然科学基金天津市自然科学基金更多>>
相关领域:自动化与计算机技术电子电信天文地球更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 2篇电子电信
  • 1篇天文地球

主题

  • 3篇神经网
  • 3篇神经网络
  • 3篇网络
  • 3篇卷积
  • 3篇卷积神经网络
  • 3篇FPGA
  • 2篇设计空间探索
  • 2篇加速器
  • 2篇H.264
  • 1篇调度
  • 1篇多信道
  • 1篇信道
  • 1篇移动机器人
  • 1篇硬件
  • 1篇硬件模块
  • 1篇云端
  • 1篇噪声
  • 1篇噪声模型
  • 1篇阵列
  • 1篇统一计算设备...

机构

  • 7篇南开大学
  • 5篇广东工业大学
  • 1篇中国科学院
  • 1篇闽江学院

作者

  • 8篇陈瑶
  • 4篇蔡瑞初
  • 4篇孟祥刚
  • 3篇梁科
  • 3篇李国峰
  • 3篇高腾
  • 2篇陈新伟
  • 1篇陈炳丰
  • 1篇汪星一
  • 1篇李涛
  • 1篇林长龙
  • 1篇郑美香

传媒

  • 2篇微电子学
  • 1篇计算机研究与...
  • 1篇电子技术应用
  • 1篇计算机应用
  • 1篇计算机应用研...
  • 1篇计算机工程与...
  • 1篇闽江学院学报

年份

  • 2篇2020
  • 2篇2018
  • 2篇2017
  • 2篇2016
8 条 记 录,以下是 1-8
排序方式:
基于IMU的移动机器人精确角度获取方法被引量:3
2017年
IMU(inertial measurement unit)在移动机器人精确角度获取中存在测量精度低、噪声大等问题.通过分析IMU角速度随机误差,建立AR(1)噪声模型,在此基础上结合卡尔曼滤波方法构建滤波器,再通过将随机运动分解为小时间片段内的匀角速度运动,将上述滤波器的应用从匀转速角度数据获取扩展至了任意随机运动角度的获取,并可实现角度值的预测.实验结果显示,应用该算法,匀速运动360°后的累积误差为5.5°,随机运动30 s后的累积误差为2.2°.
陈新伟孟祥刚阙雅静汪星一陈瑶郑美香
关键词:惯性测量噪声模型移动机器人
基于CUDA的多信道锋电位实时分类方法
2020年
为提高多信道神经元锋电位分类任务的计算效率,满足其在实时场景下的应用需求,提出基于统一计算设备架构(compute unified device architecture,CUDA)的掩蔽高斯混合模型的并行化实现和优化方案。利用高维锋电位数据的稀疏特性和高斯混合模型的强抗干扰性以及良好并行性,借助GPU图形处理器,对特征掩蔽高斯混合模型(Masked Gaussian mixture model,Masked GMM)进行并行实现,进行针对性优化。实验结果表明,在32信道的锋电位数据集上,与原有的CPU串行实现相比,该方案分类速度提高了170倍左右,达到了实时计算,为高维信道锋电位实时分类提供了可行的解决方案。
蔡瑞初赵坤垚黄礼泊何炯陈瑶
关键词:图形处理单元统一计算设备架构
面向“边缘”应用的卷积神经网络量化与压缩方法被引量:18
2018年
针对卷积神经网络(CNN)推理计算所需内存空间和资源过大,限制了其在嵌入式等"边缘"设备上部署的问题,提出结合网络权重裁剪及面向嵌入式硬件平台数据类型的数据量化的神经网络压缩方法。首先,根据卷积神经网络各层权重的分布,采用阈值法对网络精确率影响较小的权重进行裁剪,保留网络中重要连接的同时除去冗余信息;其次,针对嵌入式平台的计算特性分析网络中权重及激活函数所需的数据位宽,采用动态定点量化方法减小权重数据的位宽;最后,对网络进行微调,在保障网络模型识别精度的前提下进一步压缩模型大小并降低计算消耗。实验结果表明,该方法降低了VGG-19网络95.4%的存储空间而精确率仅降低0.3个百分点,几乎实现无损压缩;同时,通过多个网络模型的验证,该方法在平均1.46个百分点精确率变化范围内,最大降低网络模型96.12%的存储空间,能够有效地压缩卷积神经网络。
蔡瑞初钟椿荣余洋陈炳丰卢冶陈瑶
关键词:卷积神经网络
H.264中DCT算法在FPGA上的高层次综合实现被引量:1
2016年
针对传统硬件设计方法在大规模算法应用实现中的高复杂度,提出了一种高层次综合方法,从而实现高效快速地硬件设计。以H.264编码中常用的DCT算法的硬件实现为目的,对算法的C语言实现进行优化,并使用高层次综合工具将优化后的C语言算法描述转换为专用硬件加速器;通过高层次综合工具提供的接口设定、流水线插入、块并行等操作,对生成的硬件作进一步优化;与人为DCT算法的RTL设计和采用高层次综合方法的DCT硬件设计相比,具有更大的设计空间和更高的代码可裁剪性。FPGA实现结果表明,H.264中基于高层次综合方法的DCT算法在节省大量设计开发时间的前提下,可达到每秒处理516兆个整型数的计算性能。
陈瑶林长龙高腾孟祥刚梁科李国峰
关键词:H.264DCT算法FPGA实现设计空间探索
面向云端FPGA的卷积神经网络加速器的设计及其调度被引量:1
2020年
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。
蔡瑞初余洋钟椿荣卢冶陈瑶
关键词:卷积神经网络现场可编程门阵列加速器调度
面向边缘计算的嵌入式FPGA卷积神经网络构建方法被引量:46
2018年
当前,高计算消耗的应用和服务逐渐从集中式云计算中心向网络边缘的嵌入式环境迁移,FPGA因其灵活性和高能效特性,使其在边缘计算的嵌入式系统中得到广泛的应用.传统的FPGA卷积神经网络构造方法存在设计周期长和优化空间小等缺点,无法有效探索硬件加速器的设计空间,在网络边缘的的嵌入式环境下尤为明显.针对该问题,提出一种面向边缘计算的嵌入式FPGA平台卷积神经网络通用的构建方法.通过设计卷积神经网络函数中的网络层间可复用的加速器核心,以少量硬件资源实现性能优化的卷积神经网络硬件;通过拓展设计、缓存优化及数据流优化等技术,实现HLS设计优化;利用该方法在嵌入式FPGA平台上构建相应卷积神经网络,实验结果表明:优化后的网络模型在与Xeon E5-1620CPU和GTX Titan GPU相比时,在功耗与性能方面具有一定优势,适合应用于边缘计算环境中.
卢冶陈瑶李涛蔡瑞初李涛
关键词:FPGA
H.264中逆量化逆变换的高层次综合实现
2016年
逆变换与逆量化是H.264解码器中的一个重要环节,由于其算法复杂度较高,利用传统的RTL方法设计其硬件电路需要消耗大量的设计时间并经历复杂的验证过程。提出了采用高层次综合的方法进行高效快速的逆变换逆量化硬件模块设计。测试结果表明,该方法可以较快地得到针对FPGA平台的逆变换逆量化硬件模块,同时可对其设计空间进行有效探索,得到满足不同需求的硬件模块。
陈新伟孟祥刚高腾陈瑶梁科李国峰
关键词:H.264解码器逆量化逆变换设计空间探索
FFT算法硬件模块的高层次综合实现与优化被引量:4
2017年
针对传统硬件描述语言对模型和算法的结构调整及优化结果对比存在难度大、开发周期长等不足,提出了利用高层次综合的方法进行算法的硬件模块设计。以基于时间抽取的16点基-2FFT为例,利用C语言对算法进行描述,通过循环展开、数组分割、乘法简化、单个时钟周期长短调整等优化方式对设计结果进行探索。探索结果表明,通过更改C语言数据类型和代码结构,能够快速实现不同性能要求的硬件方案设计,与传统寄存器传输级(RTL)实现相比,大大降低了算法模块的设计难度,缩短了开发周期,便于探索硬件设计过程中的各种可能性。
孟祥刚陈瑶高腾梁科李国峰
共1页<1>
聚类工具0