您的位置: 专家智库 > >

卢冶

作品数:15 被引量:18H指数:3
供职机构:南开大学更多>>
发文基金:国家自然科学基金天津市自然科学基金天津市应用基础与前沿技术研究计划更多>>
相关领域:自动化与计算机技术文化科学电子电信更多>>

文献类型

  • 10篇专利
  • 4篇期刊文章
  • 1篇学位论文

领域

  • 11篇自动化与计算...
  • 3篇文化科学
  • 1篇电子电信

主题

  • 4篇神经网
  • 4篇神经网络
  • 3篇加速器
  • 3篇浮点
  • 3篇浮点数
  • 2篇定点数
  • 2篇网络
  • 2篇尾数
  • 2篇细粒度
  • 2篇解码
  • 2篇加速器设计
  • 2篇CNN
  • 2篇长尾
  • 2篇乘法
  • 2篇乘法计算
  • 1篇点乘
  • 1篇迭代
  • 1篇迭代器
  • 1篇迭代优化
  • 1篇读写

机构

  • 15篇南开大学
  • 3篇中国科学院
  • 2篇闽江学院

作者

  • 15篇卢冶
  • 6篇李涛
  • 2篇陈新伟
  • 2篇李涛
  • 1篇宫晓利
  • 1篇刘哲理
  • 1篇赵猛
  • 1篇张金

传媒

  • 2篇计算机研究与...
  • 1篇软件学报
  • 1篇计算机教育

年份

  • 2篇2024
  • 5篇2023
  • 3篇2022
  • 2篇2021
  • 1篇2020
  • 1篇2017
  • 1篇2015
15 条 记 录,以下是 1-10
排序方式:
一种多模态推理与迭代优化视频描述生成模型及方法
本发明提供了一种多模态推理与迭代优化视频描述生成方法,包括以下步骤:根据采样后的视频帧得到目标特征、外观特征和运动特征;三个特征和上下文引导特征G计算得到三种单词的推理特征;选择其中一个作为基础解码器的一项输入内容;基础...
赫鑫宇仪德智谢坤鹏卢冶
一种基于弹性有效位的深度神经网络量化方法
本发明提供了一种基于弹性有效位的深度神经网络量化方法,将定点数或者浮点数量化为具有弹性有效位数的量化值,丢弃多余的尾数部分,并采用可行求解的方式来定量评价量化值与原始数据的分布差异。本发明具有弹性有效位的量化值,通过不同...
龚成卢冶李涛
文献传递
基于特征重路由的多分类器优化方法
本发明提供了一种基于特征重路由的多分类器优化方法,包括以下步骤:S1:构建MCN模型;S2:对于骨干网的每一层权值w<Sub>i</Sub>和输出的特征f<Sub>i</Sub>按比例参数τ<Sub>i</Sub>拆分成...
龚成李涛卢冶
SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架被引量:2
2023年
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps.
谢坤鹏仪德智刘义情刘航赫鑫宇龚成卢冶
关键词:卷积神经网络加速器设计
一种面向FPGA的可信执行环境边界拓展方法
本发明公开了一种面向FPGA的可信执行环境边界拓展方法,包括以下三部分:1、针对主机端到FPGA设备的控制流与数据流传输,构建系统控制通路与数据通路,包括系统安全启动及身份认证和可信I/O通道构建;2、针对异构可信计算任...
杨金妮李时简兆龙卢冶
FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架被引量:6
2022年
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.
谢坤鹏卢冶卢冶刘义情龚成陈新伟陈新伟
关键词:加速器设计
一种基于多层级中介码的图神经网络编译优化方法
本发明提供了一种基于多层级中介码的图神经网络编译优化方法,属于图神经网络技术领域,包括以下步骤:步骤1:对图神经网络模型进行预处理,然后训练模型;步骤2:将训练后的图神经网络模型转换为ONNX格式;步骤3:使用ONNX‑...
卢冶仪德智杨航
一种超低损失的深度神经网络量化压缩方法被引量:5
2021年
深度神经网络(deep neural network,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultra-low loss quantization,简称μL2Q),以揭示量化位宽与量化损失之间的内在联系,指导量化位宽选择并降低量化损失.首先,将原始数据映射为标准正态分布的数据;然后,在等宽的量化区间中搜索最优量化参数;最后,将μL2Q方法融合进DNN的训练过程,并嵌入到主流的机器学习框架Caffe及Keras中,以支撑端到端模型压缩的设计和训练.实验结果表明,与最新的研究方法相比,在相同的位宽条件下,μL2Q方法能够保证更高的模型精度,在典型的神经网络模型上精度分别提高了1.94%,3.73%和8.24%.显著性物体检测实验结果表明,μL2Q方法能够胜任复杂的计算机视觉任务.
龚成卢冶卢冶刘方鑫陈新伟陈新伟
基础教育云传媒应用体系与关键问题研究
信息技术不断发展和变化,对人类生产方式、生活方式以及学习方式产生了巨大影响和深远意义,人类正在经历信息文明。信息技术已经渗透和融入到各行各业,在教育领域,信息技术正在推动教学方式产生深刻变革。教育信息化正是随着信息文明而...
卢冶
关键词:基础教育软件系统查询优化
操作系统与嵌入式系统实验教学的融合探索被引量:5
2017年
分析目前操作系统和嵌入式系统课程的实验教学过程中的问题与挑战,阐述两个课程各自特点以及知识的综合运用,提出以开源平台为基础同时结合配套设施资源的新型教学模式,说明具体教学改革方法。
宫晓利徐浩聪张金卢冶刘哲理
关键词:操作系统嵌入式系统实验教学开源平台
共2页<12>
聚类工具0