李文明
- 作品数:84 被引量:27H指数:3
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种ECDSA算法执行系统及方法
- 本发明提供一种ECDSA算法执行系统及方法,主机端通过数据流芯片进行加密和解密操作,通过网络传输加密信息。本发明相比于现有技术,通过将ECDSA算法移植到数据流架构芯片上,利用了数据流架构芯片低访存需求的特点,加快了EC...
- 范志华秦宏吴欣欣李文明安学军叶笑春范东睿
- 文献传递
- NDP-Ledger:面向区块链应用的通用高通量加速架构
- 2020年
- 区块链技术由于去中心化及不可篡改等特性,广泛应用于数字货币、支付交易等领域,其算法对计算能力和存储访问能力有较高要求,导致传统冯诺依曼结构在面向区块链应用时能效比较低。3D堆叠存储器因可以缓解冯诺依曼结构的访存瓶颈,成为了热门研究方向之一。本文基于3D堆叠存储器技术及数据流执行模式,提出了一种面向区块链应用的高通量近数据处理(NDP)架构,NDP-Ledger。本文深入分析和论证了区块链应用的计算特征及3D堆叠存储技术在区块链应用中的适应性问题,并基于数据流执行模式设计了一种通用的高并发区块链加速体系结构,使区块链加速器在满足通用性的前提下提高处理性能。模拟评估结果表明,本文提出的区块链通用加速器结构,在典型区块链应用处理方面的性能优于主流的CPU和GPU。
- 安述倩李文明李文明范志华吴萌王达张浩王达
- 关键词:区块链数据流
- 一种异常事件自动推送及基于历史操作的监控方法及系统
- 本发明提出一种异常事件自动推送及基于历史操作的监控方法及系统,涉及监控室内视频墙智能显示领域,该方法包括获取多路视频流,对所述多路视频流进行编解码操作,生成与每路所述视频流相对应的图像帧,通过识别算法对所述图像帧进行异常...
- 李文明叶笑春孙凝晖范东睿王达马丽娜朱亚涛张洋
- 文献传递
- 面向数据流结构的指令内访存冲突优化研究被引量:1
- 2019年
- 神经网络等人工智能应用的迅速兴起给传统处理器的设计带来了巨大的挑战,粗粒度数据流架构因具有高指令并发和高通用性的特点成为研究热点.然而,由于粗粒度数据流结构处理单元采用随机访问存储器作为存储结构,加之神经网络中大部分运算数据具有密集型特点,造成大量的指令内操作数访存冲突.通过分析典型神经网络的访存行为,发现此类应用存在指令内操作数冲突,会引起计算部件利用率的降低.基于此分析,提出了灵活的数据冗余策略.在编译指令阶段,为指令内有访存冲突的操作数申请数据冗余空间,降低指令内操作数访存延迟.实验以典型的神经网络LeNet,AlexNet为基准测试程序.采用灵活的数据冗余策略之后,能耗比相对于Round-Robin和ReHash的无数据冗余策略分别提高了30.21%和12.37%,相比于2套全数据冗余策略能耗比提高了27.95%.
- 欧焱冯煜晶李文明叶笑春王达范东睿
- 关键词:数据冗余能耗比
- 一种哈希硬件处理装置及方法
- 本发明提供一种基于阻变存储器的哈希硬件处理装置及方法,所有的源数据无需送往CPU进行哈希函数的计算,在RRAM中根据电流叠加效应即可完成哈希函数输入数据的操作,并在存储器中实现哈希表的建立,无需将大量的源数据送往CPU后...
- 李文明叶笑春安述倩姜志颖王晨晖范东睿
- 文献传递
- 高密度片上网络的路网实现方法及装置
- 本发明提供了一种高密度片上网络的路网实现方法,适用于众核片上网络技术领域,包括:步骤1,将第一路由和第二路由的链路划分为多个低宽度的自治的子链路;步骤2,检测输入端口的数据包的队列,配置所述子链路和所述队列在同一时刻并行...
- 李文明孙凝晖谢向辉李宏亮郑方
- 文献传递
- 高通量众核数据流处理器及其任务执行方法
- 本发明提出一种高通量众核数据流处理器,包括:多个处理单元,相互通信连接形成该处理器的片上网络结构;每个该处理单元包括多个子处理单元,该子处理单元包括指令子存储器和数据子存储器,多个该子处理单元以阵列结构排列,且相互通信连...
- 李文明安述倩吴海彬刘艳欢吴萌叶笑春范东睿
- 文献传递
- 基于数据流架构的快速傅里叶变换方法、系统和存储介质
- 本发明涉及一种基于数据流架构的快速傅里叶变换方法、系统和存储介质,包括:从X个源操作数中按照码位倒置顺序载入2(log<Sub>2</Sub>X‑log<Sub>2</Sub>Y)个源操作数和旋转因子,Y为处理单元数,以...
- 邹沫张鲁培李文明叶笑春范东睿
- 文献传递
- 面向低精度神经网络的数据流体系结构优化
- 2023年
- 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分�
- 范志华吴欣欣李文明李文明安学军安学军范东睿
- 关键词:直接内存访问
- SPARC平台模拟器源码级调试系统的研究与实现被引量:2
- 2013年
- 软件模拟器采用软件思想模拟真实硬件工作情况,作为嵌入式系统研究的基础研发工具,被广泛应用于体系结构设计调优、软硬件协同设计领域。研究提出一种在SPARC指令集模拟器平台上实现源码级调试系统的方法,一方面该方法使用SPARC交叉调试器对运行于SPARC指令集模拟器上的应用程序进行源码级调试,有效避免了单独实现源码级调试器所带来的调试信息解析困难、可靠性难以验证的弊端;另一方面提出了在集成开发环境下源码级调试系统的高效集成机制,有效解决了进程间切换延时开销大、界面僵死等问题,为SPARC平台嵌入式系统开发人员提供了一种支持图形化界面的高可靠性源码级调试系统。通过具体实现分析,对整个调试系统进行了性能评估。
- 范涛刘高辉叶笑春李文明宋爽范东睿
- 关键词:SPARCV8模拟器嵌入式系统