您的位置: 专家智库 > >

李威

作品数:23 被引量:21H指数:3
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金北京市自然科学基金中国科学院战略性先导科技专项更多>>
相关领域:电子电信自动化与计算机技术文化科学理学更多>>

文献类型

  • 11篇专利
  • 9篇期刊文章
  • 2篇会议论文
  • 1篇学位论文

领域

  • 6篇电子电信
  • 5篇自动化与计算...
  • 1篇文化科学
  • 1篇理学

主题

  • 9篇智能处理器
  • 9篇处理器
  • 6篇分形
  • 5篇规约
  • 4篇数据装载
  • 3篇电路
  • 3篇硬件
  • 3篇存储器
  • 2篇电子设备
  • 2篇动态控制
  • 2篇一致性
  • 2篇硬件架构
  • 2篇原语
  • 2篇指令集
  • 2篇指令译码
  • 2篇数据吞吐率
  • 2篇数据一致
  • 2篇数据一致性
  • 2篇吞吐
  • 2篇人工智能

机构

  • 23篇中国科学院
  • 4篇中国科学院大...
  • 3篇辽宁大学
  • 2篇中国科学技术...
  • 2篇中国科学院电...
  • 2篇上海寒武纪信...
  • 1篇中国电子科技...

作者

  • 23篇李威
  • 11篇郭崎
  • 2篇高丽江
  • 2篇史忠植
  • 2篇赵宏亮
  • 2篇杨海钢
  • 2篇陈云霁
  • 2篇刘兴辉
  • 1篇李莉
  • 1篇韦援丰
  • 1篇王绩伟
  • 1篇潘谦红
  • 1篇康大为
  • 1篇刘长龙
  • 1篇郝亚男

传媒

  • 2篇中国科学院院...
  • 2篇电子设计工程
  • 1篇电子与信息学...
  • 1篇微电子学与计...
  • 1篇高技术通讯
  • 1篇微电子学
  • 1篇中国科学:信...
  • 1篇第六届全国机...
  • 1篇第五届中国人...

年份

  • 5篇2024
  • 4篇2022
  • 1篇2021
  • 5篇2020
  • 5篇2019
  • 3篇1998
23 条 记 录,以下是 1-10
排序方式:
面向机器学习系统的张量中间表示
2022年
随着各类机器学习算法的广泛应用,高能效地定制机器学习系统受到越来越多的关注.定制机器学习系统高效部署的关键在于其编程与编译环境.中间表示是编程与编译环境的核心,用于连接上层编程语言和底层硬件指令.当前的中间表示或是面向上层算法或是面向以标量处理为核心的传统处理器,难以高效应对以张量处理为核心的机器学习系统.本文提出了面向机器学习系统的张量中间表示,以提升机器学习系统的编程和运行效率.具体而言,我们定义了一系列张量类型,张量操作及张量存储空间,并在此基础上进行张量处理优化.我们将所提出的张量中间表示对TVM的底层标量中间表示进行了扩展并在典型机器学习系统上进行了实验.我们探索了原有中间表示没有发掘的优化并取得了1.62~2.85倍的性能提升,同时在典型算子的开发效率上平均提升了5.46倍.
庄毅敏文渊博李威郭崎
关键词:机器学习系统编程效率
一种基于改进基4 Booth算法和Wallace树结构的乘法器设计被引量:4
2019年
以实现25×18位带符号快速数字乘法器为目标,采用改进的基4Booth算法以3位编码产生部分积,优化最低位产生电路,使用统一的操作扩展各部分积符号位,相比于传统方法提高了阵列规则性、节省了芯片面积;用传输门构成基本压缩器,并在此基础上优化实现高阶压缩器,进而组成一个Wallace树结构,同时将9组部分积压缩为2组,使电路仅需3级压缩、关键路径延迟时间为8个异或门延迟,有效地提高了压缩效率和降低了关键路径延迟时间。采用GF28nmCMOS工艺,以全定制流程设计,版图面积为0.0112mm^2,仿真环境标准电压1.0V、温度25℃、最高工作时钟频率1.0GHz,系统的功耗频率比为3.52mW/GHz,关键路径延时为636ps,组合逻辑路径旁路寄存器的绝对延时为1.67ns。
吴美琪赵宏亮刘兴辉康大为李威
关键词:乘法器WALLACE树压缩器
移动主体的研究与应用
面对Internet上信息量增长和信息访问频率的增加,在信息源所在的网络结点进行信息检索与处理,而不是通过大量的网络通讯,将是高效、可靠与灵活的方法。为了达到这个目的有两种选择:一是利用传统的Client/Server模...
李威
关键词:多主体系统分布对象计算分布式人工智能
文献传递
用于智能处理器的指令执行方法、装置及电子设备
本公开提供一种用于智能处理器的指令执行方法及装置,方法包括:指令译码,将执行分形运算的串行分解子指令译码为本地指令及分形运算指令;数据装载,将分形运算所需数据从外部存储单元读取至智能处理器的本地存储单元;操作执行,根据分...
支天赵永威李威张士锦杜子东郭崎
用于分形智能处理器的分形可重配指令集
本公开提供一种用于分形智能处理器的分形可重配指令集,该分形可重配指令集将本地指令或计算原语映射为用于分形运算的分形指令,该本地指令作用于向量数据或标量数据。该分形可重配指令集包括间接指令域。对应的,分形智能处理器的控制系...
支天赵永威李威张士锦杜子东郭崎
适用于现场可编程门阵列I/O通道的可编程延时单元结构设计方法研究被引量:3
2019年
本文对FPGA芯片输入输出通道模块的可编程延时单元设计方法进行了研究,针对可编程延时单元所需的延时调整范围广、延时调整精度高、延时级数多的特性,提出了一种输入输出信号时序可调整的结构设计方法,以满足总线信号边沿对齐或电路建立与保持时间的要求.所设计的延时链采用粗调延时单元与细调延时单元相结合的方式提高精度和覆盖范围,并在较少的控制向量下,实现了45级延时.延时链延时步进精度为100ps,延时最大值为4.58ns.其功耗和面积分别是传统反相器链结构延时单元的34.5%和55.9%.
高丽江杨海钢杨海钢李威
关键词:现场可编程门阵列输入输出通道
一种高速的全差分等占空比分频器设计被引量:3
2019年
以提高延迟锁定环(Delay Locked Loop,DLL)输出系统时钟的灵活性为目标,提出了一种应用于高速DLL的可配置全差分等占空比整数半整数分频器。基于周期插入的思想,采用差分时钟信号周期插入及脉冲展宽的方法,设计了一种互锁的差分电路结构。相比于传统方法,具有工作频率高、抗干扰性好、可实现等占空比等优点。基于GF28nm标准CMOS工艺,采用全定制设计方法实现。仿真结果表明,在1.0V标准电源电压下,其最高工作时钟频率可达到1.2GHz,可实现1.5至16共22种分频比,版图面积为(21×38)μm2,整体模块功耗仅为0.776mW。
王晶楠赵宏亮李威
关键词:延迟锁定环分频器
用于智能处理器的指令分解方法、装置及电子设备
本公开提供一种用于智能处理器的指令分解方法、装置及电子设备,所述智能处理器根据分形指令进行分形运算,所述方法包括:确定对所述分形指令的操作数进行分解的维度的分解优先级;根据所述分解优先级选择当前分解的维度;在所述当前分解...
支天赵永威李威张士锦杜子东郭崎
文献传递
分布式环境下的数据库知识发现
该文提出了在分布式环境下基于移动主体的KDD系统,讨论了系统的体系结构、知识发现算法及移动主体在该系统中的工作原理。它对分布式环境下,特别是Internet下发现大规模不同类型的数据的隐含信息提供了一种有效的途径。
史忠植潘谦红李威
关键词:分布式环境数据库知识发现
文献传递
分布式信息检索的移动主体JMAT
动分布信息检索主体,是一种可以在异构网络环境中移动,通过与信息检索引擎的局部交互,从而高效地完成分布信息检索任务的自治软件主体。该文介绍了一种利用移动主体进行分布信息检索的模型。分布信息检索,是以Java作主体语言、以K...
李威史忠植李莉
共3页<123>
聚类工具0