邵恩
- 作品数:47 被引量:16H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种用于光网络的拓扑重构控制方法
- 本发明提供一种用于光网络的拓扑重构控制方法,包括:1)获取光网络为各个网络节点之间的线路所提供的带宽,以生成当前带宽矩阵;2)获取应用场景中各个网络节点之间的负载要求,以生成需求矩阵;3)对所述当前带宽矩阵与所述需求矩阵...
- 孙凝晖张少龙元国军郭嘉梁谭光明邵恩许刚肖鹏王展张佩珩
- 深度学习作业优先级调度方法及深度学习作业系统
- 本发明提出一种深度学习作业优先级调度方法,包括:于任一作业调度周期内,获取GPU集群中所有可用GPU的预测工作参数,以及该GPU集群的等待队列中所有作业的预测作业参数;以该预测工作参数和该预测作业参数预估每个作业的剩余执...
- 周悦媛 章家维 杨康邵恩谭光明
- 可重构的互连系统及其拓扑构建方法
- 本发明提供了一种可重构的互连系统。该系统包括电域网络层和至少一层光域网络层,其中,所述电域网络层包括用于将电域信号和光信号进行相互转换的收发器,所述光域网络层包括信号复用/分离器以及基于波长选择开关的光交换机,所述收发器...
- 肖鹏元国军许刚郭嘉梁张少龙王展臧大伟金堰安邵恩
- 面向大规模计算集群的多轨分割网络被引量:2
- 2017年
- 在千万亿次规模的系统中,互连网络设计面临新的挑战.高性能节点和大规模是构建千万亿次系统的主要技术趋势,不断提高的节点计算能力要求互连网络提供更高的性能,而不断增大的规模又对互连网络扩展性提出了更高的要求.此外,随着系统规模的增大,集合通信的执行时间也在不断增长,制约了应用的扩展性,集合通信的性能需要得到进一步优化.除性能之外,可靠性问题也随着系统规模的扩大而日益严重.而随着计算节点性能的不断提高,互连网络逐渐成为限制大规模计算机系统性能的瓶颈.互连网络核心部件交换芯片可提供的聚合网络带宽受到工艺和封装技术的限制.从网络结构与交换机结构的协同设计思想出发,提出了一种在交换机聚合带宽限定的条件下多轨分割网络结构和设计方法.通过数学建模和网络模拟仿真,分析了该多轨分割网络的性能边界.评测结果表明:该网络可将短消息(长度小于128B)的平均延迟性能提高10倍以上,为以短消息占多数的数据中心网络的性能优化提供了新思路.
- 邵恩元国军元国军曹政孙凝晖
- 关键词:数据中心网络
- 一种基于全局链路负载均衡的网络链路控制方法和系统
- 本发明涉及一种基于全局链路负载均衡的网络链路控制方法和系统,包括:根据计算网络中所有作业的计算资源部署位置,按照分组内计算资源部署位置连续的原则划分同一作业的计算资源,得到多个分组,根据作业的通信特征,统计分组间发生通信...
- 邵恩张鹏王展元国军谭光明孙凝晖安学军
- 基于自适应时序匹配的低延迟寄存器堆
- 2018年
- 指出半导体工艺与晶体管特性参数的随机波动随着芯片特征尺寸不断减小越来越大,传统的基于预匹配的寄存器堆设计方法必须通过增大匹配裕量来保证读写操作的可靠性,为了克服制约寄存器堆性能提升的这一关键因素,提出了一种基于自适应时序匹配的低功耗寄存器堆电路结构。该结构通过对多端口寄存器堆的访存时序进行自适应匹配与调优,达到减小寄存器堆访问延时、降低功耗以及提高芯片工艺敏感度的目的。电路及版图仿真结果显示:基于该方法实现的3读2写32×64 bit寄存器堆,在SMIC 40nm工艺条件下,芯片面积为135.5μm×65.1μm,访存延迟为357ps,相比于传统的Chain Delay匹配技术,延迟减小22%,功耗降低35%。
- 元国军沈华沈华邵恩
- 关键词:低延迟低功耗静态随机存储器
- 基于环形总线的硅芯片及其配置方法
- 本发明提供一种基于环形总线的硅芯片,其包括接口模块,对应于主节点,以及至少二个功能模块,分别对应从节点;其中,所述接口模块与各所述功能模块通过一环形总线串行连接,所述接口模块通过所述环形总线传输一数据包对各所述功能模块进...
- 陈广雷王展元国军许晶李泽君姜涛谭光明邵恩
- 一种基于微容器及云函数的轻量虚拟化裁剪方法
- 本发明提供一种基于微容器及云函数的轻量虚拟化裁剪方法。同时,作为该方法的实施例,本发明还提供了基于微容器及云函数的轻量虚拟化裁剪方法及系统,包括将用户的服务请求的执行代码编译为执行文件,根据该执行文件和基础容器镜像,生成...
- 邵恩王紫阳马立贤谭光明孙凝晖
- 一种面向链路资源的自适应互连与路由控制方法和系统
- 本发明涉及一种面向直接网络快速通路链路资源的自适应互连与路由控制系统,包括高维交换机互连模块、路由信息生成模块、路由表生成模块,以及高维交换机之间的互连方法和相应的无死锁路由方法。高维交换机互连模块会根据快速通路的链路资...
- 邵恩张鹏王展元国军谭光明孙凝晖安学军
- 基于异构编程模型的共性算子移植与并行优化
- 2025年
- GPU作为构造大规模超算系统的核心计算部件,向着体系结构多样化和异构化的方向发展.来自不同芯片厂商的GPU加速器具有差异较大的体系结构设计.加速器类型和编程模型多样化是构建大规模超算系统的重要技术趋势.多样化加速器要求开发者为多种硬件平台提供高性能共性算法库软件,然而这也导致了算法库软件重复开发问题.为降低重复开发成本,统一编程模型SYCL(system-wide compute language)应运而生,并适配了多种硬件平台.尽管如此,在不同硬件上,SYCL的性能仍不及各自原生编程模型.因此,需要进一步优化SYCL的性能以将目前成熟完备的CUDA(compute unified device architecture)编程思路和高性能程序应用到SYCL中.基于软硬件协同设计,提出了paraTRANS方法,该方法是面向跨异构编程模型SYCL代码移植过程中共性算子优化工具,并在不同场景下给出了对移植得到的SYCL的GEMM(general matrix multiplication)进行优化的方法.评测了paraTRANS优化后基于SYCL的GEMM算子在NVIDIA RTX 3090和AMD MI100上的性能情况.结果显示,在NVIDIA RTX 3090上,paraTRANS达到了96.95%CUDA原生算子的性能水平;在AMD MI100上,则接近CUDA在NVIDIA RTX 3090上硬件峰值百分比(100.47%)所表现出来的性能水平.这些结果表明成功地将原生高性能CUDA算子代码移植并进一步优化至SYCL环境中,并为未来类似工作提供新颖且有效的优化思路.
- 马兆佳邵恩狄战元马立贤
- 关键词:代码移植