您的位置: 专家智库 > >

陈俊仕

作品数:21 被引量:26H指数:3
供职机构:中国科学技术大学计算机科学与技术学院更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家科技重大专项更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 14篇期刊文章
  • 6篇专利
  • 1篇学位论文

领域

  • 19篇自动化与计算...
  • 1篇电子电信

主题

  • 10篇处理器
  • 8篇异构
  • 5篇神威
  • 5篇太湖
  • 3篇调度
  • 3篇动力学
  • 3篇动力学模拟
  • 3篇多核
  • 3篇多核处理
  • 3篇多核处理器
  • 3篇面向异构
  • 3篇分子
  • 3篇分子动力学
  • 3篇分子动力学模...
  • 2篇调度方法
  • 2篇有向无环图
  • 2篇任务调度
  • 2篇任务调度方法
  • 2篇数据流
  • 2篇突发数据

机构

  • 21篇中国科学技术...
  • 1篇清华大学
  • 1篇国家超级计算...

作者

  • 21篇陈俊仕
  • 20篇安虹
  • 8篇韩文廷
  • 4篇孙荪
  • 2篇邱晓杰
  • 2篇张爱民
  • 2篇江霞
  • 2篇汪朝辉
  • 2篇方涛
  • 2篇姚文军
  • 1篇刘玉
  • 1篇李丰
  • 1篇余洋
  • 1篇陈志韬
  • 1篇孙传伟
  • 1篇苏志超
  • 1篇王云云
  • 1篇金旭

传媒

  • 6篇计算机工程
  • 4篇小型微型计算...
  • 1篇计算机研究与...
  • 1篇计算机工程与...
  • 1篇计算机工程与...
  • 1篇计算机科学

年份

  • 3篇2023
  • 1篇2022
  • 1篇2021
  • 4篇2020
  • 4篇2019
  • 5篇2017
  • 1篇2016
  • 1篇2015
  • 1篇2014
21 条 记 录,以下是 1-10
排序方式:
面向新一代国产异构众核处理器的数据流计算系统
2023年
如今,科学研究已从计算科学时代进入数据科学时代.从海量数据中发现规律和突破科学发展瓶颈是数据科学范式的主要目标.与此同时,高性能计算机(HPC)也越来越重视智能算力,在传统高性能计算方法的基础上融合人工智能算法(HPC+AI),更有利于在数据科学时代解决实际问题,并能充分发挥高性能计算机的智能算力.不过,在国产HPC系统——特别是面向由新一代国产异构众核处理器sw26010pro构建的HPC系统——上支撑HPC+AI领域应用,则面临着诸多挑战.提出了一种面向国产异构众核处理器的数据流计算系统swFLOWpro,支持使用TensorFlow接口构建数据流程序,实现对用户透明的众核加速,并实现了面向全处理器视角的两级并行策略.经测试,系统针对典型核心计算,单核组众核加速比最高可达545倍、典型模型众核加速比最高可达346倍,全片6核组并行执行ResNet50模型训练,对比单核组加速比达到4.96倍,并行效率82.6%.实验表明,swFLOWpro能够支持以深度学习为代表的数据流程序在国产异构众核处理器上的高效运行.
肖谦赵美佳李名凡沈莉陈俊仕周文浩王飞安虹
关键词:数据流
基于神威太湖之光的AMBER软件移植与优化被引量:4
2020年
AMBER是一款主流的分子动力学模拟软件,用于研究分子体系内的微观运动状态。为利用神威太湖之光的海量计算资源加速AMBER软件模拟分子体系的运动过程,将AMBER软件移植到SW26010处理器的主核上建立主从加速模型,实现AMBER软件的从核并行化设计。在从核并行化的基础上提出主从异步流水化方案,利用SW26010处理器从核的局部数据缓存和直接内存存取通道技术,解决从核访存速度过低及并行访存带宽受限的问题,并通过SIMD指令将部分从核代码向量化,进一步提升AMBER软件在神威太湖之光平台上的计算性能。测试结果表明,AMBER热点函数的计算性能较优化前约提升15倍,单核组的整体性能较Intel Xeon Platinum 8163约提升4.6倍。
彭龙陈俊仕安虹
关键词:分子动力学模拟
国产申威众核处理器上分子生物学应用的算法设计和性能优化方法研究
蛋白质等生物大分子及其复合物是原子水平的精致机器,也是药物作用的靶标。通过以原子分辨率模拟结构演化并结合统计热力学理论,可以重建分子动力学变化的时间过程,解析其驱动机制,为生物功能阐释和预测以及药物设计提供依据。利用当代...
陈俊仕
关键词:分子动力学模拟分子对接
众核平台上广度优先搜索算法的优化被引量:3
2019年
图算法在多个领域具有重要的应用价值。随着社会信息化程度的提高,需要处理的图数据量越来越大,图算法的性能已成为研究热点。广度优先搜索算法是一种重要的图算法,研究它的性能优化技术可以为其他图算法的性能优化提供借鉴。目前,在新一代Xeon Phi众核处理器上的工作均基于自顶向下算法且没有考虑到非均匀访存(NUMA)对性能的影响。文中以混合广度优先搜索算法为基础,结合NUMA拓扑结构,从任务分配、向量化和数据预处理3个方面展开优化,在Xeon Phi平台上设计并实现了高性能并行广度优先搜索算法。一系列实验结果表明,优化后的算法在不同规模的测试数据上与Graph500官方优化的算法相比取得了50%~145%的性能提升。
徐启泽韩文廷陈俊仕安虹
关键词:广度优先搜索向量化
一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法
本发明公开了一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法,包括:(1)获取矩阵A中行非零元个数最大值a,处理器SIMD单元可同时计算的非零元个数b,计算大于a且为b的倍数的最小值作为临时行宽度;(2)对矩...
韩文廷张爱民江霞安虹陈俊仕孙荪汪朝辉
一种面向神威·太湖之光的通用并行卷积算法被引量:1
2019年
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低。基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法。结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力。实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好。
舒嘉明安虹武铮陈俊仕
关键词:卷积神经网络数据重用
商用处理器上针对能耗优化的DVFS调节机制
2017年
针对动态电压频率调节(DVFS)对应用程序运行时性能与功耗的影响,基于区间划分方法,使用现有商用处理器提供的性能监测单元,提出一种考虑访存延迟变化的DVFS性能预测模型,并利用该模型实现针对能耗优化的DVFS调节机制(eDVFS)。实验结果表明,与Linux内核提供的ondemand调节策略相比,该eDVFS调节机制能够获得最大23%、平均6.85%的能耗优化。
陈志韬安虹邱晓杰李丰陈俊仕
关键词:能耗优化
一种面向异构融合系统的任务调度方法及装置
本发明公开了一种面向异构融合系统的任务调度方法,包括:在接收到调度请求时,获取与所述调度请求中各个任务对应的有向无环图,其中,所述有向无环图中的各个节点与所述各个任务对应;针对所述有向无环图中的每个节点,通过与其存在依赖...
安虹林晗李明凡韩文廷林增陈俊仕
面向异构突发数据缓存的基于结构感知的I/O调度方法
本发明公开了一种面向异构突发数据缓存的基于结构感知的I/O调度方法,包括:通过运行时模块监视活动的应用程序I/O阶段的状态,并通知数据调度模块;所述数据调度模块具备结构干扰感知功能,对于接收到的I/O请求,所述数据调度模...
韩文廷梁伟浩安虹陈俊仕方涛张子豫
文献传递
一种面向异构融合系统的任务调度方法及装置
本发明公开了一种面向异构融合系统的任务调度方法,包括:在接收到调度请求时,获取与所述调度请求中各个任务对应的有向无环图,其中,所述有向无环图中的各个节点与所述各个任务对应;针对所述有向无环图中的每个节点,通过与其存在依赖...
安虹林晗李明凡韩文廷林增陈俊仕
文献传递
共3页<123>
聚类工具0