杨超
- 作品数:49 被引量:46H指数:4
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学天文地球石油与天然气工程更多>>
- 一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法
- 本发明公开了一种基于国产申威26010处理器的稀疏矩阵向量乘异构众核实现方法,由于稀疏矩阵的非零元分布很不规则,该方法设计了静态、动态两种不同的任务划分方法,以适应不同的稀疏矩阵;提出了一套动静态的缓存机制,以提升向量x...
- 刘芳芳杨超吴长茂
- 一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法
- 本发明提出了一种基于申威平台的基础线性代数库BLAS三级函数GEMM的高性能实现方法,针对国产申威SW1600平台,采用“interface接口?driver驱动?kernel汇编核心代码”的三层代码设计框架,使用乘加指...
- 刘昊杨超刘芳芳赵玉文张鹏孙乔
- 行星流体动力学数值模拟程序的千核性能优化
- 2010年
- 基于百万亿次超级计算机深腾7000,对行星流体动力学数值模拟程序的性能优化进行了研究。首先,进行了从原基于Aztec库到PETSc库改进后的程序的8-2048核强可扩展性测试。测试结果表明,在每节点8核或4核时,PETSc程序运行时间平均是Aztec程序29.31%或24.97%。其次,针对该程序压力方程的系数矩阵特点,设计实现了CVRSD存储格式的SpMV优化,下一步将移植到基于PETSc库的行星流体动力学程序中。
- 张云泉王婷孙相征杨超李力刚
- 关键词:可扩展性
- 大整数乘法Sch?nhage-Strassen算法的多核并行化研究被引量:2
- 2018年
- 基于数论转换的Sch?nhage-Strassen算法(简称SSA)是目前实际应用中使用较多、速度较快的大整数乘法算法之一.首先对SSA算法原理进行了详细分析,然后从细粒度的角度对SSA算法在多核平台进行比较细致的并行优化.基于大整数运算开源库GMP实现了SSA算法并行化方案,并在Intel X86平台进行了验证和测试.经测试,8线程时的最大加速比可达到6.59,平均加速比6.41.在浪潮TS850服务器对并行方案的扩展性进行测试,实验结果表明:SSA算法并行方案具有良好的扩展性,最大加速比可达21.42.
- 赵玉文刘芳芳蒋丽娟杨超
- 关键词:大整数乘法傅里叶变换FFT多核并行
- 一种基于PETSc的GCRO-DR算法并行处理方法
- 本发明公开一种基于PETSc的GCRO-DR算法并行处理方法,(1)并行进行m步Arnoldi迭代,生成子空间V<Sub>m+1</Sub>和hessenberg矩阵<Image file="DDA00005606795...
- 刘芳芳杨超
- 文献传递
- 国产申威26010众核处理器上多维FFT的高性能实现方法
- 本发明提出一种国产申威26010众核处理器上多维FFT的高性能实现方法,基于国产处理器申威26010平台,将两层分解的一维FFT的求解算法,有效应用于多维FFT计算,并设计带输入输出跨度的FFT、多行一维FFT和多列一维...
- 杨超赵玉文张佳佳刘芳芳孙乔
- 文献传递
- 基于FFT的大整数乘法SSA算法多核并行化实现方法
- 一种基于FFT的大整数乘法SSA算法多核并行化实现方法,其是从细粒度的角度对大整数乘法SSA算法进行多核并行优化,其核心是对利用SSA算法求取负循环卷积的四个核心计算过程分别进行并行设计,即分别对分解、FFT正变换、点乘...
- 赵玉文刘芳芳杨超解庆春蒋丽娟
- 一种基于GMP的大整数加法和减法多核并行化实现方法
- 本发明涉及一种基于GMP的大整数加法和减法多核并行化实现方法,首先借助于临时数组来解决加法或减法操作产生的进位或借位带来的数据相关性问题,然后采用将迭代循环for中的运算进行任务划分,基于OpenMP多线程编程实现,使用...
- 赵玉文刘芳芳解庆春杨超蒋丽娟
- 非规则区域傅氏变换与快速算法
- 孙家昶李会元杨志杰杨超
- 该成果是将逼近与偏微分方程相结合,把Fourier方法推广到一类非规则区域,理论上推广到任意m维的m+1方向分割,并建立了相应的离散快速算法(HFFT)。
- 关键词:
- 关键词:傅氏变换
- 行星流体动力学大规模并行模拟及分析
- 主要介绍了行星流体动力学大规模并行模拟中病态压力方程的预条件子和迭代算法的选取,并根据 强弱可扩展性的概念,对弱可扩展性的实验结果进行了分析。具体分析了在维持每核平均的浮点操作次数基 本不变的情况下,倍增处理器规模时,程...
- 王婷张云泉孙相征杨超
- 关键词:预条件迭代