陈长波
- 作品数:26 被引量:28H指数:2
- 供职机构:中国科学院重庆绿色智能技术研究院更多>>
- 发文基金:国家自然科学基金重庆市科技攻关计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术理学医药卫生更多>>
- 带状稀疏矩阵乘法及高效GPU实现
- 2023年
- 稀疏-稠密矩阵乘法(SpMM)广泛应用于科学计算和深度学习等领域,提高它的效率具有重要意义。针对具有带状特征的一类稀疏矩阵,提出一种新的存储格式BRCV(Banded Row Column Value)以及基于此格式的SpMM算法和高效图形处理单元(GPU)实现。由于每个稀疏带可以包含多个稀疏块,所提格式可看成块稀疏矩阵格式的推广。相较于常用的CSR(Compressed Sparse Row)格式,BRCV格式通过避免稀疏带中列下标的冗余存储显著降低存储复杂度;同时,基于BRCV格式的SpMM的GPU实现通过同时复用稀疏和稠密矩阵的行更高效地利用GPU的共享内存,提升SpMM算法的计算效率。在两种不同GPU平台上针对随机生成的带状稀疏矩阵的实验结果显示,BRCV的性能不仅优于cuBLAS(CUDA Basic Linear Algebra Subroutines),也优于基于CSR和块稀疏两种不同格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比分别为6.20和4.77。此外,将新的实现应用于图神经网络(GNN)中的SpMM算子的加速。在实际应用数据集上的测试结果表明,BRCV的性能优于cuBLAS和基于CSR格式的cuSPARSE,且在大多数情况下优于基于块稀疏格式的cuSPARSE。其中,相较于基于CSR格式的cuSPARSE,BRCV的最高加速比为4.47。以上结果表明BRCV可以有效提升SpMM的效率。
- 刘丽陈长波
- 关键词:图形处理单元共享内存
- 基于简化爆炸流场模型的分裂效果研究与实现
- 在虚拟现实的很多应用中,如战场仿真,模拟训练等,常常需要对爆炸现象建模。爆炸广义上指一种极为迅速的物理或化学的能量释放过程,而通常所说的爆炸指化学爆炸。它们由物质发生化学反应引起,瞬间释放巨大能量的同时常产生丰富的可见现...
- 陈长波
- 关键词:图形处理器
- 文献传递
- 基于STL文件的3D打印分层算法研究及实现
- 李文康陈长波吴文渊
- 一种保留模型特征的3D打印自适应切片方法
- 本发明涉及一种保留模型特征的3D打印自适应切片方法,属于3D打印技术领域。该方法包括以下步骤:1)根据实际工程设计,建立三维模型,并对模型进行网格化处理,生成STL文件数据;2)对模型的STL文件数据进行预处理;3)采用...
- 陈长波李文康杨文强
- 文献传递
- 一种用于3D打印中CLI文件错误检查的方法
- 本发明涉及一种用于3D打印中CLI文件错误检查的方法,属于3D打印技术领域。该方法包含以下步骤:1)判断所需进行3D打印的CLI文件是否满足CLI文件的格式要求,若不满足,则无法对其进行错误检查;2)检查CLI文件,判断...
- 陈长波李文康吴文渊杨文强
- 一种图神经网络的变维批处理小矩阵乘法加速方法
- 本发明提供了本发明提供了一种图神经网络的变维批处理小矩阵乘法加速方法,属于高性能计算领域。首先设计了三种不同的变维小矩阵乘法加速策略,包含:针对维度固定或矩阵分布不均的BVSM‑B策略、针对维度跨度较小且分布均匀的BVS...
- 陈长波戴翰文杨文强
- 一种双重约化的矩阵乘法的分块参数空间优化方法
- 本发明涉及一种双重约化的矩阵乘法的分块参数空间优化方法,属于计算机数值计算领域,该方法包括以下步骤:S1:输入矩阵乘法算子;S2:获取相关的信息,选取DNMM变换;S3:定义优化Schedule;S4:计算参数空间;S5...
- 陈长波池昊宇杨文强
- 文献传递
- 基于强化学习的柱形代数分解变元择序
- 2024年
- 柱形代数分解是半代数系统求解和实量词消去的基本工具.实际求解过程中,不同变元序的选择对柱形代数分解的效率影响重大.目前已有的启发式或机器学习择序的方法基本都建立在多项式系统的支撑集是影响变元序的决定因素这一隐含假设上.文章首先通过设计同支撑集变系数的实验对这一假设进行了检验,实验表明支撑集确实是影响最佳变元序的重要因素但并非唯一因素.针对同支撑集变系数的柱形代数分解最佳择序问题,文章设计了基于强化学习的择序方案,四变元的实验表明该方案可以突破已有方法只依赖支撑集选择最佳变元序准确率的上限.另外,针对多达二十万亿可选序系统的实验表明,该方案远优于传统的启发式方法.同已有的针对较少变元的监督学习择序方案相比,该强化学习方案克服了变元增多导致序数量组合爆炸时获得高质量标记数据的困难.
- 荆瑞娟钱铖镕陈长波
- 关键词:支撑集
- 基于分级神经网络的柱形代数分解变元序选择
- 2020年
- 柱形代数分解是广泛应用于求多项式系统实数解的一种计算方法。不同的变元序对其计算时间有显著影响。已有选序算法多基于启发式的经验算法,准确率不高。少数基于机器学习的方法使用的数据集较小,且基于复杂人工特征。文中在随机生成大量多项式系统与所有序计算时间标注的数据基础上,提出一类新的多项式显性表示特征和一种新的分级神经网络。首先根据最差序计算时间将数据集划分成4个不同计算难度的子集并分别建立预测最优序的分类模型,其次建立预测最长计算时间的回归模型,最后根据回归模型预测最长计算时间并据其自动选择相应难度分类模型预测最优变元序。实验结果表明,显性特征的性能优于复杂人工特征,且在困难问题上分级神经网络所预测最优序的性能约为经验选序算法的3倍。
- 朱章鹏陈长波
- 基于BWA和BWA*的序列比对内存估计及参数调优方法
- 本发明涉及基于BWA和BWA*的序列比对内存估计及参数调优方法,属于生物信息、大数据领域,该方法包括以下步骤:S1:建立内存估计的模型A、sa_interval参数选择的模型B和串并联选择的模型C;S2:获取计算终端的可...
- 陈长波 胡爽杨文强