国家自然科学基金(61170046)
- 作品数:8 被引量:17H指数:3
- 相关作者:李春江徐颖杨灿群杜云飞黄娟娟更多>>
- 相关机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于数据对齐属性指导的GCC自动向量化优化
- 2014年
- 主流通用处理器都已经实现了多核并行以及处理器核内的SIMD并行。虽然GCC编译器实现了面向SIMD并行的自动向量化,但是编译器针对OpenMP并行程序的自动向量化效果仍很不理想。针对多线程并行的OpenMP程序,基于GCC的OpenMP编译实现,扩展了数据对齐属性指导语句,使编译器在自动向量化时能够进行更准确的数据对齐与否的判断,优化了GCC编译器的自动向量化。
- 李春江黄娟娟徐颖董钰山
- 关键词:自动向量化GCC
- GCC中紧嵌套循环坍缩的并行化和向量化
- OpenMP 3.0规范中的collapse从句能指导编译器进行紧嵌套循环的并行化.最新OpenMP4.0规范中新增了用于指导循环向量化的simd结构,它也支持collapse从句,指导编译器进行紧嵌套循环的向量化.当前...
- 徐颖李春江董钰山
- 关键词:并行化向量化
- GCC中内嵌函数实现剖析被引量:3
- 2012年
- GNU编译器集合(GCC)具有支持多种高级语言和多种目标处理器平台、文档及源代码开放等的特点,在工业界和学术界被广泛使用。GCC支持非常多的内嵌函数,内嵌函数是GCC编译器中非常重要的一部分实现。首先分析GCC中多种内嵌函数的目的和作用;之后结合实际工作,以使用向量扩展指令的内嵌函数实现为例,剖析了平台相关的内嵌函数的实现过程。本工作对深入理解GCC编译器中的内嵌函数实现机制,对基于GCC的研究和开发有较强的参考意义。
- 李春江杜云飞易会战杨灿群
- 关键词:GCC
- GCC中自动向量化代价模型剖析
- MD数据并行结构在高性能通用微处理器中普遍存在,编译器的自动向量化是充分开发SIMD并行的主要手段之一.GCC编译器作为广泛使用的开源编译器,在O3优化级别,已经开启了面向SIMD结构的自动向量化开关.自动向量化代价模型...
- 黄娟娟李春江徐颖
- 关键词:单指令多数据自动向量化
- GCC编译器中循环数组预取优化的实现及效果被引量:4
- 2016年
- 数据预取技术是为缓解微处理器与DRAM之间速度差异而出现的隐藏访存延迟的方法。GCC作为广泛使用的开源编译器,在tree-ssa上对循环级数组实现了预取优化。在深入分析GCC4.9循环级数组预取的基本实现机制,以及剖析基于预取收益和分析时间的三种不予预取的代价模型的基础上,得出影响循环数组预取效果的几个因素,并针对典型测试用例测试了GCC编译器循环数组预取的效果。此项工作对于改进和提高GCC现有循环级数组的预取优化有指导意义。
- 董钰山李春江徐颖
- GCC编译器中编译指导的自动向量化实现被引量:2
- 2014年
- 基于编译指导的自动向量化已经成为编译器开发SIMD体系结构性能潜力的必然选择。OpenMP 4.0规范新增了SIMD编译指导语句,在开发中的GCC 4.9版本已经开始着手支持OpenMP4.0规范。详细分析了SIMD编译指导在GCC 4.9中的实现情况,重点分析了SIMD编译指导在编译器自动向量化阶段的影响,这为改进GCC的现有实现和提高向量化能力提供了有价值的参考。
- 徐颖李春江董钰山周思齐
- 关键词:GCCSIMD自动向量化
- 多核多SIMD体系结构的自动向量化代价模型研究
- 高性能微处理器已进入了多核甚至众核时代.SIMD体系结构也已经成为高性能微处理器内核中普遍实现的细粒度数据并行体系结构.编译器利用自动向量化技术开发SIMD并行性能,已经成为主流编译器中重要的编译优化工作,自动向量化代价...
- 李春江
- 关键词:多核自动向量化
- SIMD指令集设计空间的形式化描述被引量:1
- 2013年
- SIMD(Single-Instruction-Multiple-Data)并行体系结构在现代处理器体系结构中扮演非常重要的角色。SIMD指令集已经成为处理器指令集中重要的子集。SIMD结构和指令集实现了短向量并行处理能力,SIMD指令集实现了对多种数据类型、多种操作模式的支持。采用形式化的方法,描述SIMD指令集的设计空间,从多个正交的维度刻画SIMD指令集的设计,基于此详细讨论了SIMD指令集的设计问题。该形式化方法有益于对SIMD指令集体系结构的分析和设计。
- 李春江徐颖黄娟娟杨灿群
- 关键词:SIMD指令集形式化描述
- 基于LLVM实现尾循环向量化
- SIMD体系结构呈现向量长度越来越长的发展趋势,允许同时以向量方式处理更多的数据;但是,循环向量化会产生更多的循环尾部指令无法向量化。为了更有效地利用SIMD,本文提出了尾循环向量化方法,通过掩码存取访问内存数据和向量填...
- 黄亚斌李春江冯璐霞
- 关键词:SIMDLLVM
- 文献传递
- Intel64体系结构的数据预取机制及效果被引量:1
- 2016年
- 数据预取是为缓解微处理器与DRAM之间速度差异而出现的隐藏访存延迟的方法。当前Intel各系列处理器都采用多种预取机制来加速数据和代码向Cache的移动,从而提升程序的性能。通过对Intel64体系结构存储层次的分析,剖析了X86/X64体系的数据预取机制,包括硬件预取和软件预取,并且分析了编译器对软件预取机制的支持。最后测试了Intel64体系结构数据预取对科学计算程序中紧嵌套循环性能的影响,总结出了影响数据预取有效性的几个因素。此项工作对在Intel平台上进行循环数组预取优化有指导意义。
- 董钰山李春江
- 关键词:INTELCACHEGCCICC