穆帅
- 作品数:4 被引量:6H指数:2
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于PCM的GPU存储系统设计与优化
- 2013年
- 以相变存储器(PCM)为代表的新型非易失存储器,具有存储密度高和静态功耗低等传统动态随机存取存储器(DRAM)不具备的优势,但是过长的写操作延时会严重影响访存的性能。设计了基于PCM的图形处理器(GPU)中的存储系统。仿真结果显示,GPU程序中的内存写请求分布极不均匀,对少量的内存地址有非常高的访问频率。面向访存分布不均匀特点的专用缓冲单元设计,能够有效地存储频繁访问的内存数据,从而减少对PCM的访问次数,消除过长的写操作延时对系统性能的负面影响。GPU仿真器上的结果显示,基于缓冲单元的PCM存储系统能够有效地提高GPU的运算性能。
- 穆帅单书畅邓仰东王志华
- 关键词:相变存储器图形处理器
- 针对不规则应用的图形处理器资源调度关键技术研究
- 当前,图形处理器(GPU)广泛应用在图形图像处理、科学计算、多媒体应用、数据挖掘、金融计算等众多科学和工程领域。GPU采用单指令多数据(SIMD)架构,非常适合规则的应用程序。但是,未来应用程序中普遍包含不规则的计算和访...
- 穆帅
- 关键词:图形处理器并行性调度
- 文献传递
- 基于GPU的多层次并行QR分解算法研究
- QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域。传统的并行QR分解算法只能挖掘计算过程中的数据级并行。在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能...
- 穆帅王晨曦邓仰东
- 关键词:图形处理器
- 基于GPU的多层次并行QR分解算法研究被引量:4
- 2013年
- QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域。传统的并行QR分解算法只能挖掘计算过程中的数据级并行。在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器。同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用。实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升。
- 穆帅王晨曦邓仰东
- 关键词:图形处理器