国家重点基础研究发展计划(2005CB321600) 作品数:68 被引量:337 H指数:9 相关作者: 胡伟武 范东睿 沈海华 章隆兵 唐志敏 更多>> 相关机构: 中国科学院 中国科学院研究生院 北京龙芯中科技术服务中心有限公司 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
一种基于RAM的降低异构多核切换开销的方法 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时... 刘奇 郝守青 沈海华 章隆兵关键词:寄存器重命名 文献传递 龙芯1号处理器的故障注入方法与软错误敏感性分析 被引量:38 2006年 在纳米级制造工艺下以及在航天等特殊应用场合中,可靠性将是处理器设计中的一个重要考虑因素.以龙芯1号处理器为研究对象,探讨了处理器可靠性设计中的故障注入方法,并提出了一种同时运行两个处理器RTL模型的故障注入与分析方法,可以实现连续快速的处理器仿真故障注入.在此基础上,进一步分析了龙芯1号处理器的软错误敏感性,通过快速注入大约30万个软错误,保证了分析结果具有较好的统计意义,可以有效指导后续的容错与可靠性设计. 黄海林 唐志敏 许彤关键词:软错误 众核处理器片上同步机制和评估方法研究 被引量:11 2010年 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 徐卫志 宋风龙 刘志勇 范东睿 余磊 张帅关键词:硬件支持 微程序 龙芯2号微处理器浮点除法功能部件的形式验证 被引量:4 2006年 基于决策图的字级模型检验方法虽然能完全验证运算电路,但它从有缺陷的设计中发现系统规范的反例所需时间较长.而基于SAT的有界模型检验方法虽然能较快地发现反例,但它不支持包含数学公式的系统规范,因而难以用于验证运算电路.提出了基于SAT的字级模型检验方法,该方法将CNF扩展为能混合布尔公式和数学公式的E-CNF用以表示设计和系统规范,并对有界模型检验工具和SAT求解器进行字级的扩展,使它们能分别生成和处理E-CNF.龙芯2号微处理器浮点除法功能部件验证同时采用了基于PHDD和基于SAT的字级模型检验方法.数据表明,基于SAT的字级模型检验方法能快速地发现运算电路中的设计缺陷.两种方法互为补充,在能完全验证设计的同时显著缩短了设计周期. 陈云霁 马麟 沈海华 胡伟武关键词:SAT CNF LU分解在众核结构仿真器上的指令级调度研究 被引量:5 2011年 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 余磊 刘志勇 宋风龙 叶笑春关键词:计算机体系结构 加速比 指令级并行 LU分解 基于约束的处理器接口随机测试模型 被引量:1 2007年 提出了一种处理器接口测试模型,并给出了具体实现方案。该测试模型将仿真测试的方法应用于处理器接口测试,在激励生成中采用基于约束的随机测试生成方法。结果表明,基于约束的处理器接口随机测试模型的覆盖率达到83.68%,能够快速有效地完成处理器接口部件的功能验证。 郇丹丹 李祖松 刘志勇关键词:接口 仿真 龙芯2号 龙芯2号原型系统北桥的设计与实现 被引量:4 2010年 针对龙芯2号原型系统中主要I/O数据通路上数据流的特点,设计并实现了一款适用于龙芯2号原型系统的北桥。在此北桥的设计中提出并实现了一种用于外部设备互连(PCI)主桥(PCI host bridge,PHB)的数据传输优化方法,这种方法通过自适应的写合并、PCI写数据及时收集重打包和采用固定开销的分阶段PCI读数据预取策略,提高了PCI主桥中数据传输的效率。实验结果表明,所设计的北桥可以充分的利用PCI总线带宽,并且在处理PCI总线上的直接内存访问(DMA)读数据流和处理器更新显卡显存的PCI写数据流时相对同类系统而言具有明显的性能优势。 蔡飞 沈海华 高翔关键词:龙芯 芯片组 使用支持向量机的微处理器验证向量优化方法 被引量:1 2010年 为了解决微处理器仿真验证中随机验证向量质量不高的问题,提出了一种基于支持向量机(SVM)的验证向量优化方法。该方法将已仿真运行的验证向量及其覆盖率信息作为支持向量机的样本进行有监督学习,得到验证向量关于功能覆盖点的分类器。利用训练后的分类器对于新产生的验证向量进行预测,并丢弃预测中不能提高覆盖率的冗余验证向量。实验数据表明该方法能准确地过滤冗余验证向量,提高仿真运行的验证向量的质量。和完全随机的验证向量生成方法相比,该方法达到相同的功能覆盖率仅需要前者1/3的验证向量。 王朋宇 郭崎 沈海华 陈云霁 张珩关键词:微处理器验证 仿真验证 基于龙芯2F处理器的硬件验证平台的设计与实现 被引量:6 2009年 针对高性能处理器龙芯2F的逻辑验证和性能测试,本文设计和实现了一套硬件验证平台环境,既能验证处理器流片前的逻辑功能,也能测试处理器流片后的性能指标。实验结果表明,本文设计的硬件验证平台能够有效验证龙芯2F处理器的各项功能和性能指标。 张瑾 王剑关键词:龙芯2F 逻辑验证 混合体系结构中有状态硬件加速器的优化 被引量:2 2011年 在诸多计算领域中,硬件加速器可以代替通用处理器上执行的软件完成专用功能,达到提高性能和降低功耗的目的.网络应用中,许多硬件加速器是无状态的,这就需要一个网络流的全部数据包到达后才能被处理.有状态加速器则可以确保每个数据包到达后即可被处理,因而具有更好的性能和灵活性.由于网络流的并发性,有状态加速器需要维护众多并发网络流的状态,并在需要时进行硬件状态切换,从而增加了加速器的性能开销.该文基于请求队列提出对不同网络流的请求进行动态重排序的方法,其中请求所在的队列可以在片上也可以在片外,从而有效减少加速器的状态切换次数.对多种流行的有状态加速器进行的实验结果表明,该方法可以有效降低加速器的平均响应时间并提高吞吐率.实验结果表明:与传统的FIFO设计对比,解压缩加速器的吞吐率最大提高了26.7%,响应时间最大减少了50%. 马宜科 常晓涛 范东睿 刘志勇关键词:硬件加速