郎显宇 作品数:24 被引量:30 H指数:2 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中国科学院知识创新工程重要方向项目 更多>> 相关领域: 自动化与计算机技术 生物学 自然科学总论 电子电信 更多>>
分子空间结构比较方法优化与点部署的并行实现 2005年 分子空间结构相似性比较的指标函数可以定量地描述两个分子空间结构相似性大小,但难题在于如何确定分子初始相对位置,以保证得到全局最优叠合.由于以往都是利用程序随机生成初始相对位置,所以没有规则也不确定.为保证得到全局最优叠合,需要大量的初始相对位置优化计算.利用“均匀设计”的实验设计手段,在空间规则地筛选部署分子初始相对位置,使其具有代表性和均匀分布性,这样只需少数确定数目的初始相对位置,便可以稳定地得到指标函数的全局最优解.而后利用并行处理方法,把初始相对位置集合部署在Np个处理器上同时工作,大幅度地减少了运行时间,并输出与串行执行相同的运算结果. 郎显宇 牛北方 沈斌 陆忠华 迟学斌关键词:全局优化 叠合 InsPecT的千核并行及优化 2010年 蛋白质翻译后修饰(PTMs)在复杂的生命过程中起到极其重要的调控作用,对蛋白质翻译后修饰的研究是对蛋白质结构及其功能分析的深入,也是当前蛋白质组学的重要方向。InsPecT软件由于具备盲搜索功能,在蛋白质翻译后修饰鉴定领域备受关注,但极高的计算复杂度是阻碍其广泛应用的主要障碍。本文对InsPecT软件进行并行化,并在千核环境下进行测试;此外,还在负载平衡方面和GPU加速方面进行优化。结果显示,并行效率突出,加速效果显著。 涂强 郎显宇 陆忠华 迟学斌关键词:INSPECT 负载平衡 一种海量告警数据并行采集系统、装置及方法 本发明涉及一种海量告警数据并行采集系统、装置及方法。所述系统包括主控机、至少一台采集机、至少一台告警采集代理服务器和至少一台待采集设备。主控机通过网线与采集机相连,采集机通过卫星网络或网线与告警采集代理服务器相连,告警采... 迟学斌 王珏 郎显宇 常红旭 王彦棡文献传递 一种基于MCMC的并行分类方法 本发明公开了一种基于MCMC的并行分类方法,包括:根据初始状态计算似然估计;根据似然估计计算出参数的后验概率;根据后验概率进行MCMC模拟运算,以当前状态为基础,产生新状态;根据新状态计算接受概率,并产生第一随机数,当第... 迟学斌 周纯葆 郎显宇 王珏 邓笋根文献传递 四种肿瘤体细胞单核苷酸突变检测方法的比较 2017年 随着高通量测序成本的不断降低,基于DNA测序技术的肿瘤基因组研究已经成为揭示肿瘤分子机制的主流方法,并在临床诊断和治疗中逐渐得到应用。肿瘤体细胞单核苷酸突变变异(single nucleotide variant,SNV)作为最简单的一种基因变异类型,其检测会受到家系多态性、肿瘤异质性、测序和分析误差等多个因素的影响,从而导致一些假阳性的结果。目前,已有一些基于肿瘤基因组测序数据的体细胞SNV检测软件,如Varscan2,Mutect2,Strelka,Somatic Sniper等。本文选取四种典型的检测方法,对每种方法的检测原理进行研究,并使用ICGC-TCGA提供的全基因组数据,对上述四种变异检测软件进行测试。参照每种方法的分析流程,获得每种方法识别的候选变异位点集,并与真实的变异位点集合进行比较,分析每种算法的优缺点,从而为研究人员使用这些方法提供指导。 李晓东 何小雨 陈玮 李瑞琳 李瑞琳 祝海栋 张裕 代闯闯 陆忠华 迟学斌 陆忠华 迟学斌关键词:基因序列 突变检测 假阳性 一种双调归并排序调优方法及装置 本发明涉及一种双调归并排序调优方法及装置。根据GPU和CPU的运算能力,分配待排序数据集;GPU和CPU对各自分配的待排序数据集进行排序;其中,排序过程中,当GPU和CPU中的数据有无关性时,同时使用CPU和GPU分别排... 迟学斌 阚圣哲 王珏 聂宁明 郎显宇文献传递 一种基于“基因表达谱”的并行聚类算法 被引量:16 2007年 跨物种的生物序列比较已经被广泛应用于基因功能预测,而越来越多的实验表明序列相似性并不足以保证基因功能相似.为了精确确定基因功能,不仅需要考虑序列性质,还需探索基因表达信息的特性,因为基因表达的改变往往伴随着基因功能的改变.通过聚类分析基因表达谱,可以直观判断协同表达基因及其规律,这是考察基因功能的重要一步.由于生物组织基因表达的复杂性,以及识别表达的microarray技术和理念的不断更新,表达数据的规模也呈指数规律递增,聚类分析遭遇了巨大瓶颈——过高的时空复杂度.根据“基因表达谱”的数据特征,对处理表达谱数据的分层聚类提出了一种并行分层聚类算法——PHCA,主要解决了并行设计的负载平衡问题,并实现了MPI平台的并行程序设计.并行程序性能分析表明,PHCA算法较大幅度降低了分层聚类算法的时空复杂度. 郎显宇 陆忠华 迟学斌关键词:聚类分析 基因表达谱 分层聚类 负载平衡 一种采用多核集群的LDA模型的训练方法及系统 本发明实施例涉及一种采用多核集群的LDA模型的训练方法、系统。方法包括:多核产生多个进程,每个进程均启动多个线程,用于分担处理多个训练文档;每个进程中的多个线程共同处理该进程负责处理的文档,每个线程给出其负责处理的文档的... 陆忠华 王珏 周莼葆 郎显宇 聂宁明文献传递 Motif识别算法简介及软件性能研究 被引量:5 2006年 Motif在转录和后转录水平的基因表达调控中起着重要的作用。目前,识别Motif的算法和相应的软件已有不少,但是却鲜有对各种算法及软件性能共同评测的研究和报告。介绍了算法的分类以及三种常见的Mo-tif识别算法W ordup,MM和G ibbs采样,并对A lignACE,MEME,MotifSampler,W eeder等13种Motif寻找软件进行性能比较分析。通过生物学意义的研究和性能比较结果可以得出:由于唯有W eeder算法考虑了Motif保守核心位置,因而它在各种软件中识别效果较好;大部分算法只考虑简单而且短的Motif,所以各种软件对酵母菌这种单细胞生物的Motif识别性能比多细胞生物要高。 朱骥 杨华 牛北方 郎显宇 陆忠华 迟学斌关键词:MOTIF MM GIBBS采样 “基因电脑克隆”软件SiClone的并行优化研究与实现 被引量:1 2006年 生物信息学中,发现、鉴别新基因是承上启下的一步,它既承接了过往如“基因组测序”的工作,又是未来“后基因时代”研究的基石.“基因电脑克隆”是利用计算手段发现、鉴别新基因的方法,SiClone软件实现了“基因电脑克隆”功能.本文对SiClone软件操作的数据库提出并行处理方案,并详述了基于MPI(message passing interface)平台实现的并行优化版本PSiClone.根据已得到的EST数据库,展示了软件并行版PSiClone的运行性能,试验数据库EST序列条数仅仅是NCBI(The National Center for Biotechnology Information)dbEST庞大数据库的很小部分,这也暗示我们软件的并行工作对于大数据库的比较和运算将更有应用前景. 郎显宇 陆忠华 迟学斌关键词:NCBI EST数据库