张强锋 作品数:6 被引量:2 H指数:1 供职机构: 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 生物学 更多>>
最大节约原则下单体型推导问题的复杂性(英文) 被引量:1 2006年 基于最大节约原则,寻找可以解释基因型样本的最小单体型集合,提出一个新的单体型推导方法.通过将SAT问题和MAX-3-SAT问题归约到这种基于节约原则的单体型推导问题,证明了该问题是NP-hard以及MAX-SNP完全的,从而解决了该问题在计算上的复杂性.这一结果显示,除非P等于NP,否则,该问题不存在多项式时间算法;甚至存在一个常数e>0,该问题不存在比1+e好的近似算法. 张强锋 陈国良 孙广中关键词:单体型 三元家庭基因数据的单体分型和单体型频率估计(英文) 被引量:1 2007年 研究了在门德尔遗传定理和哈代-维恩伯格平衡假设下,三元家庭基因型数据的单体分型和单体型频率估计问题.过去的研究仅仅关注个体间没有联系或者含有一般家系信息的基因型数据,而对这种特殊的三元家庭关注得不够考虑到HAPMAP数据库中有一部分数据就基于这种三元家庭,现在有越来越多的需求要求直接分析这种特殊的家系结构.提出一个两段式的三元家庭中单体型频率的估计方法:i)分型阶段,找出每一个三元家庭零重组单体构型;ii)频率估计阶段,在前一阶段得到的单体构型基础上,应用EM算法来估计单体型频率.在程序包TRIOHAP中用C语言实现了单体分型算法和EM算法,并且使用模拟和实际数据测试了TRIOHAP的有效性和效率.实验结果表明,TRIOHAP要比其他那些忽略了三元家庭信息的常见单体型频率估计软件运行快很多.进一步地,由于TRIOHAP利用了这些信息,其估计结果更加可靠. 张强锋 徐云 陈国良 车皓阳关键词:基因型 单体型 SNP EM算法 单体分型和单体型频率估计 计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构;目前由于时... 张强锋关键词:计算生物学 单体型 单体型分析 可计算性 NP-HARD 贪心法 文献传递 最大节约原则下单倍型推导问题的实用算法(英文) 被引量:2 2005年 在疾病的易感基因研究和药物反应实验中,常常需要知道单倍型,而不仅仅是基因型数据.但是直接通过生物学实验手段来测定单倍型在时间和成本上消耗过大,所以在实验室里往往仅测得基因型,而通过一些计算手段来推导出单倍型.不同于Clark著名的单倍型推导模型,Gusfield和Wang等人提出了一种通过基因型样本推导单倍型的新模型.这种模型试图按照最大节约原则去寻找可以解释基因型样本的最小单倍型集合.这种基于节约原则的模型克服了Clark模型的一些缺陷.提出了节约原则模型的一个多项式时间的贪心算法以及一种把贪心策略和分支限界策略集合在统一框架下的复合算法.相对于Wang原来提出的分支限界完全算法,贪心的近似算法运行快得多,而且同时保持了比较准确的推导结果.新的复合算法也是一种完全算法.实验结果表明,与原来的分支限界算法相比,复合算法可以极大地提高运行效率以及可应用的实例规模. 张强锋 车皓阳 陈国良 孙广中关键词:基因型 单倍型 SNP 贪心算法 PRAM和LARPBS模型上有向序列翻转距离并行算法(英文) 2007年 分别在两种重要并行计算模型中给出计算有向基因组排列的反转距离新的并行算法.基于Hannenhalli和Pevzner理论,分3个主要部分设计并行算法:构建断点图、计算断点图中圈数、计算断点图中障碍的数目.在cREW-PRAM模型上,算法使用O(n^2)处理器,时间复杂度为D(log^2n);在基于流水光总线的可重构线性阵列系统(linear array with a reconfigurable pipelined bus system,LARPBS)模型上,算法使用O(n^3)处理器,计算时间复杂度为D(logn). 沈一飞 陈国良 张强锋关键词:基因组重排 单体分型和单体型频率估计:复杂性及算法 计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构;目前由于时... 张强锋关键词:计算生物学 单核苷酸多态性 组合优化