史晓雯
- 作品数:5 被引量:2H指数:1
- 供职机构:哈尔滨医科大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:医药卫生生物学更多>>
- 候选基因关联研究的统计分析方法
- 2017年
- 随着新一代测序技术的发展及全基因组关联研究(genome-wide association study,GWAS)策略的推广,复杂性疾病基因关联研究涉及的SNP位点逐渐增加,且资料收集的逐渐完善促使描述疾病结局相关的指标增多,使样本信息多元化。
- 肖纯史晓雯刘芸良张奇刘艳
- 关键词:候选基因复杂性疾病测序技术统计量基因序列
- 基于真实SNPs数据的仿真方法实现与效果评价
- 2017年
- 目的探讨基于真实单核苷酸多态性(SNPs)数据有效的计算机仿真方法,为探索SNPs与疾病的关联研究,基因-基因交互作用研究提供帮助。方法利用gs2.0软件实现真实SNPs数据的仿真,利用Haploview、Plink、MDR软件对仿真效果进行评价。结果利用gs2.0以中国傣族人群第22号染色体的500、1 000、5 000个SNPs位点为原始数据,分别生成了含有单致病位点和两交互作用致病位点的仿真数据。通过比较发现原始数据与其仿真数据的LD模式基本相似,有接近的r^2值,单致病位点的差异显著性明显,两交互作用致病位点能被MDR识别。结论 gs2.0是一个简单高效的计算机仿真软件,能较好地仿真SNPs的LD模式并能准确设置单致病位点和两交互作用位点用以批量生成SNPs仿真数据。
- 刘芸良肖纯史晓雯刘艳
- 关键词:数据仿真单核苷酸多态性
- 随机森林的并行运算方法及适用条件被引量:2
- 2016年
- 目的探讨随机森林并行运算的实现方法及其适用条件,为基因组学数据分析提供科学参考。方法基于R foreach包编写随机森林并行运算程序,并利用SNPs模拟数据探究其表现。结果在SNPs位点数量为100、500、1 000时,随工作站所占用CPU数量的增多,随机森林并行运算方法的提速效果呈非线性趋势,且位点数量相同但ntree数量不同时速度的提升效果亦不相同;当SNPs位点数量达到5 000时,该方法提速效果较差,10核环境下ntree为500和1 000时几乎无提速效果,即使ntree达到5 000或10 000时提速效果也不超过2倍。结论基于R foreach包的随机森林并行运算方法在SNPs位点数量不是很多(如<1 000)的情况下其提速效果尚可;但由于共享内存等产生的通信开销的问题的存在,当SNPs位点数较多(超过5 000)时,该方法提速效果很差,此时可考虑选择其他分析工具如随机丛林(RJ,Random Jungle)。
- 顾星博温琪史晓雯刘艳
- 关键词:大数据单核苷酸多态性
- 三种SNPs数据仿真方法的效能比较
- 2018年
- 目的比较HAPGEN2、gs 2.0和GWAsimulator2三种方法在仿真单核苷酸多态性(SNPs)数据时的效能差异,为以后使用SNPs数据仿真方法提供指导。方法以真实人群SNPs数据作为原始数据,利用三种方法分别生成仿真数据,通过连锁不平衡模式和最小等位基因频率评价仿真效能,并通过χ~2差异位点评价致病位点的设置效能。结果 HAPGEN2仿真连锁不平衡模式的能力优于gs 2.0和GWAsimulator2,gs 2.0和GWAsimulator2仿真最小等位基因频率的能力近似且均优于HAPGEN2,三种方法均能良好的设置单致病位点。结论三种SNPs数据仿真方法均有优劣,用户可根据实际需求选择合适的仿真方法。
- 刘芸良肖纯史晓雯刘艳
- 关键词:单核苷酸多态性计算机仿真
- 三种统计分析方法在基因表达谱数据中的比较研究
- 2018年
- 目的比较SCAD-支持向量机、支持向量机和弹性网三种方法对基因表达谱数据的变量筛选和预测判别能力。方法根据设置的参数生成不同条件的基因表达谱模拟数据和实际数据,利用FDR、一致性错误率和ROC曲线下面积(AUC值)从三个方面评价三种方法的变量筛选和预测判别能力。结果模拟实验显示在差异变量数不变的情况下,随着差异变量间相关系数的增加,三种方法建立模型的变量筛选和预测判别能力均提高;当差异变量间相关系数不变时,随着差异变量数目的增加,SCAD-支持向量机和弹性网方法的变量筛选和预测判别能力均呈下降趋势,而支持向量机呈现提高趋势。结论 SCAD-支持向量机不仅改善了支持向量机不能直接进行变量筛选的不足同时提高了模型的精度以及判别的准确性。综合来看SCAD-支持向量机的变量筛选和预测判别能力更优,处理变量间有高度相关性的基因表达谱数据时可以获得更高的预测精度和更稳定的模型估计。
- 史晓雯肖纯刘芸良刘艳
- 关键词:ROC曲线下面积