国家自然科学基金(60801055) 作品数:7 被引量:9 H指数:2 相关作者: 厉力华 韩斌 祝磊 来海锋 陈岩 更多>> 相关机构: 杭州电子科技大学 南佛罗里达大学 浙江省肿瘤医院 更多>> 发文基金: 国家自然科学基金 国家杰出青年科学基金 浙江省自然科学基金 更多>> 相关领域: 医药卫生 自动化与计算机技术 生物学 更多>>
基于filter-wrapper的两步特征变量提取方法 被引量:5 2010年 特征变量选择是高维数据分类问题的核心,主要有过滤法和缠绕法两种特征变量选择方法。针对"过滤法与分类算法相互独立,不利于对分类性能优化,而缠绕法依赖于分类算法,在高维高噪的数据中容易过拟合"这个问题,为了能有效提取特征变量,提出了一种新的特征提取方法,即filter-wrapper两步法,先通过有监督奇异值分解方法降维去噪,粗选出一部分备选变量;再应用MonteCarlo决策树策略从备选变量中精选出重要的特征变量。通过以典型的高维高噪数据为例验证了该方法,实验结果表明了上述方法的可行性和有效性。 陈岩 来海锋 王清 王卫伟关键词:信息增益 决策树 特征提取 基于诊断结果相关性分析的肿瘤基因标志物提取方法 2010年 目的基于微阵列数据,提出提取肿瘤诊断结果相关的基因标志物。方法混合滤波和缠绕方法,采用奇异值分解,以基因和肿瘤诊断结果的相关强度为主要标准,辨识基因标志物,利用基于信息增益的随机森林法对分类率做辅助修正。本方法在3个公共数据库上和常用分类器上做了测试。结果 MonteCarlo统计实验表明,对于Colon数据集,本文方法在NN,RF分类器上显著优于t-test方法;在Prostate数据集上,本文方法在NB的分类器上显著优于对手,在其他数据集和分类器上本方法优于对手但不显著;而在基因稳定度指标上,本方法普遍优于对手。结论提出1种可以定量的,基于可视化的分析基因和诊断结果相关性的方法,与经典方法相比,本文方法提取的基因不仅具有较强的分类性能和对不同分类算法的适应性,而且在总体上也具有较好的基因稳定度。 韩斌 陈岩 来海锋 厉力华 祝磊 代琦关键词:肿瘤分类 基因选择 微阵列 奇异值分解 基于磷脂质类数据的早期卵巢癌特征提取研究 2010年 卵巢癌是目前死亡率最高的妇科疾病之一,而如果得到早期诊断和治疗,卵巢癌患者的存活率可达90%。针对卵巢癌早期诊断问题,基于卵巢癌磷脂质类数据,提出了一种结合缠绕法和过滤法、按照诊断类别相关度挑选特征,然后依据特征标志物的分类率稳定度高低,提取用于诊断早期卵巢癌的特征子集的策略。该方法克服了分类率监督方法忽略生物相关性、依赖分类器易产生过拟合的不足,同时保持了较高的分类率。实验表明,该方法挑选的特征标志物包含更多的分类信息,其分类正确率达到88.9%,且比经典的分类率监督方法和差异表达方法在稳定性能上存在优势。此外,提出的新的标幺化方法去掉了批次差异,获得更好的分类效果,且所选的特征标志物得到生物学关联意义上的支持,具有较高的可信度和实用性。 陈淑飞 韩斌 厉力华 Rebecca Sutphen 祝磊 代琦关键词:卵巢癌 稳定度 奇异值分解 MONTE 基因芯片技术在卵巢癌化疗疗效相关基因筛选中的应用 被引量:2 2011年 卵巢癌是妇科常见恶性肿瘤,其发病率居第3位,而病死率高居第1位.手术后辅助化疗是治疗卵巢癌的主要手段,患者的预后很大程度上取决于对化疗的反应,但由于化疗耐药的出现,半数以上的患者化疗后疗效不佳.目前,还没有有效的手段预测化疗的效果.基因芯片技术的发展为人类从基因的角度,全面研究和分析化疗疗效相关基因提供了条件.本研究采用基因芯片技术对133例原发性卵巢癌患者进行化疗疗效相关基因的筛选,为卵巢癌患者的个体化治疗提供理论依据. 王清 韩斌 苏丹 应南娇 厉力华 祝磊关键词:相关基因筛选 基因芯片技术 卵巢癌患者 化疗疗效 个体化治疗 一种基于有监督奇异值分解和随机森林的卵巢癌磷脂代谢物特征提取方法 被引量:3 2010年 卵巢癌是一种常见的妇科肿瘤,死亡率占各类妇科肿瘤的首位。选取既有较高的分类疾病模式能力又具有生物学关联的特征肿瘤标志物用于肿瘤的诊断是目前研究的重点。本研究针对卵巢癌磷脂代谢物数据的问题,提出了一种融合有监督奇异值分解和基于信息增益的随机森林决策的方法用于特征标志物的选择。首先应用有监督奇异值分解计算各标志物的权重值,并根据权重值粗选出候选标志物;其次应用基于信息增益的随机森林决策理论从候选标志物中选出特征标志物;最后通过SVM分类器测试,分类率高达90%以上。本研究方法与其他常用方法比较具有一定优势,其中一个明显的特点是所选特征标志物不但保持了较高的分类率,而且具有生物学关联意义,从而证实本研究方法具有较高的可行性和实用性。 来海锋 韩斌 厉力华 陈岩 SUTPHEN Rebecca 祝磊 代琦关键词:奇异值分解 特征提取 卵巢癌 基于统计独立性度量方法的大肠杆菌基因调控网络结构辨识 2013年 生物学探究的基因关联是类似于因果关系的本质联系,要解决的关键问题是寻找一种可以描述本质联系的方法。针对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的大肠杆菌(E.coli)基因调控网络结构辨识问题,提出一种基于再生核希尔伯特空间(RKHS)的统计独立性度量方法——Hilbert-Schmidt独立性准则(HSIC)。此方法是一种基于分布的非参数独立性度量方法,并不要求数据符合某种特定分布,不以分类率、模型简单度等外部条件作为约束条件,同时非参数定量地描述变量之间的联系程度。对大肠杆菌基因表达数据的实验结果显示,尽管数据集中的时间序列数据样本很小,并且只提供了较弱的和类型复杂的调控信息,但HSIC方法仍能较好地辨识出这种较为隐含且复杂的调控关系。对比计算显示,在3种数据规模下,采用HSIC方法辨识结果的AUROC值高于Granger Causality(GC)方法 23个百分点,高于参与此竞赛的第1名3.9个百分点,而且在计算效率上亦高出其所使用的微分方程法3个数量级。 樊双喜 韩斌 厉力华 祝磊 金丽艳 李颜娥 王晟 应南娇关键词:基因调控网络 再生核希尔伯特空间 基于“极少”特征标志物的卵巢癌两步预测模型研究 2010年 卵巢癌是目前死亡率最高的妇科疾病之一,利用信息学手段挑选特征肿瘤标志物已被广泛用于包括卵巢癌在内的肿瘤分类、诊断研究。但是研究中单纯以提高分类率为指标而忽视敏感性和特异性的均衡,且模型为多变量或者复杂模型,成本过高,不太适合临床应用。为此,提出一种基于"极少"特征标志物的两步预测模型,利用先期提取的多个特征作敏感性和特异性测试,然后构建特征变量的两步预测模型。先用单个变量预测,在一个变量不能得到可靠结果时,才增加另一变量参与模型。实验显示,筛选出的PPE8+LPE4和PPE8+LPC0两对变量组合的敏感性和特异性显著、均衡,变量之间的相关性较小,且分类结果和4个变量的分类结果相当,与9个变量的分类率只差4%~5%。所提出的基于极少特征标志物的两步预测模型结构简单,在保持相同分类效果的前提下大大减少了用于预测的变量,为实际应用提供方便,同时在一定程度上节约了经济成本。 陈淑飞 韩斌 厉力华 SUTPHEN Rebecca 祝磊 来海锋关键词:敏感性 特异性 卵巢癌