公共文化服务平台

王明钊: 作品数：12 被引量：56H指数：4; 供职机构：陕西师范大学计算机科学学院更多>>; 发文基金：中央高校基本科研业务费专项资金国家自然科学基金陕西省科技攻关计划更多>>; 相关领域：自动化与计算机技术生物学医药卫生更多>>

合作作者

非平衡基因数据的差异表达基因选择算法研究被引量：11: 2019年; 针对准确率不适于评价不平衡数据特征子集性能的缺陷,提出了 F2 -measure(简称 F2 )准则.为避免mRMR(minimal Redundancy-Maximal Relevance)的互信息方法倾向于选择多值特征,提出了归一化互信息 SU (Symmetrical Uncertainty).针对最大化 AUC (Area Under an ROC Curve)框架下,特征选择算法的特征与类标相关性、特征间相关性的取值范围(量纲)不一致问题,提出了归一化的特征权重.为加快特征选择过程,提出了结合 SU和AUC 的特征预选择,缩小特征搜索空间.提出动态加权顺序前向搜索DWSFS(Dynamic Weighted Sequential Forward Search)和动态加权顺序前向浮动搜索DWSFFS(Dynamic Weighted Sequential Forward Floating Search),以期得到分类性能更好的特征子集.基于最大化 AUC 和mRMR框架,结合上述创新点,设计出16种特征选择算法.7个经典二类不平衡基因数据集、3个多类不平衡(或近似平衡)基因数据集的50次重复实验表明:所提算法选择的基因子集具有非常好的分类识别能力;提出的 F2、SU、归一化基因权重、基因预选择,以及DWSFS和DWSFFS对选择非平衡基因数据集的差异表达基因非常有效.提出的 SU 在度量基因冗余性时优于斯皮尔曼等级相关系数 RCC (Rank Correlation Coefficient);基因选择过程中的权值度量采用基因与类标相关性减去基因间冗余性优于采用基因与类标相关性除以基因冗余性方案.与现有经典基因选择算法的实验比较表明:提出的基因选择算法的性能优于现有基因选择算法.; 谢娟英王明钊王明钊高红超周颖; 关键词：基因选择 AUC 互信息不平衡数据

一种基于特征辨识度和独立性的特征选择方法及应用: 本发明涉及一种基于特征辨识度与独立性的特征选择方法和应用，其是以特征辨识度度量特征的类间判别能力，以特征独立性度量特征间的相关关系，计算出每个特征的重要度值，并按照降序排列，选择重要度远高于其余特征重要度的前k个特征构成...; 谢娟英王明钊

基于特征辨识度和独立性的基因选择方法: 本发明涉及一种基于特征辨识度与独立性的特征选择方法和应用，其是以特征辨识度度量特征的类间判别能力，以特征独立性度量特征间的相关关系，计算出每个特征的重要度值，并按照降序排列，选择重要度远高于其余特征重要度的前k个特征构成...; 谢娟英王明钊; 文献传递

聚类有效性评价新指标被引量：31: 2017年; 聚类有效性评价指标分为外部评价指标和内部评价指标两大类。现有外部评价指标没有考虑聚类结果类偏斜现象;现有内部评价指标的聚类有效性检验效果难以得到最佳类簇数。针对现有内外部聚类评价指标的缺陷,提出同时考虑正负类信息的分别基于相依表和样本对的外部评价指标,用于评价任意分布数据集的聚类结果;提出采用方差度量类内紧密度和类间分离度,以类间分离度与类内紧密度之比作为度量指标的内部评价指标。UCI数据集和人工模拟数据集实验测试表明,提出的新内部评价指标能有效发现数据集的真实类簇数;提出的基于相依表和样本对的外部评价指标,可有效评价存在类偏斜与噪音数据的聚类结果。; 谢娟英周颖王明钊姜炜亮; 关键词：聚类聚类有效性评价指标 F-MEASURE INDEX PS2

双向二核苷酸位置特异性偏好和点互信息DNA/RNA序列编码方法: 一种双向二核苷酸位置特异性偏好和点互信息DNA/RNA序列编码方法，由构建DNA/RNA序列核苷酸位置特异性偏好矩阵、构建DNA/RNA序列双向二核苷酸位置特异性偏好矩阵、确定DNA/RNA序列核苷酸的点互信息值、特征组...; 王明钊谢娟英许升全; 文献传递

双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法: 一种双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法，由建立DNA/RNA序列核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向二核苷酸位置特异性偏好矩阵、建立DNA/RNA序列双向三核苷酸位置特异性...; 王明钊谢娟英许升全; 文献传递

面向甲基化修饰位点预测的DNA/RNA序列特征编码算法研究进展: 2023年; 作为一种重要的表观遗传修饰,甲基化在基因表达调控和癌症等复杂疾病的发生发展过程中发挥着至关重要的作用.准确识别DNA/RNA甲基化修饰位点是研究其生物功能的基础.随着高通量测序技术的发展,DNA/RNA序列数据与日俱增,机器学习成为识别和预测甲基化位点的重要方法.DNA/RNA序列的特征编码算法能从序列抽取有效信息并编码为富含分类信息的特征,是建立DNA/RNA甲基化修饰位点识别的机器学习模型的基础,也是影响预测模型性能的关键因素.本文从当前DNA/RNA甲基化修饰位点预测模型文献中,系统总结了常用的40种序列特征编码算法.从计算原理的角度,将这些算法分为7类,并利用3个物种(S.cerevisiae,H.sapiens和Mouse)的RNA m6A和1个物种(A.thaliana)的DNA 4mC修饰基准数据和独立测试数据,对40种算法的性能进行了测试分析.最后,对DNA/RNA序列未来的特征编码算法和生物位点预测模型发展进行了展望.; 谢娟英王明钊许升全; 关键词：支持向量机

最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法被引量：14: 2017年; 针对ARCO(AUC and rank correlation coefficient optimization)算法在进行两类问题特征选择时,采用斯皮尔曼等级相关系数度量已选特征子集冗余性带来信息损失和特征相关性与冗余性度量取值范围不一致的缺陷,提出改进的Pearson相关系数度量特征冗余性,并归一化特征相关性和冗余性度量范围,得到APCO(AUC and improved Pearson correlation coefficient optimization)算法以克服ARCO算法的不足。同时,针对实现多类特征选择的MAUCD(using MAUC as the relevance metric to rank features directly)和MDFS(MAUC decomposition based feature selection method)算法没有考虑特征冗余,且MDFS易选择到局部最优特征子集的问题,提出适于多类问题的改进Pearson相关系数度量特征冗余性,得到基于mRMR(maximal relevance-minimal redundancy)框架的MAUCP和MDFSP算法,克服MAUCD和MDFS算法的缺陷。以SVM、NB和KNN为分类工具,构造基于所选特征子集的相应分类器,以其AUC(MAUC)值度量相应特征子集的性能。7个二类和3个多类不平衡基因数据集的实验结果表明:提出的APCO、MAUCP和MDFSP算法分别优于ARCO、MAUCD和MDFS算法,也优于其他经典基因选择算法。; 谢娟英王明钊胡秋锋; 关键词：基因选择差异表达基因 AUC 不平衡数据

基于不平衡基因数据的2D空间基因选择算法研究: 近年来,随着计算机技术的快速发展和在生物医学领域的广泛应用,尤其是DNA芯片技术的出现,为癌症的分类诊断及其形成机制的研究和治疗提供了新的思路,同时也致使大量含有高维特征信息的基因表达数据涌现。特征选择作为一种高维数据的...; 王明钊; 关键词：基因选择; 文献传递

一种改进的特征子集区分度评价准则被引量：1: 2022年; 针对特征子集区分度准则(Discernibility of feature subsets,DFS)没有考虑特征测量量纲对特征子集区分能力影响的缺陷,引入离散系数,提出GDFS(Generalized discernibility of feature subsets)特征子集区分度准则.结合顺序前向、顺序后向、顺序前向浮动和顺序后向浮动4种搜索策略,以极限学习机为分类器,得到4种混合特征选择算法.UCI数据集与基因数据集的实验测试,以及与DFS、Relief、DRJMIM、mRMR、LLE Score、AVC、SVM-RFE、VMInaive、AMID、AMID-DWSFS、CFR和FSSC-SD的实验比较和统计重要度检测表明:提出的GDFS优于DFS,能选择到分类能力更好的特征子集.; 谢娟英吴肇中郑清泉王明钊; 关键词：极限学习机

王明钊

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

王明钊

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈