江苏省自然科学基金(BK2011782)
- 作品数:7 被引量:31H指数:3
- 相关作者:杨明郭丽娜涂金金陈银娟万建武更多>>
- 相关机构:南京师范大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省普通高校研究生科研创新计划项目更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 结合分水岭分割的合成核SVM高光谱分类被引量:3
- 2018年
- 高光谱图像丰富的光谱信息使其在目标检测、地物分类等领域都具有重要应用,分类作为高光谱应用的重要中间步骤引起了广泛关注。高光谱图像空间信息刻画了光谱像素点与近邻关系,可以较好地弥补单纯使用光谱信息难以解决的同物异谱、同谱异物以及高维小样本等问题。传统预处理方式空间信息的使用是基于固定结构(如方窗)选择空间近邻以计算空间特征辅助分类,但会因窗口大小而影响空间特征质量。为此本文提出了结合分水岭分割的合成核支持向量机(Support vector machine,SVM)高光谱分类,根据分水岭分割图自适应选择优质的空间近邻,然后通过合成核SVM有效地把空间信息融入到原光谱信息分类中。实验表明,本文方法更好地利用了空间信息,实现在少量样本下高光谱图像的快速高精度分类。
- 赵振凯杨明
- 关键词:图像分类高光谱图像
- 一种并行结构化支持向量机次梯度投影算法被引量:2
- 2014年
- 支持向量机的次梯度投影算法是解决支持向量机优化求解问题的一种简单有效的迭代算法。该算法通过梯度下降和投影两个步骤的多轮迭代,找到两类最大间隔的分类面。针对该算法忽略了对寻找分类面同样有指导意义的样本分布信息这一问题,在分类器设计中融入结构信息,并且采用MapReduce并行计算框架,提出了一种并行结构化支持向量机的次梯度投影算法,该算法能够充分利用集群的计算和存储能力,适用于海量数据的优化问题。在NASA的两个软件模块缺陷度量数据集CM1和PC1上的实验结果表明,该算法能够加快收敛速度,提高分类性能,有效地解决海量数据的优化求解问题。
- 郭丽娜杨明涂金金
- 关键词:MAPREDUCE
- 代价敏感的半监督Laplacian支持向量机被引量:14
- 2012年
- 代价敏感学习是机器学习领域的一个研究热点.在实际应用中,数据集往往是不平衡的,存在着大量的无标签样本,只有少量的有标签样本,并且存在噪声.虽然针对该情况的代价敏感学习方法的研究已取得了一定的进展,但还需要进一步的深入研究.为此,本文提出了一种基于代价敏感的半监督Laplacian支持向量机.该模型在采用无标签扩展策略的基础上,将考虑了数据不平衡的错分代价融入到Laplacian支持向量机的经验损失和Laplacian正则化项中.考虑到噪声样本对决策平面的影响,本文定义了一种样本依赖的代价,对噪声样本赋予较低的权重.在7个UCI数据集和8个NASA软件数据集上的实验结果表明了本文算法的有效性.
- 万建武杨明陈银娟
- 关键词:代价敏感学习半监督学习
- 基于MapReduce的基因读段定位算法被引量:2
- 2014年
- RNA-seq测序技术的高速发展所产生的海量数据在执行效率上给原有读段定位算法带来严峻的挑战.为此,提出基于MapReduce的不跨越剪切位的空位种子索引算法(PSeqMap)和跨越剪切位的空位种子索引算法(PJuncSeqMap),以及一种负载平衡解决方案.该算法利用MapReduce框架实现空位种子索引算法的并行化,在拟南芥菜基因数据集上的实验结果表明文中提出的算法能够充分利用集群的存储和计算能力,高效处理海量基因数据.
- 涂金金杨明郭丽娜
- 关键词:MAPREDUCE
- 基于MapReduce的基因数据密度层次聚类算法被引量:7
- 2014年
- 随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.
- 涂金金杨明郭丽娜
- 关键词:M基因表达数据
- 基于SVM评价准则的高维数据混合特征选择算法被引量:2
- 2012年
- 基于高维数据的特征选择性,运用功能扰动集成方法,对4种不同特征选择器的结果进行集成,得到了分类精度高且稳定性较好的特征子集.在基因数据集上与原有算法进行性能对比实验,结果表明,多特征选择混合算法可使特征选择的结果间具有互补性,从而有效提高特征选择的稳定性和分类精度.
- 鲍捷杨明何志芬
- 关键词:高维数据稳定性
- 基于MapReduce的基因读段定位改进算法被引量:1
- 2015年
- 由于高通量测序技术产生了海量基因读段数据,并行的基因读段定位算法成为近年来的研究热点。对基因匹配算法进行研究,提出了一种基于MapReduce的基因读段定位改进算法,并且通过在读段定位过程中融入生物信息以及利用Hadoop分布式缓存机制,在一定程度上降低了算法的复杂度。在拟南芥菜基因数据集上进行的实验表明,该算法能够有效提高算法执行效率,减少算法执行时间。
- 涂金金杨明郭丽娜
- 关键词:MAPREDUCE