国家自然科学基金(71371063)
- 作品数:24 被引量:210H指数:8
- 相关作者:翟俊海张素芳王熙照郝璞王婷婷更多>>
- 相关机构:河北大学中国气象局河北省机器学习与计算智能重点实验室更多>>
- 发文基金:国家自然科学基金河北省自然科学基金河北省高等学校科学技术研究指导项目更多>>
- 相关领域:自动化与计算机技术一般工业技术更多>>
- 集成重复训练极限学习机的数据分类被引量:2
- 2018年
- 极限学习机是一种随机化算法,它随机生成单隐含层神经网络输入层连接权和隐含层偏置,用分析的方法确定输出层连接权。给定网络结构,用极限学习机重复训练网络,会得到不同的学习模型。本文提出了一种集成模型对数据进行分类的方法。首先用极限学习机算法重复训练若干个单隐含层前馈神经网络,然后用多数投票法集成训练好的神经网络,最后用集成模型对数据进行分类,并在10个数据集上和极限学习机及集成极限学习机进行了实验比较。实验结果表明,本文提出的方法优于极限学习机和集成极限学习机。
- 翟俊海周昭一臧立光
- 关键词:极限学习机泛化能力
- 基于MapReduce和Spark的大规模压缩模糊K-近邻算法被引量:3
- 2020年
- 压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。为此,对CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于MapReduce和Spark的2种大规模压缩模糊K-近邻算法。在样例选择阈值设置方面,引入动态机制,使得所选样例更具代表性。在具有7个数据节点的大数据平台上进行实验,结果表明,与CFKNN算法相比,所提2种算法具有更高的分类精度和加速比。2个平台相比,MapReduce产生的中间文件数目多于Spark,而Spark在运行时间和同步次数上优于MapReduce。
- 王谟瀚翟俊海齐家兴
- MapReduce并行化压缩近邻算法被引量:1
- 2017年
- 压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题.
- 翟俊海郝璞王婷婷张明阳
- 关键词:K-近邻MAPREDUCE
- 2种加速K-近邻方法的实验比较被引量:3
- 2016年
- K-近邻(K-NN:K-nearest neighbors)是著名的数据挖掘算法,应用非常广泛.K-NN思想简单,易于实现,其计算时间复杂度和空间复杂度都是O(n),n为训练集中包含的样例数.当训练集比较大时,特别是面对大数据集时,K-NN算法的效率会变得非常低,甚至不可行.本文用实验的方法比较了2种加速K-NN的方法,2种加速方法分别是压缩近邻(CNN:condensed nearest neighbor)方法和基于MapReduce的K-NN.具体地,在Hadoop环境下,用MapReduce编程实现了K-NN算法,并与CNN算法在8个数据集上进行了实验比较,得出了一些有价值的结论,对从事相关研究的人员具有一定的借鉴作用.
- 翟俊海王婷婷张明阳王耀达刘明明
- 关键词:K-近邻数据挖掘MAPREDUCEHADOOP
- 不一致性进化特征选择方法被引量:1
- 2017年
- 特征选择是机器学习中重要的数据预处理步骤,它从原始特征集合中,选择一个重要的子集,以改进学习系统的性能或降低学习系统的计算复杂度,对学习系统的性能有重要的影响.针对离散值特征选择问题,提出一种基于遗传算法的特征选择方法.该方法利用遗传算法搜索最优或次优特征子集.具体地,利用二进制数对问题的解编码,利用不一致性度量作为适应度函数.实验结果显示本文提出的特征选择方法是行之有效的.提出的方法具有如下三个特点:1)简单且易于实现;2)测试精度较高;3)可解释性强.
- 翟俊海刘博张素芳
- 关键词:数据预处理遗传算法
- 基于哈希技术和MapReduce的大数据集K-近邻算法被引量:7
- 2017年
- K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。
- 翟俊海张明阳王婷婷郝璞
- 关键词:K-近邻哈希技术大数据集
- MapReduce和Spark两种框架下的大数据极限学习机比较研究被引量:8
- 2020年
- 对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机明显优于MapReduce的大数据极限学习机,通过理论分析以及对比不同平台的并行指标speed Up和sizeUp证明了这一结论,而且随着隐含层节点个数的增多,这一优势越发明显;2)在任务的同步次数上,基于MapReduce大数据极限学习机的性能优于基于Spark大数据极限学习机;3)在分类器的泛化性能上,基于MapReduce的大数据极限学习机与基于Spark大数据极限学习机并无本质的差别;4)在需要读写的文件数目上,基于MapReduce的大数据极限学习机需要读写的文件数目与M ap任务个数有关,而基于Spark的大数据极限学习机需要读写的文件数目与分区数有关.这些结论对从事相关研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值.
- 宋丹丹翟俊海李艳齐家兴
- 关键词:大数据极限学习机并行计算
- 基于Spark的压缩近邻算法被引量:2
- 2018年
- K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。
- 张素芳翟俊海王婷婷郝璞王聪赵春玲
- 关键词:大数据迭代计算
- 基于MapReduce和上采样的两类非平衡大数据集成分类被引量:3
- 2018年
- 提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。
- 翟俊海张明阳王陈希刘晓萌王耀达
- 关键词:大数据最近邻
- 基于相对分类信息熵的进化特征选择算法被引量:7
- 2016年
- 针对离散值数据集特征选择问题,提出基于相对分类信息熵的进化特征选择算法.使用遗传算法搜索最优特征子集,使用相对分类信息熵度量特征子集的重要性.以相对分类信息熵作为适应度函数,使用二进制编码问题的解,使用赌轮方法选择产生下一代个体.实验表明文中算法在测试精度上优于其它方法,此外还从理论上证明文中算法的可行性.
- 翟俊海刘博张素芳
- 关键词:数据预处理进化计算遗传算法信息熵