庄福振
- 作品数:42 被引量:728H指数:7
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于Spark的高效并行自动编码机被引量:1
- 2018年
- 机器学习中一个非常关键的问题就是如何获取良好的数据特征表示,许多经典的特征提取方法是基于数据间关系或利用简单线性组合降维后得到数据的特征表示。其中深度学习算法在各种学习任务中都可以取得良好的效果,而且可以学到很好的数据特征表示。但现有深度学习算法或模型大多为单机串行实现,不能处理较大规模的数据且运行时间较长。本文设计实现了一种基于Spark分布式平台的高效并行自动编码机,该编码机可以有效地进行特征表示学习,并且利用分布式计算平台Spark对算法进行加速,优化了对稀疏数据的操作,大大提升了运行效率。本文通过在文本数据特征学习以及协同过滤两个任务上的实验,表明本文所实现的并行自动编码机的有效性和高效性。
- 庄福振钱明达申恩兆张大鹏何清
- 关键词:SPARK
- 一种采用决策树的数据分类方法和系统
- 本发明公开了一种采用决策树的数据分类方法和系统。所述方法,包括下列步骤:基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;根据所述决策树,对输入的数据记录进...
- 庄福振何清
- 文献传递
- 一种并行的垂直交叉网络数据采集方法及系统
- 本发明提供一种并行的垂直交叉网络数据采集方法及系统,方法包括:S1确定采集方式,若是普通URL列表采集方式根据URL列表直接下载待下载网页数据及其元数据,若是垂直交叉采集方式利用交叉关键字列表检索待下载页,并下载该网页数...
- 敖翔何清庄福振
- 文献传递
- 一种大数据分类方法及系统
- 本发明公开了一种大数据分类方法及系统,方法包括:训练步骤,将输入数据划分成输入数据块,将该输入数据块生成模式字符串的分类规则{模式字符串=>类标},并将该分类规则写入Hbase数据库规则表;测试步骤,读取该输入数据...
- 何清吴新宇庄福振敖翔
- 一种新型网络信息采集器的研究被引量:3
- 2009年
- 为了克服内容评价搜索策略算法"近视"和链接分析算法"主体偏移"的缺点,提出了一种使用内容评价搜索策略和链接分析策略结合的算法。使用的方法开发网络信息采集器能够极大地提高用户的检索速度,并能有效地限制检索领域,大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息。研究表明使用内容评价搜索策略和链接分析策略结合的算法开发网络信息采集器能够提高垂直搜索引擎快、精、准等方面的性能。
- 林欢欢庄福振王文杰史忠植
- 关键词:语义空间垂直搜索引擎
- 一种基于并行自动编码机的特征学习方法及系统
- 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包...
- 庄福振钱明达申恩兆敖翔罗平何清
- 文献传递
- 基于MapReduce的并行PLSA算法及在文本挖掘中的应用被引量:7
- 2015年
- PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。
- 李宁罗文娟李宁罗文娟庄福振
- 关键词:MAPREDUCE语义分析
- 大数据挖掘与云服务模式被引量:3
- 2013年
- 随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了"大数据"时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。
- 何清庄福振
- 关键词:数据挖掘互联网数据中心移动互联网人类社会移动通信
- 一种基于并行自动编码机的特征学习方法及系统
- 本发明提供一种基于并行自动编码机的特征学习方法,包括:1)管理机执行Map操作,为各个工作机规划任务并将任务分发给每个工作机;其中,各个工作机的任务一致,均是基于所输入的数据对自动编码机的权值矩阵进行训练;所述权值矩阵包...
- 庄福振钱明达申恩兆敖翔罗平何清
- 文献传递
- PDMiner:基于云计算的并行分布式数据挖掘工具平台被引量:28
- 2014年
- 随着信息技术和互联网的发展,各种信息呈现爆炸性增长,且包含丰富的知识.从海量数据信息中挖掘得到有用的知识仍然是一个挑战性的课题.近几十年来,数据挖掘技术,作为从海量数据信息中挖掘有用信息的关键技术已经引起了广泛的兴趣和研究.但是由于数据规模的增长,以往的很多研究工作并不能有效地处理大规模数据,因此,开发设计或者扩展已有算法使之能处理大规模数据集,已经成为数据挖掘中非常重要的研究课题.近年来,基于云计算的数据挖掘技术研究已经成为一个热点话题,本文中我们研究开发一个基于大规模数据处理平台Hadoop的并行分布式数据挖掘工具平台PDMiner.在PDMiner中,开发实现了各种并行数据挖掘算法,比如数据预处理、关联规则分析以及分类、聚类等算法.实验结果表明,并行分布式数据挖掘工具平台PDMiner中实现的并行算法:1)能够处理大规模数据集,达到TB级别;2)具有很好的加速比性能;3)大大整合利用已有的计算资源,因为这些算法可以在由这些商用机器构建的并行平台上稳定运行,提高了计算资源的利用效率;4)可以有效地应用到实际海量数据挖掘中.此外,在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务.更重要的是,我们开放了灵活的接口方便用户开发集成新的并行数据挖掘算法.
- 何清庄福振曾立赵卫中谭庆
- 关键词:云计算分布式数据挖掘大数据