您的位置: 专家智库 > >

李远方

作品数:5 被引量:47H指数:4
供职机构:云南大学信息学院更多>>
发文基金:云南省自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...

主题

  • 2篇中文
  • 2篇中文分词
  • 2篇分词
  • 2篇PAGERA...
  • 2篇HADOOP
  • 2篇MAPRED...
  • 1篇于字
  • 1篇云计算
  • 1篇树结构
  • 1篇索引
  • 1篇中文分词算法
  • 1篇矩阵
  • 1篇矩阵分块
  • 1篇块算法
  • 1篇互信息
  • 1篇分词算法
  • 1篇分块
  • 1篇分块算法
  • 1篇WEB结构
  • 1篇WEB结构挖...

机构

  • 5篇云南大学

作者

  • 5篇李远方
  • 4篇邓世昆
  • 3篇贾时银
  • 3篇韩月阳
  • 2篇闻玉彪

传媒

  • 4篇计算机技术与...

年份

  • 5篇2011
5 条 记 录,以下是 1-5
排序方式:
基于字分类的中文分词的研究被引量:10
2011年
中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字。在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题。以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高。
韩月阳邓世昆贾时银李远方
关键词:中文分词互信息
Hadoop-MapReduce下的PageRank矩阵分块算法被引量:13
2011年
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。
李远方邓世昆闻玉彪韩月阳
关键词:PAGERANKMAPREDUCEHADOOP矩阵分块
基于云计算的Web结构挖掘算法研究
数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点...
李远方
关键词:云计算WEB结构HADOOP平台
一种改进的最大匹配中文分词算法被引量:16
2011年
最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。
闻玉彪贾时银邓世昆李远方
关键词:索引词库分词
基于树结构的MapReduce模型被引量:8
2011年
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用。此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构)。文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用代替传统的,使模型更具有一般性。最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率。实验结果表明,其执行速度明显比传统模型高效。
李远方贾时银邓世昆韩月阳
关键词:树结构MAPREDUCEXMLHADOOP
共1页<1>
聚类工具0