公共文化服务平台

2024年7月10日星期三

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

李远方: 作品数：5 被引量：47H指数：4; 供职机构：云南大学信息学院更多>>; 发文基金：云南省自然科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

邓世昆云南大学信息学院
贾时银云南大学信息学院
韩月阳云南大学信息学院
闻玉彪云南大学信息学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

4篇期刊文章
1篇学位论文

领域

5篇自动化与计算...

主题

2篇中文
2篇中文分词
2篇分词
2篇PAGERA...
2篇HADOOP
2篇MAPRED...
1篇于字
1篇云计算
1篇树结构
1篇索引
1篇中文分词算法
1篇矩阵
1篇矩阵分块
1篇块算法
1篇互信息
1篇分词算法
1篇分块
1篇分块算法
1篇WEB结构
1篇WEB结构挖...

机构

5篇云南大学

作者

5篇李远方
4篇邓世昆
3篇贾时银
3篇韩月阳
2篇闻玉彪

传媒

4篇计算机技术与...

年份

5篇2011

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

基于字分类的中文分词的研究被引量：10: 2011年; 中文分词是自然语言处理的前提和基础,利用基于字分类的方法实现中文分词,就是将中文分词想象成字分类的过程。把字放入向前向后相邻两个字这样的一个语境下根据互信息统计将字分成四种类别,即跟它前面结合的字,跟它后面结合的字,跟它前后结合的字,独立的字。在分词的过程中采用了t-测试算法,一定程度上解决了歧义问题。以人民日报为语料库进行训练和测试,实验结果表明,该方法能够很好地处理歧义问题,分词的正确率达到了90.3%,有了明显的提高。; 韩月阳邓世昆贾时银李远方; 关键词：中文分词互信息

Hadoop-MapReduce下的PageRank矩阵分块算法被引量：13: 2011年; PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。; 李远方邓世昆闻玉彪韩月阳; 关键词：PAGERANK MAPREDUCE HADOOP 矩阵分块

基于云计算的Web结构挖掘算法研究: 数据挖掘是从大量纷杂的数据中分析并提取有用的知识和信息。当今网络上最重要的资源信息库是Web页,因此研究Web数据挖掘有着重要意义。但随着互联网的高速发展,Web信息日增长呈指数量级发展,要从中分析出有用的信息,单一节点...; 李远方; 关键词：云计算 WEB结构 HADOOP平台

一种改进的最大匹配中文分词算法被引量：16: 2011年; 最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。; 闻玉彪贾时银邓世昆李远方; 关键词：索引词库分词

基于树结构的MapReduce模型被引量：8: 2011年; MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用。此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构)。文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用代替传统的,使模型更具有一般性。最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率。实验结果表明,其执行速度明显比传统模型高效。; 李远方贾时银邓世昆韩月阳; 关键词：树结构 MAPREDUCE XML HADOOP

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张