您的位置: 专家智库 > >

王强

作品数:7 被引量:39H指数:3
供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金哈尔滨工业大学校基金资助国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术自然科学总论更多>>

文献类型

  • 5篇期刊文章
  • 2篇会议论文

领域

  • 7篇自动化与计算...
  • 1篇自然科学总论

主题

  • 2篇中文
  • 2篇中文信息
  • 2篇文本
  • 2篇文本分类
  • 2篇聚类
  • 1篇多模式
  • 1篇多模式匹配
  • 1篇多模式匹配算...
  • 1篇信息处理
  • 1篇信息检索
  • 1篇语言处理
  • 1篇噪声
  • 1篇数据挖掘
  • 1篇贪心
  • 1篇贪心算法
  • 1篇片断
  • 1篇中文信息处理
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇字符

机构

  • 7篇哈尔滨工业大...

作者

  • 7篇关毅
  • 7篇王强
  • 5篇王晓龙
  • 1篇孙晓山
  • 1篇蒲宇达
  • 1篇赵健
  • 1篇徐志明
  • 1篇包刚

传媒

  • 1篇电子与信息学...
  • 1篇自动化学报
  • 1篇高技术通讯
  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇第三届学术计...
  • 1篇全国第八届计...

年份

  • 2篇2007
  • 2篇2006
  • 3篇2005
7 条 记 录,以下是 1-7
排序方式:
基于数据挖掘思想的网页正文抽取方法的研究
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法.该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网...
蒲宇达关毅王强
关键词:数据挖掘自然语言处理聚类
文献传递
基于Cover级别的中文信息检索技术的研究
2005年
信息检索系统如果能较精确地定位于文章中用户关心的部分必将提高用户的检索效率。基于Cover级别的检索策略就是针对上述问题提出的。基于Cover级别的检索策略以用户查询的关键词集合作为输入,在被检索文档中找到包含关键词集合的最短文本片断集作为输出。文章采用了一种经过改进的基于Cover级别的检索策略,对系统返回的文本片断作了限制,并在检索过程中使用了贪心算法(Greedy Algorithm)的思想,最后将其应用到中文信息检索系统中。实验证明,采用改进的策略比原有的基于Cover级别的检索策略在返回有效结果个数和平均排序倒数(MRR)等指标上都有了提高。
包刚关毅王强赵健
关键词:贪心算法
基于标题类别语义识别的文本分类算法研究被引量:6
2007年
本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。
王强关毅王晓龙
一种改进的Wu-Manber多模式匹配算法及应用被引量:20
2006年
本文针对Wu-Manber多模式匹配算法在处理后缀模式情况下的不足,给出了一种改进的后缀模式处理算法,减少了匹配过程中字符比较的次数,提高了算法的运行效率。本文在随机选择的TREC2000的52,067篇文档上进行了全文检索实验,对比了Wu-Manber算法、使用后缀模式的改进算法、不使用后缀模式的简单改进等三种算法的匹配过程中字符比较的次数。实验结果说明,本文的改进能够比较稳定的减少匹配过程中字符比较的次数,提高匹配的速度和效率。
孙晓山王强关毅王晓龙
关键词:中文信息处理多模式匹配字符串匹配信息检索
基于特征类别属性分析的文本分类器分类噪声裁剪方法被引量:3
2007年
提出一种应用文本特征的类别属性进行文本分类过程中的类别噪声裁剪(Eliminating class noise,ECN)的算法.算法通过分析文本关键特征中蕴含的类别指示信息,主动预测待分类文本可能归属的类别集,从而减少参与决策的分类器数日,降低分类延迟,提高分类精度.在中、英文测试语料上的实验表明,该算法的F值分别达到0.76与0.93,而且分类器运行效率也有明显提升,整体性能较好.进一步的实验表明,此算法的扩展性能较好,结合一定的反馈学习策略,分类性能可进一步提高,其F值可达到0.806与0.943.
王强关毅王晓龙
K-NN与SVM相融合的文本分类技术研究被引量:10
2005年
提出了一种改进的K-NN (K Nearest Neighbor)与SVM (Support Vector Machine)相融合的文本分类算法.该算法利用文本聚类描述K-NN算法中文本类别的内部结构,用sigmoid函数对SVM输出结果进行概率转换,同时引入CLA(Classifier's Local Accuracy)技术进行分类可信度分析以实现两种算法的融合.实验表明该算法综合了K-NN与SVM在分类问题中的优势,既有效地降低了分类候选的数目,又相应地提高了文本分类的精度,具有较好的性能.
王强王晓龙关毅徐志明
关键词:SVMSIGMOID函数VECTOR文本聚类文本分类
论系统相似的度量
本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有...
关毅王晓龙王强
文献传递
共1页<1>
聚类工具0