樊兴华
- 作品数:23 被引量:204H指数:8
- 供职机构:重庆邮电大学更多>>
- 发文基金:国家自然科学基金重庆市自然科学基金教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 面向短文本的命名实体识别被引量:19
- 2009年
- 针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。
- 王丹樊兴华
- 关键词:隐马尔可夫模型命名实体识别词性
- 一种新的词语相似度计算方法被引量:10
- 2009年
- 提出了一种新的词语相似度计算方法。该方法利用词语关联分布规范化因子,对互信息中目标词和基词的关联度度量方法进行了修正,通过计算目标词和基词的关联度,构造目标词的属性向量,由目标词的属性向量,利用夹角余弦法计算出目标词语相似度。实验结果验证了该方法的有效性。
- 赵军胡栓柱樊兴华
- 关键词:互信息词语相似度
- 一种改进的增量贝叶斯分类算法
- 贝叶斯分类器在知识储备不足的情况下,容易对新增未标注的训练文本(新增训练集)产生分类错误,若这些分类错误的文本过早地加入到分类器中会降低其分类性能;另外,新增训练集的规模过大将会降低增量学习的速度。为了解决这些问题,提出...
- 马后锋樊兴华
- 关键词:贝叶斯分类算法
- 文献传递
- 基于领域词语本体的短文本分类被引量:43
- 2009年
- 短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类。提出了基于领域词语本体的短文本分类方法。首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类。对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率。
- 宁亚辉樊兴华吴渝
- 关键词:本体知网文本分类语义
- 基于词共现和词上下文的领域观点词抽取方法被引量:5
- 2013年
- 为提高领域观点词的抽取效果,主要研究了词共现和词上下文对领域观点词抽取的影响。引入词上下文生成同义词词表的方法,使用词上下文构造的向量表示该词语,考察词集与种子词语向量间的相似度,完成观点词的抽取和判别。提出了一种组合词上下文与传统考虑词共现的SO-PMI(senmantic orientation-pointwise mutal information)方法。实验结果表明,该方法有一定效果,相较于SO-PMI在性能上有较大提高,从一定程度解决了领域适用性的问题。
- 宋施恩樊兴华
- 关键词:词共现
- 基于两步策略的文本分类方法实验研究
- 2011年
- 已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:1可以使用两步策略分类方法的分类器须满足的条件;23种理论上可用两步策略进行文本分类的分类器;3实验比较Rocchio、朴素贝叶斯、KNN 3种分类器两两组合后应用于多类英语文本分类的效果。实验结果表明:Rocchio、朴素贝叶斯、KNN 3种分类器满足两步策略分类的条件,且当KNN作第一步分类器,朴素贝叶斯作第二步分类器时分类效果最好。
- 何泉昊樊兴华周鹏
- 关键词:文本分类ROCCHIO朴素贝叶斯K近邻
- 基于聚类和支持向量机相结合的热点发现被引量:1
- 2013年
- 为更及时且有效地挖掘出微博热点,提出一种基于无监督聚类和支持向量机相结合的热点发现方法。该方法运用热点事件之间的关联性,通过这种关联性来预测未知事件是热点事件的可能性。该算法首先通过对已标注的正例和反例训练SVM并获得SVM分类器。然后对测试集用K-means聚类算法进行聚类并获取热点簇,最后对每一簇中的样本使用SVM分类器进行分类,计算出每一簇中热点样本占该簇中总样本的比例。通过三种热度的计算方式。在相同的环境下进行测试,实验表明基于聚类和支持向量机相结合的热点发现方法,对热点发现具有良好的指导作用。
- 甘孟壮樊兴华
- 关键词:无监督聚类支持向量机
- 基于朴素贝叶斯和遗传算法的两类文本分类方法被引量:4
- 2008年
- 本文提出了一种基于朴素贝叶斯和遗传算法的两类文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用遗传算法搜索最优文本分割线,从而使分类器达到最佳性能。在由12600篇文本构成的中文语料数据集上的实验表明,该方法具有较高的分类性能和效率,查准率、查全率和F1值分别达到97.98%,91.05%和94.39%。
- 万狄飞樊兴华王国胤
- 关键词:文本分类遗传算法朴素贝叶斯分类器
- 一种基于扩展的两步文本倾向性分析方法被引量:4
- 2012年
- 提出一种基于扩展的两步文本倾向性分析方法,该方法利用包含倾向性词表、否定词表、程度词表在内的情感词语对训练文本进行特征扩展,按照将情感词语和内容词语是否同等对待来构造两个分类器CF1和CF2;在分类时,对测试文本进行和训练文本类似的特征扩展,使用分类器CF1对其进行分类,对分类结果中的可靠部分直接做出判定,对分类结果中的不可靠部分利用分类器CF2进行二次分类并做出判定。实验结果验证了该方法的有效性。
- 樊兴华王鹏周鹏
- 关键词:中文信息处理
- 一种基于聚类的主题模型短文本分类方法
- 针对单个短文本的信息描述能力差的问题,提出了一种基于聚类的主题模型短文本分类方法。首先对短文本训练集的每一个类别进行聚类,把聚类得到的一簇类中的文本看成是讨论的同一个主题,再根据主题在类别中的概率分布以及词语在主题中的概...
- 黄鑫樊兴华
- 关键词:聚类算法主题模型朴素贝叶斯
- 文献传递