董喜双
- 作品数:9 被引量:23H指数:3
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于电子商务用户行为的同义词识别被引量:2
- 2012年
- 该文研究了电子商务领域同义词的自动识别问题。电子商务领域的同义词是指对同一事物或概念的不同表达,即在商品描述和检索中可以相互替换的词,针对该领域新词多、错别字多、近义词多的特点,提出基于用户行为的同义词识别方法。首先通过并列关系符号切分商品标题和基于SimRank思想聚集查询两种方法获取候选集合,进而获取两词的字面特征以及标题、查询、点击等用户行为特征,然后借助Gradient Boost Decision Tree模型判断是否同义。实验表明同义词识别准确率达到56.52%。
- 张书娟董喜双关毅
- 关键词:同义词识别SIMRANKGRADIENTBOOSTDECISIONTREE
- 基于单层标注级联模型的篇章情感倾向分析被引量:10
- 2012年
- 情感分类是目前篇章情感分析的主要方法,但该方法存在难以融入中文结构特征的问题。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层:小句级和篇章级,对篇章情感倾向分析引入小句级的情感分析。该文使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,避免了多层标注工作以及错误。实验结果表明,该方法的准确率较传统情感分类方法提高了2.53%。
- 李本阳关毅董喜双李生
- 关键词:情感倾向分析情感分类最大熵支持向量机
- 中文情感词倾向消歧
- 文本情感倾向性分析的基础是词汇情感倾向分析,本文针对基于词典的词汇情感倾向性分析方法中对情感词倾向绝对化标注问题,提出了一种获取上下文相关的词汇情感倾向方法。同时针对目前缺少包含上下文相关情感词标注资源的问题,使用最大熵...
- 孙慧关毅董喜双
- 关键词:情感倾向最大熵消歧
- 文献传递
- 基于反馈的人工负选择分类算法
- 2013年
- 人工免疫系统是受人体免疫系统启发的一种智能算法,负选择算法作为人工免疫系统的核心算法之一,在各领域被广泛研究和应用。从两方面对负选择算法进行了改进,首先对记忆细胞数量对识别准确率的影响进行了研究,提出一种反馈学习的思想来进行记忆细胞数量的优化,实现提高分类过程中的识别准确率。然后为了解决传统负选择算法存在检测器覆盖空间存在交集、整体覆盖空间较低的问题,提出通过记忆细胞识别半径的自动调整,减少检测器数量,提高整体覆盖空间的方法,这种方法避免了"交叉识别(overlap)"和"识别洞(hole)"现象的出现。最后,实验结果表明算法在解决文本分类问题是有效可行的,其在路透社文本分类数据集上分类准确率达到了93.89%。
- 沈彤关毅董喜双
- 关键词:负选择算法
- 基于半监督学习的微博情感倾向性分析被引量:6
- 2014年
- 微博情感倾向性分析通常指对中文微博中每个句子褒义、贬义或者中性的情感进行自动分类。针对微博碎片化和情感类别失衡的特点,在半监督学习reserved self-training方法的框架基础上提取了适用于微博情感分类的文本特征,并提出了针对情感倾向性分析通过训练度阈值设定的方法来优化reserved self-training迭代终止的条件,在保留reserved self-training能有效处理微博语料中语料情感不平衡问题的优点基础上,防止了训练过度情况的发生。COAE 2014微博情感倾向性评测结果证明了该方法的有效性。
- 朱玺董喜双关毅刘志广
- 关键词:情感分析
- 基于有监督学习的依存句法分析模型综述被引量:2
- 2013年
- 针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。
- 董喜双关毅
- 关键词:依存句法分析有监督学习
- 基于多层协同纠错的中文层次句法分析被引量:3
- 2014年
- 层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。
- 蒋志鹏关毅董喜双
- 关键词:条件随机域模型组块分析
- 基于免疫多词主体自治学习的情感分析研究
- 情感文本指作者对人或物或事做出的有情感极性的评论性文本,其中情感信息包含评价持有者、评价对象、评价词,以及修饰成分,它反映了人们对事物的态度。文本情感分析指借助自然语言处理技术从情感文本中识别和获取情感信息的方法。但由于...
- 董喜双
- 关键词:情感分析信息检索
- 基于电子商务用户行为的同义词识别
- 本文研究了电子商务领域同义词的自动识别问题。针对该领域新词多、错别字多、近义词多的用词特点,提出基于用户行为的同义词识别方法。首先通过并列关系符号切分商品标题和基于SimRank思想聚集查询两种方法获取候选集合,进而获取...
- 张书娟董喜双关毅
- 关键词:同义词识别用户行为SIMRANK
- 文献传递