您的位置: 专家智库 > >

曾宪桃

作品数:2 被引量:6H指数:1
供职机构:西北师范大学计算机科学与工程学院更多>>
发文基金:国家自然科学基金甘肃省自然科学基金甘肃省中青年科技研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇短文
  • 1篇信息增益
  • 1篇统计信息
  • 1篇文本
  • 1篇文本特征
  • 1篇文本相似度
  • 1篇相似度
  • 1篇矩阵
  • 1篇建模方法
  • 1篇非负矩阵
  • 1篇词项
  • 1篇词语权重
  • 1篇词语相似度

机构

  • 2篇西北师范大学

作者

  • 2篇李晓红
  • 2篇马慧芳
  • 2篇曾宪桃
  • 1篇朱志强

传媒

  • 1篇计算机工程
  • 1篇计算机应用与...

年份

  • 2篇2016
2 条 记 录,以下是 1-2
排序方式:
一种融合词项关联关系和统计信息的短文本建模方法
2016年
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。
马慧芳曾宪桃李晓红贠宁
关键词:词语相似度文本相似度
改进的频繁词集短文本特征扩展方法被引量:6
2016年
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。
马慧芳曾宪桃李晓红朱志强
关键词:词语权重信息增益非负矩阵
共1页<1>
聚类工具0