汪建成
- 作品数:3 被引量:11H指数:2
- 供职机构:昆明理工大学信息工程与自动化学院更多>>
- 发文基金:云南省自然科学基金国家自然科学基金云南省教育厅科学研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 汉越双语新闻话题分析方法研究
- 越南与我国云南毗邻,在“桥头堡”战略大环境下,越南与国内交流日益密切,作为信息的主要载体,汉越双语的文本处理变得尤为重要。维基百科中存在的汉语和越南语页面,隐藏了大量的语义信息,是做跨语言文本处理的重要资源。本文针对汉语...
- 汪建成
- 关键词:语义相关度主题文本相似度
- 文献传递
- 融合要素及主题的汉越双语新闻话题分析被引量:3
- 2016年
- 双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题。实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高。
- 夏青严馨余正涛汪建成高盛祥洪旭东
- 关键词:文本相似度主题自适应聚类