王良芳
- 作品数:4 被引量:39H指数:3
- 供职机构:浙江工业大学计算机科学与技术学院、软件学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本挖掘关键词提取算法的研究
- 随着信息技术的不断发展,大量的文本信息开始以计算机可读的形式存在,许多领域信息都呈现出爆炸式增长,因此如何在海量的信息当中,快速并准确地提取对读者有用的信息将是一个重要的课题。关键词提取就是一种解决上述问题的有效手段,关...
- 王良芳
- 关键词:文本挖掘同义词词林词义消歧关键词提取
- 文献传递
- 基于语义词典和词汇链的关键词提取算法被引量:14
- 2013年
- 关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.
- 刘端阳王良芳
- 关键词:同义词词林词汇链关键词提取语义分析
- 结合语义扩展度和词汇链的关键词提取算法
- 针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,...
- 刘端阳王良芳
- 关键词:同义词词林词汇链关键词提取语义分析
- 结合语义扩展度和词汇链的关键词提取算法被引量:19
- 2013年
- 针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。
- 刘端阳王良芳
- 关键词:同义词词林词汇链关键词提取语义分析