国家重点实验室开放基金(CCF2012-02-02)
- 作品数:2 被引量:31H指数:2
- 相关作者:李保利杨星徐振强更多>>
- 相关机构:河南工业大学更多>>
- 发文基金:国家重点实验室开放基金河南省基础与前沿技术研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 结合词语分布信息的TFIDF关键词抽取方法研究被引量:2
- 2014年
- 介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。
- 徐振强李保利
- 关键词:抽取TFIDF自动标引
- 基于LDA模型和话题过滤的研究主题演化分析被引量:29
- 2012年
- 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
- 李保利杨星
- 关键词:LDA模型