您的位置: 专家智库 > >

吴夙慧

作品数:8 被引量:196H指数:4
供职机构:南京大学信息管理学院更多>>
发文基金:教育部人文社会科学研究基金国家社会科学基金国家科技支撑计划更多>>
相关领域:文化科学自动化与计算机技术经济管理更多>>

文献类型

  • 7篇期刊文章
  • 1篇学位论文

领域

  • 6篇文化科学
  • 2篇自动化与计算...
  • 1篇经济管理

主题

  • 5篇聚类
  • 3篇K-MEAN...
  • 2篇上下文
  • 2篇聚类中心
  • 2篇N元语法
  • 2篇MEANS算...
  • 2篇初始聚类中心
  • 1篇登录
  • 1篇学术
  • 1篇学术文献
  • 1篇引文
  • 1篇引文网络
  • 1篇生物医学
  • 1篇生物医学领域
  • 1篇同被引分析
  • 1篇中文
  • 1篇网络
  • 1篇未登录词
  • 1篇文本表示
  • 1篇文本聚类

机构

  • 8篇南京大学
  • 6篇中国科学技术...
  • 1篇中国医学科学...

作者

  • 8篇吴夙慧
  • 6篇潘云涛
  • 6篇郑彦宁
  • 5篇成颖
  • 1篇吴英杰
  • 1篇孙海霞
  • 1篇李军莲
  • 1篇孙建军

传媒

  • 3篇现代图书情报...
  • 2篇情报科学
  • 2篇情报学报

年份

  • 2篇2013
  • 4篇2012
  • 2篇2011
8 条 记 录,以下是 1-8
排序方式:
文本聚类中文本表示和相似度计算研究综述被引量:22
2012年
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。
吴夙慧成颖郑彦宁潘云涛
关键词:文本聚类文本表示相似度计算
基于混合策略的中文生物医学领域未登录词识别研究被引量:2
2013年
简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。
孙海霞李军莲吴英杰吴夙慧
关键词:未登录词N-GRAM生物医学
链接分析研究进展被引量:5
2013年
本文在近五年链接分析研究文献的基础上,对国内外链接分析的进展进行了评述,研究热点包括:基于网页内容的链接分析,基于用户行为的链接分析,基于Web网页群的链接分析、Web链接分析和复杂网络四个方面。文章最后探讨了链接分析研究的趋势。
吴夙慧孙建军郑彦宁潘云涛
关键词:链接分析复杂网络
一种基于引用上下文和引文网络的相关反馈算法被引量:3
2012年
相关反馈是一种根据用户或系统的相关性判断重构初始检索提问的方法,已被证明可以有效地改进检索效果。具体到学术文献,其引用关系表征了文献内容上的相关性,因而可以为相关反馈提供有价值的辅助信息。本文提出了一种基于引用上下文、文献同被引和文献耦合的相关反馈改进算法。该算法的基本思想包括:利用学术文献的引用上下文信息扩充词包模型(bags of words)进行文本表示;在相关文献判断阶段利用相关文献在引文网络中与其他文献的同被引强度和耦合强度扩充相关文献集合;结合基于聚类的相关反馈思想抽取查询扩展项。实验证明该算法提高了相关反馈效果。此外,相关分析的结果表明文献同被引以及文献耦合强度与文献内容相似度具有显著的相关性。
吴夙慧成颖郑彦宁潘云涛
关键词:聚类
K-means算法研究综述被引量:159
2011年
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。
吴夙慧成颖郑彦宁潘云涛
关键词:聚类算法初始聚类中心
基于N元语法的英文学术文献聚类标签抽取算法被引量:3
2011年
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。
吴夙慧成颖郑彦宁潘云涛
关键词:N元语法
基于引用分析的学术检索系统改进研究
当前,包括学术数据库在内的众多学术检索系统已经成为广大科研工作者必备的研究工具。而目前包括Elsevier, Web of Science, CNKI在内的众多知名学术数据库在其检索模块都主要是采用基于文献内容的解决方案...
吴夙慧
关键词:N元语法检索结果聚类K-MEANS算法
文献传递
基于学术文献同被引分析的K-means算法改进研究被引量:4
2012年
K—means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题。本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K—means改进算法。该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类。算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K—means算法的初始聚类中心。第二步聚类则依据文献内容实现K-means算法。实验通过与经典K—means算法和基于凝聚层次聚类算法的改进K—means算法的对比,证明了本文提出的改进的K—means算法具备更优的聚类效果。
吴夙慧成颖郑彦宁潘云涛
关键词:初始聚类中心
共1页<1>
聚类工具0