您的位置: 专家智库 > >

国家自然科学基金(60873134)

作品数:12 被引量:151H指数:6
相关作者:李芳单斌楚克明贺亮章建更多>>
相关机构:上海交通大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 12篇期刊文章
  • 2篇会议论文

领域

  • 13篇自动化与计算...
  • 1篇文化科学

主题

  • 5篇LDA
  • 3篇新闻
  • 2篇新闻话题
  • 2篇信息处理
  • 2篇抽取
  • 1篇新闻报
  • 1篇新闻报道
  • 1篇语义角色
  • 1篇语义角色标注
  • 1篇色标
  • 1篇上下文
  • 1篇浅层句法分析
  • 1篇中文
  • 1篇中文语义
  • 1篇种子
  • 1篇文字信息
  • 1篇文字信息处理
  • 1篇句法分析
  • 1篇基于上下文
  • 1篇角色标注

机构

  • 13篇上海交通大学

作者

  • 13篇李芳
  • 3篇单斌
  • 3篇楚克明
  • 2篇贺亮
  • 2篇章建
  • 1篇周振宇
  • 1篇王文学

传媒

  • 5篇中文信息学报
  • 2篇上海交通大学...
  • 2篇现代图书情报...
  • 1篇计算机应用与...
  • 1篇小型微型计算...
  • 1篇Journa...
  • 1篇第六届全国信...

年份

  • 1篇2015
  • 1篇2014
  • 2篇2013
  • 3篇2012
  • 3篇2011
  • 3篇2010
  • 1篇2009
12 条 记 录,以下是 1-10
排序方式:
基于种子文档和话题模型的话题演化研究
现实生活中不断有新话题的产生和旧话题的消亡,话题的内容也随着时间不断的变化。因此自动探测话题演化越来越受到学者的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域...
单斌李芳
文献传递
基于话题模型的科技文献话题发现和趋势分析被引量:26
2012年
自动挖掘科技文献话题,总结发展趋势及最新研究动态,有助于科技工作者的研究。该文提出一种话题发现和趋势分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后针对热门和冷门话题以及影响力高和影响力低的话题,进行了趋势分析。该文提出的话题强度和影响力计算方法,可以针对任何文集。对ACL论文集的实验,显示了计算语言学领域过去的发展状况。和其他方法的对比实验,也验证了该文提出的话题强度和影响力的计算方法是正确和可行的。
贺亮李芳
基于LDA话题演化研究方法综述被引量:81
2010年
现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面:内容演化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不同方式将目前的研究方法分为三类:将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比,并且简要描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。
单斌李芳
关键词:LATENTDIRICHLETALLOCATION
基于种子词汇的话题标签抽取研究被引量:7
2013年
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。
寇宛秋李芳
基于联合方法的中文语义角色标注
2011年
目前基于机器学习的中文语义角色标注(Semantic Role Labeling,SRL)方法大致可以分为两类:基于深层句法分析的方法和基于浅层句法分析的方法.由于基于这两种方法的SRL系统在性能和健壮性上各有优缺点,本文试图联合基于这两种方法的SRL系统的输出,通过一些全局特征训练出联合模型,对候选角色进行过滤,然后解决不满足句子论元结构限制的冲突角色得到最终标注结果,来提高标注的性能.在Chinese PropBank 1.0语料集上,联合模型的F值达到了78.41%,在基于深层句法分析的SRL的F值67.34%和基于浅层句法分析的SRL的F值71.67%基础上有了显著的提高,从而证明我们的联合方法是非常有效的.
王文学李芳
关键词:语义角色标注浅层句法分析CHINESESVM
科技文献话题演化研究被引量:11
2012年
提出一种研究话题演化的方法,利用LDA话题模型抽取科技文献的话题,通过计算话题的强度和特征词,研究话题的演化趋势。对NIPS论文集与ACL论文集进行实验,结果显示了机器学习领域以及计算语言学领域的一些发展状况,从而验证该方法的可行性。
贺亮李芳
Thread Labeling for News Event
2013年
Automatic thread labeling for news events can help people know different aspects of a news event. In this paper, we present a method to label threads of a news event. We use latent Dirichlet allocation (LDA) topic model to extract news threads from news corpus. Our method first selects the thread words subset then extracts phrases based on co-occurrence calculation. The extracted phrase is then used as a label of a news thread. Experimental results show that about 60% of generated labels visualize the meaningful aspects of a news event. These labels can help people fast to capture many different aspects of a news event.
闫泽华李芳
关键词:信息处理CNNIC
基于局部和全局的LDA话题演化分析被引量:3
2012年
对话题演化进行形式化描述,探讨了基于全局和局部话题演化的2种建模方式,并应用话题相似度和困惑度进行评测.对房地产话题和奥运会话题进行实例分析,给出了2种不同建模方法在话题演化方面的优缺点.两会报告实验结果表明,全局话题演化能够获得较好的模型参数,方法简单可靠;而局部话题演化则能产生细粒度话题,反映新话题的产生和旧话题的消亡.
章建李芳
关键词:文字信息处理
基于LDA话题关联的话题演化被引量:20
2010年
话题演化可以帮助人们快速获取信息和了解趋势.提出了一种挖掘话题随时间变化的方法,通过话题抽取和话题关联实现话题的演化.对不同时间段的文集进行话题的自动抽取,话题数目在不同时间段是可变的;计算相邻时间段中任意2个话题的分布距离和话题的特征向量相似度实现话题的关联.实验结果证明,该方法不但可以描述同一个话题随时间的强度变化,还可以描述新话题的产生,旧话题的消失以及话题内容随时间的演化.
楚克明李芳
基于上下文的话题演化和话题关系抽取研究被引量:1
2015年
自动挖掘大规模语料中的语义信息以及演化关系近年来已受到广大专家学者的关注。话题被认为是文档集合中的潜在语义信息,话题演化用于研究话题内容随时间的变化。该文提出了一种基于上下文的话题演化和话题关系抽取方法。分析发现,一个话题常和某些其他话题共现在多篇文档中,话题间的这种共现信息被称为话题的上下文。上下文信息可以用于计算同时间段话题间的语义关系以及识别不同时间段中具有相同语义的话题。该文对2008年-2012年两会报告以及2007年~2011年NIPS科技文献进行实验,通过人工分析,利用话题的上下文信息,不但可以提高话题演化的正确率,而且还能挖掘话题之间的语义关系,在话题演化的基础上,显示话题关系的演化。
章建李芳
共2页<12>
聚类工具0