您的位置: 专家智库 > >

侯婷

作品数:2 被引量:13H指数:2
供职机构:北京信息科技大学更多>>
发文基金:北京市教委科技发展计划国家自然科学基金更多>>
相关领域:文化科学自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 1篇自动化与计算...
  • 1篇文化科学

主题

  • 2篇抽取
  • 1篇独立性
  • 1篇术语抽取
  • 1篇主题抽取
  • 1篇主题分析
  • 1篇相似度
  • 1篇活跃度

机构

  • 2篇北京信息科技...
  • 1篇北京城市系统...

作者

  • 2篇李卓
  • 2篇吕学强
  • 2篇侯婷
  • 1篇徐丽萍

传媒

  • 1篇现代图书情报...
  • 1篇情报理论与实...

年份

  • 2篇2015
2 条 记 录,以下是 1-2
排序方式:
专利术语抽取的层次过滤方法被引量:6
2015年
【目的】专利术语作为专利文献的核心内容和重要组成部分,其抽取任务是专利研究的基础工作。【方法】提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词,根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词,通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串,相对活跃度计算方法和分词纠错法过滤冗余字串。【结果】实验结果表明,该方法对中文专利术语抽取有较好的效果,平均正确率为90.54%,平均召回率为87.33%。【局限】只针对重复字串,无法识别文献中出现频次为1的专利术语。【结论】该方法用于专利术语抽取是有效的。
侯婷吕学强李卓
面向专利技术主题分析的技术主题获取被引量:8
2015年
文章利用文本挖掘技术抽取技术主题和规范化主题,为技术主题分析提供基础工作。根据技术主题在专利标题中的分布特点和技术主题分析时主题词的统计长度特征,提出一种主题度计算方法,将主题度较大的词作为主题词;通过计算相似度获得主题词的同义词对,借助统计特征对主题词规范化表示。实验结果表明,文章提出的主题词抽取方法是有效的,实验准确率为95.5%,召回率为95.5%;同时文章提出的主题规范化方法具有较大的意义。
侯婷吕学强李卓徐丽萍
关键词:主题分析相似度
共1页<1>
聚类工具0