您的位置: 专家智库 > >

王培霞

作品数:2 被引量:16H指数:2
供职机构:中国科学院软件研究所更多>>
发文基金:国家自然科学基金国家科技重大专项更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...
  • 1篇文化科学

主题

  • 1篇代码
  • 1篇语言处理
  • 1篇源代码
  • 1篇源码
  • 1篇爬虫
  • 1篇注释
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇网络
  • 1篇网络爬虫
  • 1篇文本分类
  • 1篇检索词
  • 1篇关键词抽取
  • 1篇抽取

机构

  • 2篇中国科学院软...
  • 2篇中国科学院大...

作者

  • 2篇王永吉
  • 2篇余海
  • 2篇王培霞
  • 1篇李斌
  • 1篇陈力

传媒

  • 1篇计算机应用
  • 1篇现代图书情报...

年份

  • 2篇2016
2 条 记 录,以下是 1-2
排序方式:
基于组合分类算法的源代码注释质量评估方法被引量:6
2016年
源代码注释是软件的重要组成部分,研究者往往需要利用人工或自动化的方法产生分析注释,注释的质量评估也往往是通过人工来完成,这无疑是低效不客观的。为此,首先从注释的格式、语言形式、内容以及与代码相关度4个方面出发构建注释评估准则;进而,基于这一准则提出了一种基于组合分类算法的注释质量评估方法。该方法将机器学习以及自然语言处理技术引入到注释质量评估中来,利用分类算法将注释分为不合格、合格、良好、优秀四个等级。通过对基本分类算法的组合使用,使得评估效果进一步提高。组合分类算法的准确率和F1值较单独使用某一种分类算法提高20个百分点左右,除宏平均F1值外,各项指标都达到了70%以上。实验结果表明,所提方法能够很好地应用于注释质量评估。
余海李斌王培霞贾荻王永吉
关键词:文本分类自然语言处理
科技查新中检索词智能抽取系统的设计与实现被引量:10
2016年
【目的】解决科技查新领域检索词选择时的主观性强、手工工作量大、不规范、费时费力的问题。【应用背景】为了实现检索词抽取过程的自动化、智能化、规范化,本文提出利用科技查新过程检出的实时相关语料作为领域知识的来源,并对语料组成类型与关键词抽取效果之间的关系进行讨论。【方法】通过关键词抽取、领域特征扩展相结合的递进式迭代抽取方式实现科技查新领域检索词的智能抽取。【结果】通过与实际查新案例所采用的检索词对比,发现使用本方法两次迭代后抽取10个检索词,召回率达到80%。【结论】基于查新过程中检出文献构成的动态相关语料进行检索词的迭代抽取有助于快速、准确锁定绝大部分检索词,提高检索的效率和效果。
王培霞余海陈力王永吉
关键词:检索词关键词抽取网络爬虫
共1页<1>
聚类工具0