您的位置: 专家智库 > >

王会珍

作品数:23 被引量:84H指数:5
供职机构:东北大学自然语言处理实验室更多>>
发文基金:国家自然科学基金中央高校基本科研业务费专项资金教育部“新世纪优秀人才支持计划”更多>>
相关领域:自动化与计算机技术一般工业技术更多>>

文献类型

  • 12篇会议论文
  • 10篇期刊文章
  • 1篇学位论文

领域

  • 22篇自动化与计算...
  • 1篇一般工业技术

主题

  • 8篇中文
  • 5篇文本分类
  • 4篇信息处理
  • 4篇特征选取
  • 4篇中文信息
  • 4篇中文信息处理
  • 4篇自适
  • 4篇自适应
  • 3篇邮件
  • 3篇邮件过滤
  • 3篇垃圾邮件
  • 3篇垃圾邮件过滤
  • 3篇计算机
  • 3篇计算机应用
  • 2篇对齐
  • 2篇人名
  • 2篇人名识别
  • 2篇人名消歧
  • 2篇随机场
  • 2篇随机场模型

机构

  • 22篇东北大学
  • 6篇教育部
  • 1篇东北师范大学

作者

  • 23篇王会珍
  • 16篇朱靖波
  • 4篇张海雷
  • 4篇张希娟
  • 3篇季铎
  • 3篇肖桐
  • 3篇张斌
  • 2篇朱慕华
  • 2篇陈如山
  • 2篇李天宁
  • 2篇张俐
  • 2篇曹菲菲
  • 2篇任飞亮
  • 2篇叶娜
  • 2篇王安慧
  • 2篇陈文亮
  • 1篇李超
  • 1篇胡明涵
  • 1篇王锦
  • 1篇时迎超

传媒

  • 8篇中文信息学报
  • 2篇软件学报
  • 1篇2007年全...
  • 1篇第二届全国信...
  • 1篇全国第八届计...
  • 1篇第二届全国信...
  • 1篇第九届全国计...
  • 1篇第五届全国青...
  • 1篇全国网络与信...

年份

  • 1篇2015
  • 1篇2013
  • 2篇2011
  • 5篇2010
  • 1篇2009
  • 2篇2008
  • 6篇2007
  • 2篇2006
  • 3篇2005
23 条 记 录,以下是 1-10
排序方式:
基于维基百科类别的文本特征表示被引量:17
2011年
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。
王锦王会珍张俐
关键词:文本分类文本表示
文本内容分类和主题追踪关键技术研究
互联网成为人们快速获取信息以及交换信息工具的同时,也给人们带来了更多新的挑战。人们迫切需要一种高效快速准确的技术来帮助自己处理浩瀚的信息。各种信息检索、信息过滤、分类、主题检测与追踪等文本信息处理技术应运而生,并且得到了...
王会珍
关键词:垃圾邮件过滤特征选取主题漂移
文献传递
基于多层次特征集成的中文实体指代识别被引量:3
2007年
实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
关键词:计算机应用中文信息处理条件随机场模型
基于维基百科类别的文本特征表示
本文提出了基于维基百科类别体系的文本特征表示方法,该方法将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科...
王锦王会珍张俐
关键词:文本分类文本表示
文献传递
面向人名消歧任务的人名识别系统被引量:4
2011年
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。
时迎超王会珍肖桐胡明涵
关键词:人名识别人名消歧系统整合启发式规则
基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析
朴素贝叶斯分类器在基于内容的垃圾邮件过滤研究和实用系统中有广泛应用,取得了很好的效果。常用的朴素贝叶斯模型有两种:多变量贝努利模型和多项式模型。本文使用中文和英文公开邮件语料对比了分别基于多变量贝努利模型和多项式模型的垃...
张海雷王会珍王安慧朱靖波
关键词:垃圾邮件过滤朴素贝叶斯分类器
文献传递
基于主动学习的自适应话题追踪
针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确...
王会珍张希娟朱靖波张斌
文献传递
基于朴素贝叶斯模型的垃圾邮件过滤技术比较分析
朴素贝叶斯分类器在基于内容的垃圾邮件过滤研究和实用系统中有广泛应用,取得了很好的效果。常用的朴素贝叶斯模型有两种:多变量贝努利模型和多项式模型。本文使用中文和英文公开邮件语料对比了分别基于多变量贝努利模型和多项式模型的垃...
张海雷王会珍王安慧朱靖波
关键词:朴素贝叶斯模型垃圾邮件
文献传递
基于多层次特征集成的中文实体指代识别
实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
关键词:条件随机场模型
文献传递
面向文本分类的混淆类判别技术被引量:13
2008年
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能.
朱靖波王会珍张希娟
关键词:文本分类特征选取自然语言处理
共3页<123>
聚类工具0