您的位置: 专家智库 > >

王宝勋

作品数:8 被引量:38H指数:4
供职机构:哈尔滨工业大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划哈尔滨市科技创新人才研究专项资金项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 2篇学位论文
  • 1篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 2篇网络
  • 2篇相关度
  • 2篇抽取
  • 2篇答案抽取
  • 1篇短文
  • 1篇段落
  • 1篇段落划分
  • 1篇信息处理
  • 1篇形式化
  • 1篇邮件
  • 1篇语义
  • 1篇语义挖掘
  • 1篇语义相关
  • 1篇语义相关度
  • 1篇正文
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇置信度
  • 1篇识别方法
  • 1篇树结构

机构

  • 8篇哈尔滨工业大...
  • 1篇哈尔滨理工大...

作者

  • 8篇王宝勋
  • 5篇王晓龙
  • 4篇刘秉权
  • 3篇李鹏
  • 2篇孙承杰
  • 2篇刘远超
  • 1篇李博
  • 1篇孙林
  • 1篇乔佩利
  • 1篇孙林

传媒

  • 2篇电子学报
  • 1篇自动化学报
  • 1篇中文信息学报
  • 1篇智能计算机与...

年份

  • 2篇2013
  • 1篇2012
  • 1篇2010
  • 3篇2008
  • 1篇2007
8 条 记 录,以下是 1-8
排序方式:
标签特征和正文特征融合的SVM博客文本分类算法研究
博客飞速发展,博客文本检索和分类的研究价值日渐凸显。博客文本的内容、风格缺乏规范性,为自动文本分类带来难度。博客作者通常为文章指定一个或多个标签,标签在很大程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据...
刘秉权李博孙林王宝勋刘远超
关键词:标签文本分类
文献传递
面向网络社区问答对的语义挖掘研究
Web2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents,UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现,针对其开展的采集和...
王宝勋
关键词:网络社区语义挖掘
基于模式学习的形式化答案抽取技术与置信度评价方法被引量:3
2008年
本文提出一种基于模式学习的形式化答案抽取方法,区别于传统基于特征的答案抽取方法,通过问题模式和答案模式的自动匹配,直接获取问题答案.本文通过机器学习的方法自动生成用于答案抽取的形式化模板,克服了人工方法费时、费力以及覆盖率低等问题.本文创造性地采用逻辑回归的方法对所学习到的模式进行置信度评价.对比实验表明,本文的方法取得了比较好的答案抽取效果.本文方法实际应用于国际TREC QA评测,评测结果证明本文的方法与传统基于特征的答案抽取方法具有很好的互补性.
李鹏乔佩利王晓龙王宝勋
关键词:问答系统答案抽取置信度逻辑回归
一种基于混合策略的失衡数据集分类方法被引量:18
2007年
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证.
李鹏王晓龙刘远超王宝勋
关键词:支持向量机K-近邻
基于论坛话题段落划分的答案识别被引量:7
2013年
在论坛话题中识别答案是面向论坛的问答对挖掘中的核心问题.在论坛话题的讨论中通常存在隐式的结构,这种结构信息非常有助于最佳答案的定位和识别.本文提出了一种基于中文论坛话题段落划分的答案识别方法:首先将论坛话题重新组织为若干段落的集合,并基于此划分提取一组能够反映话题讨论逻辑结构的特征.在此基础上给出了一种可以根据候选答案所在段落类别实现模型选择的答案识别策略,从而避免了噪声信息对模型预测的误导.实验结果表明本文的答案识别方法非常适用于面向在线论坛的问答资源挖掘工作.
王宝勋刘秉权孙承杰王晓龙孙林
网络问答资源挖掘综述
2012年
由大规模问答对组成的问答知识库对于自动问答技术的巨大支持作用是不言而喻的,从互联网获取知识并以问答对的形式加以保存是扩充和完善问答知识库的必要手段。阐述了面向互联网数据源的问答资源挖掘对于问答系统构建和自然语言处理研究的重要意义,概述了网络问答资源挖掘研究的主要任务以及面临的挑战,并通过对当前该领域的研究成果的综述分析了其中的重点研究问题。
王宝勋刘秉权孙承杰王晓龙
一种基于无监督学习的词变体识别方法被引量:4
2008年
本文提出了一种生物医药领域词变体的识别策略。首先使用最小编辑距离算法和字符匹配算法从语料中分别获得特定目标词的形态学变体和缩略词,并将其作为候选词变体。本文采用系统相似模型获得每个词变体上下文语义的量化评价。本文的方法不需要任何语言学知识和精细加工的语料资源,实验表明,该方法可以在保证准确率的同时显著地提高词变体识别的召回率。
王宝勋王晓龙刘秉权李鹏
关键词:计算机应用中文信息处理缩略词
多邮件自动文摘的关键技术研究
随着互联网的飞速发展,越来越多的互联网用户开始成为电子邮件的受益者,同时网络空间中的电子邮件信息量也呈现出不断膨胀的趋势。电子邮件作为人们常用的一种通信工具,其中往往包含着大量的关键信息,这些信息当中的一部分很有可能涉及...
王宝勋
文献传递
共1页<1>
聚类工具0