王挺
- 作品数:127 被引量:607H指数:14
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 搜索词同现网络研究
- 查询日志中的同现搜索词可以通过复杂网络进行刻画。本文基于Sougou用户查询日志语料,建立了搜索词的同现网络。由于搜索词中包含了大量的人名,同样也存在着人物搜索词同现网络。本文对搜索词同现网、人物搜索词同现网和语言的同现...
- 罗准辰王挺
- 关键词:查询日志小世界
- 文献传递
- 基于多向量和实体模糊匹配的话题关联识别被引量:6
- 2008年
- 本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
- 张晓艳王挺陈火旺
- 关键词:计算机应用中文信息处理
- 一种多过滤器集成学习垃圾邮件过滤方法
- 垃圾邮件过滤就是在线对邮件做出 Spam(垃圾)或 Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文通过抽取邮件的语言特征和行为特征构建多个简单过滤器, 然后采用集成学习方法组合这些简单过滤器,获得了比...
- 刘伍颖王挺
- 关键词:垃圾邮件过滤支持向量机
- 文献传递
- 语料库词法标注的隐马可夫模型(HMM)算法
- 首先介绍了用隐马可夫模型(HMM)算法标注语科库中的英文单词的原理,然后提出并解决了构造隐马可夫模型(HMM)的三个基本问题,以图示和数学手法描述了算法详细过程。
- 杨谊王挺
- 一种基于动态网页解析的微博数据抓取方法被引量:3
- 2015年
- 微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。
- 钟明翔唐晋韬谢松县王挺
- 关键词:数据挖掘动态网页爬虫
- 一种考虑通道相关的卫星观测资料三维变分同化方法
- 本发明提出一种考虑通道相关的卫星观测资料三维变分同化方法。包括下列步骤:1)利用后验信息诊断卫星资料观测误差的通道相关和误差标准差;2)卫星观测误差协方差矩阵块对角化分解;3)卫星观测误差协方差矩阵求逆;4)构造考虑卫星...
- 程小平王挺黄小刚费建芳丁菊丽
- 文献传递
- 基于元数据的数据整合平台被引量:8
- 2008年
- 针对数据资源整合的共性问题,提出了一种基于元数据、结合Web服务与本体技术的数据资源共享与整合平台的实现框架(MDDI)。重点讨论了基于JavaCC设计与实现的元数据自动抽取与转换工具,该工具把与各平台相关的元数据自动提取并转换为与平台无关的元数据,实现了基于元模型的元数据集成,为最终实现数据的共享和整合奠定了基础。
- 林毅宁洪王挺刘文杰
- 关键词:元数据数据整合抽取
- 半监督学习和主动学习相结合的浅层语义分析被引量:18
- 2008年
- 语义分析是基于内容的文本挖掘领域的重要技术和研究难点。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。本文面向浅层语义分析任务,采用一种新颖的半监督学习方法——直推式支持向量机,并结合其训练特点提出了基于主动学习的样本优化策略。实验表明,本文提出的浅层语义分析方法通过整合主动学习与半监督学习,在小规模标注样本环境中取得了良好的学习效果。
- 陈耀东王挺陈火旺
- 关键词:计算机应用中文信息处理浅层语义分析半监督学习直推式支持向量机
- 基于本体的生物信息集成研究
- 为了解决传统生物信息集成在语义处理中的困难,首先分析了现有生物学本体知识及其在生物信息集成中的作用,然后将传统的基于中介模式的数据集成方法和本体技术相结合,提出了分布式环境下基于本体的生物信息集成框架(MOBIB)并对其...
- 林毅宁洪王挺刘文杰
- 关键词:数据集成异构生物信息学
- 义类自动标注方法的研究被引量:7
- 2001年
- 句法分析不能满足汉语分析的需要 ,句法和语义相结合的分析方法适用于汉语分析。分析的基础要有一部语法语义词典。目前的机读词典多是语法词典 ,因而需要在语法词典中加入词的语义信息。《同义词词林》是一部较好的义类词典 ,但没有语法信息 ,可以《同义词词林》的分类体系对语法词典进行义类标注 ,得到语法语义词典。这一过程中有不一致的情况 ,特别地 ,对《同义词词林》中未收录的词就不能直接标注义类。本文采用《同义词词林》的分类体系 ,研究设计了一个汉语词自动义类标注算法 ,对北大《现代汉语语法信息词典》进行自动义类标注。实验结果较为满意 ,得到 91 %的准确率。
- 齐璇王挺陈火旺
- 关键词:自然语言处理