您的位置: 专家智库 > >

尹中航

作品数:17 被引量:127H指数:6
供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 13篇期刊文章
  • 4篇会议论文

领域

  • 14篇自动化与计算...
  • 6篇文化科学

主题

  • 5篇支持向量
  • 5篇支持向量机
  • 5篇向量
  • 5篇向量机
  • 4篇主题提取
  • 3篇语言处理
  • 3篇知识库
  • 3篇自然语言
  • 3篇自然语言处理
  • 3篇网页
  • 3篇超链
  • 2篇页面
  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇自动分类系统
  • 2篇降噪
  • 2篇SVM
  • 2篇WEB页

机构

  • 17篇上海交通大学
  • 3篇上海第二工业...

作者

  • 17篇尹中航
  • 14篇蔡巍
  • 14篇王永成
  • 3篇宋聚平
  • 2篇滕伟
  • 2篇王英林
  • 2篇李伟
  • 1篇韩客松
  • 1篇李伟

传媒

  • 4篇上海交通大学...
  • 3篇情报学报
  • 2篇情报科学
  • 1篇计算机工程
  • 1篇情报杂志
  • 1篇高技术通讯
  • 1篇软件学报
  • 1篇2000年C...
  • 1篇第三届海峡两...
  • 1篇第十四届全国...
  • 1篇第四十届全国...

年份

  • 1篇2010
  • 2篇2009
  • 1篇2008
  • 2篇2004
  • 4篇2003
  • 1篇2002
  • 1篇2001
  • 5篇2000
17 条 记 录,以下是 1-10
排序方式:
SVMs-支持向量机A
随着信息的迅速增加,文本分类已经成为信息管理的一项关键技术.现有方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时难以取得理想的效果。该文介绍了一种可广泛应用在网上进行文本信息分类的SVMs方法,是由V...
尹中航王永成蔡巍
关键词:支持向量机
文献传递网络资源链接
利用串匹配技术实现网上新闻的主题提取(英文)被引量:17
2002年
从文本中提取主题串是自然语言处理的重要基础之一.传统的提取方法主要是依据“词典加匹配”的模式.由于词典的更新速度无法同步于网上新闻中新词汇涌现的速度,而且词典的内容也无法完全涵盖网上新闻的范围, 因此这种方法不适用于网上新闻的主题提取.提出并实现了一种不用词典即可提取新闻主题的新方法.该方法利用网上新闻的特殊结构,在标题和正文间寻找重复的字串.经过简单地处理,这些字串能够较好地反映新闻的主题.实验结果显示该方法能够准确、有效地提取出绝大部分网上新闻的主题,满足新闻自动处理的需要.该方法同样适用于其它亚洲语言和西方语言.
尹中航王永成蔡巍韩客松
关键词:网页信息处理网上新闻主题提取自然语言处理
一种无词典的从Web新闻页面抽取主题的算法被引量:2
2008年
主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典+匹配”,但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上。
蔡巍王永成尹中航
关键词:主题提取WEB页面超链接
基于网上新闻语料的Web页面自动分类研究被引量:3
2010年
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。
蔡巍王英林尹中航
关键词:超文本主题提取
SVMs-支持向量机A
随着信息的迅速增加,文本分类已经成为信息管理的一项关键技术.现有方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时难以取得理想的效果。该文介绍了一种可广泛应用在网上进行文本信息分类的SVMs方法,是由V...
尹中航王永成蔡巍
关键词:支持向量机
文献传递
自动分类中的过学习问题与支持向量机被引量:6
2000年
由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想。本文首先从理论上分析了这种出现过学习的原因,然后介绍了出现过学习现象的条件和解决办法,最后介绍了一种研究小样本情况下机器学习规律、可以较好地克服过学习问题的分类方法--支持向量机方法。
尹中航王永成蔡巍
关键词:支持向量机
一种基于大语料库的多分类体系自动转换方案设计
2009年
情报语言的兼容与互换问题是21世纪情报语言学的重要研究课题之一。互联网时代,当代情报语言的兼容化具有重要意义。在研究、比较国内外情报检索语言兼容互换方式方法的基础上,认为可以基于大规模已标引好的语料,对多个不同的分类体系进行自动转换,并且设计了一种基于大语料库的多分类体系自动转换方案。
蔡巍尹中航
关键词:语料库
自动分类中的过学习问题与支持向量机
由于网上信息的迅速增长,文本分类已经成为网上信息管理中的热点研究课题.现今流行方法的重要基础是传统的统计学,前提是要有足够的样本,当样本数目有限时容易出现过学习的问题,导致分类效果不理想.本文首先从理论上分析了这种出现过...
尹中航王永成蔡巍
关键词:支持向量机
文献传递
三种分类算法的实验比较被引量:6
2004年
对文本自动分类算中的k最近邻算法、向量空间模型算法以及混合分类算法进行了比较分析,在构造分类用知识库的主题抽取方法相同的条件下,使用中国资讯行提供的2000篇网上新闻语料分别对3种分类算法作了实验研究.实验结果表明,针对网上新闻而言,混合分类算法性能指标优于另外2种算法.结合实验语料环境,对3种分类算法的适用范围作了分析.
蔡巍王永成李伟尹中航
关键词:K最近邻算法混合算法
基于主题提取与兼类噪声消除新方法的自动分类系统
2009年
本文作者在长期研究、开发文本自动分类系统的基础上,提出了一个新的使用混合分类算法的分类器框架。针对网上新闻特点,作为"词典+匹配"方法的补充,提出了利用串匹配无词典新闻主题提取方法;降噪一直是困扰自动分类精度提高的难点之一,在开发过程中发现了兼类噪声,提出了一种借助于统计特性修正概念类频来降噪的方法。综合上述方法开发了一个网上新闻自动分类系统,使用中国资讯行网上新闻语料10万篇进行测试,分类结果很好,接近实用水平。
蔡巍王英林尹中航
关键词:主题提取降噪
共2页<12>
聚类工具0