公共文化服务平台

2024年7月8日星期一

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

都云程: 作品数：24 被引量：136H指数：5; 供职机构：北京拓尔思信息技术股份有限公司更多>>; 发文基金：北京市教委科技发展计划国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>; 相关领域：自动化与计算机技术文化科学自然科学总论更多>>

合作作者

施水才北京拓尔思信息技术股份有限公司
吕学强北京拓尔思信息技术股份有限公司
李渝勤北京拓尔思信息技术股份有限公司
卢献华北京信息科技大学中文信息处理研...
许文北京信息科技大学中文信息处理研...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

16篇期刊文章
8篇会议论文

领域

21篇自动化与计算...
3篇文化科学
1篇自然科学总论

主题

6篇搜索
6篇抽取
5篇引擎
5篇搜索引擎
5篇索引
5篇网页
4篇信息抽取
3篇随机场
3篇条件随机场
3篇中文
3篇网页主题
3篇PAGERA...
3篇DOM
2篇信息提取
2篇信息提取方法
2篇样本集
2篇英文
2篇转移矩阵
2篇自动抽取
2篇相似度

机构

20篇北京信息科技...
6篇北京拓尔思信...
4篇北京信息工程...
2篇哈尔滨工业大...
1篇北京航空航天...
1篇北京拓尔思(...

作者

24篇都云程
9篇施水才
7篇吕学强
4篇李渝勤
2篇刘松彬
2篇冯少卿
2篇刘挺
2篇卢献华
2篇王弘蔚
2篇陈雄
2篇许文
2篇张宇
1篇谢毓彬
1篇李卓
1篇刘金刚
1篇伍丹
1篇王涛
1篇向渊博
1篇郭小龙
1篇李生

传媒

3篇现代图书情报...
2篇计算机应用与...
2篇计算机工程与...
2篇中文信息学报
2篇智能计算机与...
2篇第二十二届全...
2篇第二十届全国...
1篇电子知识产权
1篇计算机工程与...
1篇微计算机信息
1篇北京机械工业...
1篇北京信息科技...
1篇第三届HNC...
1篇第十六届全国...

年份

1篇2016
1篇2015
1篇2014
4篇2013
1篇2011
1篇2010
2篇2009
3篇2008
5篇2007
2篇2006
1篇2005
1篇2002
1篇1999

共 24 条记录，以下是 1-10

全选清除导出

排序方式：

中文搜索引擎现状与展望被引量：48: 1999年; 本文介绍了中文搜索引擎的发展现状，分析了中文搜索引擎中存在的问题，以及与国外先进的搜索引擎的差距，提出了中文搜索引擎的发展方向。; 都云程卢献华; 关键词：中文搜索引擎中文自动分词搜索引擎

基于分解转移矩阵的PageRank迭代计算方法: 提出了一种基于分解转移矩阵的 PageRank 的迭代计算方法。该方法对 PageRank 理论模型进一步推导, 把其 Markov 状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少 I/O 需求,使得 Pag...; 刘松彬都云程施水才; 关键词：PAGERANK 搜索引擎矩阵分解; 文献传递

网页结构模板生成新方法研究被引量：4: 2007年; Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性。为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法。该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集。利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取。实验表明,该方法准确率可达97%。; 冯少卿都云程; 关键词：DOM 样本集

一种将启发式规则和HMM相结合的web信息抽取方法: 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...; 伍丹都云程李渝勤王弘蔚; 关键词：启发式规则 WEB信息抽取文本抽取; 文献传递

基于字同现频率的关键词自动抽取被引量：4: 2011年; 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。; 都云程周伟韩艳铧吕学强; 关键词：关键词自动抽取

基于模板匹配及曲线拟合的视频字幕细化研究: 2014年; 在视频字幕识别过程中,由于字幕像素比较低,使得二值化后,汉字边缘出现不规整的锯齿。针对该类汉字的细化,提出基于模板匹配及曲线拟合的方法。用角度为0°、45°、90°、135°的线段作为模板,分别匹配汉字中"横"、"撇"、"竖"、"捺"笔划,实现笔划提取;用二次Bezier曲线拟合"撇"、"捺"笔划,实现笔划重绘。对比实验表明,该方法对视频字幕的细化是有效的,且结果可以更好地被识别。; 李钦瑞都云程刘坤吕学强; 关键词：笔划

中国软件专利的现状和特点:基于软件发明的实证分析被引量：5: 2009年; 由于软件专利比计算机著作权有更广泛的保护范围,软件的专利权保护成为一种新的趋势。目前对软件专利的研究主要基于法律、经济和创新管理三个学科的视角,但是缺乏对中国软件专利现状和特点的实证研究。通过对专利摘要进行关键词检索,搜集了在国家知识产权局申请的所有软件专利,分析了软件专利在中国的增长、地域分布、代表机构分布和技术领域分布,并与相关研究进行了国际比较。研究发现,我国软件专利的年增长速度高于同期世界软件专利的增长速度;外国在华的软件专利份额与其在全球软件产业中的地位是一致的;我国软件专利的代表机构绝大部分为有着巨大专利存量的大型制造企业,软件厂商仅占据极少的份额,这与世界软件专利的代表机构分布是一致的;我国软件专利的技术领域分布与世界软件专利的技术领域分布类似但更加集中;我国软件专利的核心部门是计算机和通信部门,次要部门是电和电子部门。; 向渊博刘小青都云程; 关键词：关键词检索

基于多层条件随机场的中文命名实体识别被引量：27: 2009年; 命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。; 胡文博都云程吕学强施水才; 关键词：条件随机场命名实体识别

基于模板的网页主题信息抽取: 快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明...; 冯少卿都云程施水才; 关键词：DOM 网页样本集信息抽取; 文献传递

采用URL特征的Hub网页识别方法研究被引量：2: 2016年; 【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。; 张策都云程梁然; 关键词：支持向量机

全选清除导出

共3页<1 2 3>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张