公共文化服务平台

国家自然科学基金(61302157): 作品数：20 被引量：129H指数：5; 相关作者：顾磊周宁宁许肖王振武黄国方更多>>; 相关机构：南京邮电大学中国矿业大学（北京）国电南瑞科技股份有限公司更多>>; 发文基金：国家自然科学基金教育部人文社会科学研究基金国家重点实验室开放基金更多>>; 相关领域：自动化与计算机技术更多>>

基于分层选择策略的主动学习分词方法: 2015年; 为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在PKU、MSR和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。; 梁喜涛顾磊; 关键词：中文分词

基于主动轮廓模型的文本检测方法被引量：1: 2015年; 针对复杂背景下的文本检测问题,提出了一种基于主动轮廓模型的文本检测方法。输入的图像首先经过sobel-laplacian锐化后再由gaussian-laplacian进行过滤。预处理完成后的图片首先通过改进的主动轮廓模型得到初始轮廓,再通过算法的反复迭代扩大或缩小轮廓线得到最终轮廓,最后通过后处理尽量排除非文本块,从而得到最终文本区。区别于以往检测方法,所提方法最终不但可以框出文本行,还可以框出单个文本,有利于后续分割识别的进行。实验表明所提方法可有效检测出图像中的文本。; 许肖顾磊; 关键词：文本检测主动轮廓模型边缘检测

古籍全文文本化中存在的若干问题被引量：5: 2013年; 随着多媒体硬件技术和计算机软件技术的迅速发展,古籍全文数字化从20世纪80年代开始就逐渐成为研究的热点,并且取得了很多不错的成绩。然而,目前古籍全文数字化多采用全文图像化的方式,这种方式与全文文本化方式相比不利于古籍的全文检索。文章在搜集整理当前研究与应用成果的基础上,对古籍全文文本化涉及到的系统设计、古籍的种类、古籍图像的获取、古籍图像的自动版面分析、古籍图像中文字的自动分割与识别等几个方面存在的若干问题进行了探讨。; 顾磊赵阳; 关键词：古籍数字化版面分析文字分割字符识别

改进粒子群算法优化的支持向量机及其应用被引量：24: 2016年; 传统粒子群优化（particle swarm optimization,PSO）算法主要包含两方面问题,即易陷入局部极小和后期震荡严重,为此引入混沌序列来初始化粒子群的位置,并在简化的粒子群数学模型上从两个方面对其进行了改进。本文利用改进的PSO算法对支持向量机（support vector machine,SVM）的参数进行优化,仿真实验结果表明：与SVM、PSO-SVM以及遗传算法（genetic algorithm,GA）优化的SVM（GA-SVM）相比,改进PSO优化的SVM（IPSO-SVM）算法具有较高的分类准确率,并且与PSO-SVM算法相比,准确率提高了3%~5%,与PSO-SVM算法以及GA-SVM算法相比,IPSO-SVM的训练和泛化速度都明显提高。本文将IPSO-SVM算法应用到遥感影像的分类中,分类结果表明,与PSO-SVM算法相比IPSO-SVM算法具有更好的分类结果。; 王振武孙佳骏尹成峰; 关键词：粒子群优化算法混沌序列支持向量机遥感影像

基于曲线自适应和模拟退火的蝗虫优化算法被引量：23: 2019年; 针对蝗虫优化算法容易陷入局部极值点、收敛速度慢、精度较差等缺点,提出曲线自适应和模拟退火蝗虫优化算法。首先,引入曲线自适应代替蝗虫优化算法关键参数的线性自适应,提高了算法的全局搜索能力;其次,在此基础上引入模拟退火算法,对蝗虫算法的劣势解具有一定概率的接收,使算法具有跳出局部最优,实现全局最优的能力。自适应缩小模拟退火中蝗虫位置随机解的范围,有利于进一步提高蝗虫算法的开发能力。通过测试函数测试,实验结果表明,改进的新算法具有更好的求解质量和收敛速度。; 李洋州顾磊; 关键词：模拟退火算法混合算法

基于MMTD和兴趣偏向系数的协同过滤推荐算法被引量：1: 2020年; 针对传统基于用户的协同过滤推荐算法存在的相似性度量不准确和缺乏对用户评分合理应用的问题,提出了一种结合中介真值程度度量(MMTD)和兴趣偏向系数的推荐算法。该方法首先采用MMTD度量用户评分的相似性;然后利用用户评分相似性改进余弦相似性公式和Jaccard公式,得到新的基于MMTD的用户相似性度量方法;最后结合兴趣偏向系数输出推荐结果。在MovieLens-100k数据集上的实验结果表明,该方法可以在一定程度上提高用户间相似性度量的准确性,提高推荐结果的准确率和召回率。; 陆荣周宁宁; 关键词：协同过滤

Measuring web page complexity by analyzing TCP flows and HTTP headers: 2017年; To understand website complexity deeply, a web page complexity measurement system is developed. The system measures the complexity of a web page at two levels： transport-level and content-level, using a packet trace-based approach rather than server or client logs. Packet traces surpass others in the amount of information contained. Quantitative analyses show that different categories of web pages have different complexity characteristics. Experimental results show that a news web page usually loads much more elements at more accessing levels from much more web servers within diverse administrative domains over much more concurrent transmission control protocol （TCP） flows. About more than half of education pages each only involve a few logical servers, where most of elements of a web page are fetched only from one or two logical servers. The number of content types for web game traffic after login is usually least. The system can help web page designers to design more efficient web pages, and help researchers or Internet users to know communication details.; Cheng WeiqingHu YangyangYin QiaofengChen Jiajia

基于分组卷积和特征图级联的轻量级目标检测被引量：2: 2021年; 针对Pelee轻量级目标检测网络中参数量和计算量较多、检测精度较差等缺陷,提出了基于分组卷积和特征图级联的轻量级目标检测网络GCPelee。首先,利用分组卷积替换检测模块中的标准卷积形式以减少模型参数量和计算量;其次,在检测模块上应用特征图级联,将感受野较大的特征图包含的信息传递至感受野较小的特征图,提升后者的感受野大小。实验结果表明,优化后的GCPelee模型参数量和计算量均得到减少,检测精度得到了提升。; 杨贤志黄国方周宁宁; 关键词：目标检测轻量级

基于字串切分统计词典的繁体中文拼写检错方法: 2016年; 针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验任务中用于检错评测的1 000句测试集作为实验测试集,并与此会议提交的结果进行比较,实验结果表明,与基于复杂语言模型的检错方法相比,该方法在实现简单的同时也有很好的检错效果,获得了较高的准确率和精确率以及较低的误报率。; 王勇顾磊; 关键词：中文分词

中文分词与词性标注研究被引量：48: 2015年; 分词和词性标注是中文语言处理的重要技术,广泛应用于语义理解、机器翻译、信息检索等领域。在搜集整理当前分词和词性标注研究与应用成果的基础上,对中文分词和词性标注的基本方法进行了分类和探讨。首先在分词方面,对基于词典的和基于统计的方法进行了详细介绍,并且列了三届分词竞赛的结果;其次在词性标注方面,分别对基于规则的方法和基于统计的方法进行了阐述;接下来介绍了中文分词和词性标注一体化模型相关方法。此外还分析了各种分词和词性标注方法的优点和不足,在此基础上,为中文分词和词性标注的进一步发展提供了建议。; 梁喜涛顾磊; 关键词：中文分词词性标注自然语言处理

国家自然科学基金(61302157)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61302157)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈