公共文化服务平台

2025年3月12日星期三

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

北京市属高等学校人才强教计划资助项目(PHR201008083): 作品数：5 被引量：40H指数：3; 相关作者：王旭仁何发镁王彦丽李娜宋蓓更多>>; 相关机构：首都师范大学北京理工大学西南大学更多>>; 发文基金：北京市属高等学校人才强教计划资助项目国家自然科学基金更多>>; 相关领域：自动化与计算机技术文化科学更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

5篇中文期刊文章

领域

4篇自动化与计算...
2篇文化科学

主题

1篇多线程
1篇信息抽取
1篇页面
1篇引擎
1篇舆情
1篇舆情分析
1篇智能机器人
1篇数据抽取
1篇数据挖掘
1篇搜索
1篇搜索引擎
1篇索引
1篇索引优化
1篇片断
1篇人工智能
1篇主题建模
1篇桌面
1篇桌面搜索
1篇桌面搜索引擎
1篇网络

机构

5篇首都师范大学
4篇北京理工大学
1篇西南大学

作者

5篇王旭仁
4篇何发镁
3篇王彦丽
2篇李娜
1篇冉春风
1篇郑秋辉
1篇黄向阳
1篇宋蓓
1篇刘丽珍
1篇杨硕
1篇姚叶鹏
1篇王万森
1篇张为群

传媒

2篇计算机工程与...
1篇北京理工大学...
1篇情报学报
1篇计算机教育

年份

3篇2014
2篇2013

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

基于Tika和Lucene的桌面搜索引擎研究与实现被引量：3: 2014年; 在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。; 王旭仁郑秋辉何发镁李娜王彦丽; 关键词：桌面搜索引擎索引优化

一种并行LDA主题模型建立方法研究被引量：12: 2013年; 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.; 王旭仁姚叶鹏冉春风何发镁; 关键词：并行计算主题建模

智能机器人实验室建设研究被引量：11: 2013年; 机器人是一个多学科高度交叉的新兴前沿领域,在智能科学与技术专业的教学改革和学生综合素质培养上发挥着举足轻重的作用。文章针对智能机器人实验室为教学和实践服务的问题,分析智能机器人实验室的建设定位和实验体系的建立过程,提出以科研和竞赛促进实验室发展的观点。; 王旭仁刘丽珍黄向阳王万森; 关键词：计算机科学与技术人工智能智能机器人

Web页面细粒度数据抽取方法研究: 2014年; 尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。; 王旭仁杨硕何发镁王彦丽张为群; 关键词：信息抽取 WEB挖掘包装器

基于改进聚类算法的网络舆情分析系统研究被引量：14: 2014年; 针对互联网舆情挖掘领域的特点，提出了一种基于向量空间模型VSM的文本聚类算法STCC（Similarity Threshold Control Clustering BasedVSM）。该算法按照层次聚类从下至上凝聚的策略，获取初始簇信息，然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点，克服其缺点。与层次聚类相比，每一次聚类时不需要比较所有簇之间的相似度，降低了时间复杂度，提高了聚类的效率；与K—means算法相比，不需要确定K值，灵活性更高。通过实验表明，该算法聚类效果好，实用性高，适合大规模的文本聚类。; 王旭仁李娜何发镁王彦丽宋蓓; 关键词：互联网舆情数据挖掘

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张