您的位置: 专家智库 > >

北京市属高等学校人才强教计划资助项目(PHR201008083)

作品数:5 被引量:39H指数:3
相关作者:王旭仁何发镁王彦丽李娜宋蓓更多>>
相关机构:首都师范大学北京理工大学西南大学更多>>
发文基金:北京市属高等学校人才强教计划资助项目国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 4篇自动化与计算...
  • 2篇文化科学

主题

  • 1篇多线程
  • 1篇信息抽取
  • 1篇页面
  • 1篇引擎
  • 1篇舆情
  • 1篇舆情分析
  • 1篇智能机器人
  • 1篇数据抽取
  • 1篇数据挖掘
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇索引优化
  • 1篇片断
  • 1篇人工智能
  • 1篇主题建模
  • 1篇桌面
  • 1篇桌面搜索
  • 1篇桌面搜索引擎
  • 1篇网络

机构

  • 5篇首都师范大学
  • 4篇北京理工大学
  • 1篇西南大学

作者

  • 5篇王旭仁
  • 4篇何发镁
  • 3篇王彦丽
  • 2篇李娜
  • 1篇冉春风
  • 1篇郑秋辉
  • 1篇黄向阳
  • 1篇宋蓓
  • 1篇刘丽珍
  • 1篇杨硕
  • 1篇姚叶鹏
  • 1篇王万森
  • 1篇张为群

传媒

  • 2篇计算机工程与...
  • 1篇北京理工大学...
  • 1篇情报学报
  • 1篇计算机教育

年份

  • 3篇2014
  • 2篇2013
5 条 记 录,以下是 1-5
排序方式:
基于Tika和Lucene的桌面搜索引擎研究与实现被引量:3
2014年
在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。
王旭仁郑秋辉何发镁李娜王彦丽
关键词:桌面搜索引擎索引优化
一种并行LDA主题模型建立方法研究被引量:12
2013年
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高.
王旭仁姚叶鹏冉春风何发镁
关键词:并行计算主题建模
智能机器人实验室建设研究被引量:10
2013年
机器人是一个多学科高度交叉的新兴前沿领域,在智能科学与技术专业的教学改革和学生综合素质培养上发挥着举足轻重的作用。文章针对智能机器人实验室为教学和实践服务的问题,分析智能机器人实验室的建设定位和实验体系的建立过程,提出以科研和竞赛促进实验室发展的观点。
王旭仁刘丽珍黄向阳王万森
关键词:计算机科学与技术人工智能智能机器人
Web页面细粒度数据抽取方法研究
2014年
尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。
王旭仁杨硕何发镁王彦丽张为群
关键词:信息抽取WEB挖掘包装器
基于改进聚类算法的网络舆情分析系统研究被引量:14
2014年
针对互联网舆情挖掘领域的特点,提出了一种基于向量空间模型VSM的文本聚类算法STCC(Similarity Threshold Control Clustering BasedVSM)。该算法按照层次聚类从下至上凝聚的策略,获取初始簇信息,然后根据K-means算法的思想以设置的聚类相似度阈值作为度量来合并簇。该算法结合层次聚类和K-means算法的优点,克服其缺点。与层次聚类相比,每一次聚类时不需要比较所有簇之间的相似度,降低了时间复杂度,提高了聚类的效率;与K—means算法相比,不需要确定K值,灵活性更高。通过实验表明,该算法聚类效果好,实用性高,适合大规模的文本聚类。
王旭仁李娜何发镁王彦丽宋蓓
关键词:互联网舆情数据挖掘
共1页<1>
聚类工具0