您的位置: 专家智库 > >

李舒晨

作品数:4 被引量:16H指数:2
供职机构:北京交通大学更多>>
发文基金:通信与信息系统北京市重点实验室资助项目高等学校科技创新工程重大项目北京市教育委员会共建项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 3篇网页
  • 2篇信息抽取
  • 2篇网络
  • 2篇网页信息
  • 2篇抽取
  • 1篇信息采集
  • 1篇信息处理
  • 1篇英文
  • 1篇舆情
  • 1篇舆情分析
  • 1篇预处理
  • 1篇人肉
  • 1篇人肉搜索
  • 1篇社会
  • 1篇社会计算
  • 1篇社会性
  • 1篇数据存储
  • 1篇搜索
  • 1篇爬虫
  • 1篇情报

机构

  • 2篇北京交通大学
  • 2篇武汉大学

作者

  • 4篇李舒晨
  • 2篇沈阳
  • 1篇刘云
  • 1篇朱婵元
  • 1篇李勇
  • 1篇田晨耕

传媒

  • 1篇图书情报工作
  • 1篇Journa...
  • 1篇电脑与电信

年份

  • 2篇2009
  • 2篇2008
4 条 记 录,以下是 1-4
排序方式:
网络舆情分析中网页信息预处理方案的实现被引量:10
2008年
网络舆情分析系统中,网页信息预处理方案的实现采用了基于网页结构分析的信息抽取技术和数据存储技术。结合HTML网页的内部结构,设计了一种基于HTML DOM结构节点路径的网页信息解析模板,用于网页信息抽取。通过网页URL的特征研究建立了网页之间的联系机制,应用于数据库存取提高了效率。
李舒晨刘云李勇
关键词:舆情分析预处理信息抽取数据存储
二次信息采集系统及信息指纹HashTrie研究(英文)
2008年
提出一种在内网和外网间处于物理隔离状态下防止信息重复采集的电子政务二次信息采集交互系统原型.外网用户能够从客户端软件中二次采集由webalert功能采集的互联网中最新相关网页的链接所指内容,最后再通过摆渡式传输设备将采集结果传递到存储设备上,与内网搭建的网络平台进行数据同步,供内网用户直接浏览.在外网抓取信息和内外网数据同步中,都需要对网页提取信息指纹进行对比,防止重复抓取和拷贝.原型采用HashTrie保存信息指纹.进行评测对比后,可知基于HashTrie信息指纹提取比目前专利申请中速度最快的Darts(双数组Trie)结构快2.28倍,还提出了一种新的Hash函数,并且实现了现有12种高速Hash函数以供HashTrie使用,当词典容量大于50万词时,可以采用PJWHash或SuperFastHash函数,而当词典容量为10万词时,可以采用CalcStrCRC32和ELFHash函数.
沈阳朱婵元李舒晨
关键词:物理隔离网页去重
网络信息采集处理平台的研究
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。网络信息采集处理平台整合了网络信息获取及处理中...
李舒晨
关键词:信息采集信息处理网络爬虫网页信息抽取网页解析
文献传递
社会性人物搜索研究被引量:4
2009年
分析社会搜索和社会性人物搜索的相关研究,给出人物搜索和社会性人物搜索的定义、特点及一般流程,对近年来社会性人物搜索的热点事件分析,基于上述研究,进一步给出社会搜索的过程框架和工具软件,并完成第一阶段的软件开发,发布了ROST系列社会性人物搜索工具。
沈阳李舒晨田晨耕
关键词:人肉搜索情报分析社会计算
共1页<1>
聚类工具0