姜孟晋
- 作品数:5 被引量:3H指数:1
- 供职机构:复旦大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向互联网的多元信息获取技术研究
- 为了将互联网中纷繁复杂的信息快捷准确地呈现在用户面前,各种信息获取系统大量出现。信息获取是从网页中获得知识的手段,通常包括信息网页获取,信息抽取,信息去重等步骤。信息抽取在获取的信息网页上进行,信息网页获取力求快速获得系...
- 姜孟晋
- 关键词:信息抽取网页获取
- 文献传递
- 基于同义实体扩展的冗余信息去重被引量:3
- 2012年
- 冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。
- 姜孟晋周雅倩黄萱菁
- 关键词:信息抽取
- 一种信息收集方法和系统
- 本发明提供一种信息收集方法和系统,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;...
- 周雅倩姜孟晋何一鸣谭卫国
- 信息抽取的方法及系统
- 本发明公开一种信息抽取的方法及系统,涉及信息技术领域,该方法包括:从种子事件信息集合中提取事件名关键词集合;利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;利...
- 周雅倩何一鸣姜孟晋谭卫国
- 文献传递
- 一种信息收集方法和系统
- 本发明提供一种信息收集方法和系统,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;...
- 周雅倩姜孟晋何一鸣谭卫国
- 文献传递