高会娟
- 作品数:3 被引量:1H指数:1
- 供职机构:北方工业大学信息工程学院更多>>
- 发文基金:国家自然科学基金北京市哲学社会科学规划项目国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- IBATIS框架下文本抽取系统的研究
- 2015年
- 由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,充分利用优势互补,用以对网络中的海量数据进行高效率的分析与提取。
- 段建勇高会娟
- 关键词:HTMLPARSER信息抽取IBATIS
- 面向网络评论的文本信息抽取方法研究被引量:1
- 2015年
- 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.
- 段建勇高会娟张梅
- 关键词:信息抽取
- 电子商务中产品评论的信息提取算法研究
- 2014年
- 随着越来越多门户网站、电子商务网站不断涌现,很多消费者选择网上购物的方式满足需求。由于很多电子商务网站都设定的是只有购买的消费者才能发表产品评论,因此产品评论信息具有的研究价值。本文通过对电子商务网站结果的分析,研究了针对在线评论的产品属性挖掘算法,通过实验结果分析,表现了算法的有效性。
- 王一博高会娟李熙伟苏子洲
- 关键词:信息抽取数据清洗