张津华
- 作品数:3 被引量:6H指数:2
- 供职机构:中山大学资讯管理学院更多>>
- 发文基金:教育部人文社会科学研究基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于网页规划布局的页面主题内容抽取被引量:1
- 2011年
- 以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现。
- 聂卉张津华
- 关键词:网页信息抽取主题分析
- 基于信号分析方法的微博信息分析系统设计与实现被引量:2
- 2013年
- 为了更好地挖掘和利用微博中的信息,设计了基于信号分析方法的微博信息分析系统,并探讨了具体的实现方法。该系统具有微博信息收集、信号辨识、信号解读等功能,系统输出结果具有多方面的应用价值。这一系统被应用到电影票房领域进行实证研究,发现电影相关微博数量与电影票房存在相关性,体现了微博信息的预测作用。此外,通过挖掘微博内容还能够分析网民的关注点和态度变化。研究结果表明,微博信息具有很高的应用价值,本文设计的专用信息分析系统可以有效地对其进行深入挖掘。
- 张洋张津华谢齐
- 关键词:信号分析文本聚类
- 分块布局下的主题型网页的内容抽取被引量:3
- 2012年
- 本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块。进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述。这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。
- 聂卉张津华
- 关键词:网页分块网页去噪