搜索到591篇“ WEB信息抽取“的相关文章
Web信息抽取被引量:27
2003年
With the tremendous amount of information available on the Web, the ability to quickly obtain information has become a crucial problem. It is not enough for us to acquire information only with Web information retrieval technology. Therefore more and more people pay attention to Web information extraction technology. This paper first in- troduces some concepts of information extraction technology, then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns.
李晶陈恩红
关键词:WEB信息抽取信息搜索信息资源搜索引擎
一种基于强化学习的Web信息抽取方法及系统
本申请涉及互联网技术领域,公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括:获取目标网页的HTML文件,并转换为DOM树;从DOM树中有文本的节点中提取样本特征;构建基于语义特征、结构特征及样式特征的信息抽取...
张舒汇钟云柯梅泳涵刘旋
一种基于强化学习的Web信息抽取方法及系统
本申请涉及互联网技术领域,公开了一种基于强化学习的Web信息抽取方法及系统。该方法包括:获取目标网页的HTML文件,并转换为DOM树;从DOM树中有文本的节点中提取样本特征;构建基于语义特征、结构特征及样式特征的信息抽取...
张舒汇钟云柯梅泳涵刘旋
Web信息抽取技术在吹哨系统中的研究与应用
2023年
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。
郑创伟王泳陈少彬邢谷涛谢志成
关键词:信息抽取舆情数据采集分布函数网页结构
一种基于HTML源代码和网页快照的Web信息抽取方法与系统
本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统,包括通过收集网页快照训练数据,在网页快照训练数据中标注表征网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;将标注后的网页快照训练数据输入...
蔡振华吴俊江文涛张翔陈延艺
文献传递
一种基于HTML源代码和网页快照的Web信息抽取方法与系统
本发明给出了一种基于HTML源代码和网页快照的Web信息抽取方法与系统,包括通过收集网页快照训练数据,在网页快照训练数据中标注表征网页快照训练数据的类别的标签,得到标注后的网页快照训练数据;将标注后的网页快照训练数据输入...
蔡振华吴俊江文涛张翔陈延艺
文献传递
基于开始定界符的自动Web信息抽取被引量:1
2019年
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。
白钰洁
关键词:WEB信息抽取循环神经网络
基于联通主义的自适应Web信息抽取研究
随着大数据时代的到来,人们可以通过网络获得不断更新的学习资源,通过整合并结构化存储这些学习资源,可以实现对学习资源的链接,并且便于对学习资源的加工重用。这一过程与联通主义所支持的“学习即在节点间建立链接”、“知识不断更新...
白钰洁
关键词:联通主义属性抽取关系抽取知识图谱
文献传递
基于深度学习的Web信息抽取模型研究与应用被引量:2
2019年
Web网页中包含了大量异构的半结构化或非结构化数据,如何准确地从这些网页中提取有价值的信息显得极其重要。文章基于深度学习,结合BERT构建了一种新型的BERT+BiLSTM+CRF信息抽取模型,实验结果表明了该方法的有效性。
俞鑫吴明晖
关键词:信息抽取模型WEB
基于Web信息抽取的软件更新信息的监控方法和装置
本发明公开了一种基于Web信息抽取的软件更新信息的监控方法和装置,监控方法包括:下载被监控的目标网页的网页内容;解析所述网页内容,抽取所述网页内容中的有效链接;对所述有效链接进行过滤,获得过滤后的链接;将所述过滤后的链接...
徐锐波路轶
文献传递

相关作者

杨文柱
作品数:71被引量:316H指数:12
供职机构:河北大学
研究主题:异性纤维 棉花异性纤维 棉花 图像分割 图像
袁春风
作品数:110被引量:1,078H指数:18
供职机构:南京大学
研究主题:并行化 计算机系统 计算机 教学改革 计算机组成原理
徐林昊
作品数:15被引量:139H指数:6
供职机构:复旦大学信息科学与工程学院计算机科学系
研究主题:WEB查询 WEB信息抽取 P2P环境 HTML XML
李天柱
作品数:30被引量:178H指数:7
供职机构:河北大学数学与计算机学院
研究主题:数据库 XML 信息抽取 WEB查询 WEB信息抽取
郭银蕊
作品数:4被引量:4H指数:2
供职机构:大连海事大学
研究主题:遗传算法 WEB信息抽取 基于遗传算法 WEB信息抽取系统 信息抽取系统