山东省自然科学基金(ZR2012FM038)
- 作品数:9 被引量:47H指数:5
- 相关作者:刘培玉王智昊杨玉珍朱振方费绍栋更多>>
- 相关机构:山东师范大学山东省分布式计算机软件新技术重点实验室山东交通学院更多>>
- 发文基金:山东省自然科学基金国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术被引量:1
- 2015年
- 针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确定采集页面,并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据。
- 陈宇孟凡龙刘培玉朱振方
- 一种基于密度峰值发现的文本聚类算法被引量:10
- 2016年
- 提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。
- 刘颖莹刘培玉王智昊李情情朱振方
- 关键词:文本聚类向量距离
- 前向安全的指定验证者(t,n)门限代理签名方案被引量:6
- 2014年
- 签名算法的安全性依赖于签名密钥的安全性.密钥一旦泄漏,攻击者便可以成功伪造此前的所有签名,这会对整个签名系统造成无法弥补的损失.针对门限代理签名中的密钥泄漏问题,将前向安全引入其中,提出一种具有前向安全特性的指定验证者(t,n)门限代理签名方案.安全性分析表明,新方案真正实现了前向安全.即使当前时段所有成员的密钥被泄漏,也不会影响之前生成的签名的有效性.新方案具有指定验证者的特性,能够确保签名只被预先指定的验证人验证,可以很好地保护原始签名者的隐私.签名具有消息恢复的特性,在传输签名时不用传输明文消息本身,能够减小传输签名时的通信代价.
- 崔涛刘培玉王珍
- 关键词:门限签名指定验证者离散对数强RSA假定
- 融合情感过滤的突发事件检测方法被引量:6
- 2015年
- 针对微博等自媒体平台中,突发事件存在的突发性、多爆发点,给突发事件检测带来困难,提出一种整合用户情感过滤的突发事件检测方法。该方法首先将话题映射为层次模型,以时序驱动的方式动态调整模型特征,探测信息新话题。以此为基础分析用户对该话题所持有的情感态度,依据用户的情感态度将话题划分为正面和负面情感倾向两类,并将饱含负面情感倾向的话题视为突发话题。实验证明,无论是准确率还是查全率所提方法均比baseline提高约10%以上。
- 费绍栋杨玉珍刘培玉王健
- 关键词:情感倾向情感过滤自然语言处理
- 基于核心用户对发现的微博好友推荐算法被引量:2
- 2016年
- 现有的微博好友推荐算法没有充分考虑网络关系结构,导致发现的邻居群合理性较差。针对这个问题,围绕微博用户群聚规律和社交网络特点展开研究,提出一种基于核心用户对发现的微博好友推荐算法;该算法首先将任意两个具有相互关注关系的用户封装成用户对的形式并计算各用户对之间的交互行为相似度,然后通过密度和距离两个参数发现核心用户对以及划分合理的邻居类簇,最后根据制定的推荐规则向用户进行好友推荐。结果表明,相比传统的协同过滤方法,该算法明显提高了微博好友推荐的精度,核心用户对发现、类簇的合理划分以及推荐规则的制定能够缓解数据稀疏和冷启动带来的问题。
- 侯秀艳刘培玉王智昊朱振方
- 融合扩展信息瓶颈理论的话题关联检测方法研究被引量:4
- 2014年
- 话题关联检测的关键任务在于判断给定报道对是否属于同一话题.现有判断方法往往忽略种子事件与其直接相关事件之间的层次关系.为此,通过分析报道内部语义分布规律及篇章结构,并依据语义分布规则,利用语义分布规律改进信息瓶颈(Information bottleneck,IB)算法,用于子话题逻辑语义单元的划分,并利用这些逻辑语义单元表示报道,进行话题关联检测.实验证明该方法有较快的收敛速度,并在一定程度上提高了系统性能.
- 杨玉珍刘培玉费绍栋张成功
- 关键词:信息瓶颈
- 基于潜在狄利克雷分布模型的多文档情感摘要被引量:9
- 2014年
- 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。
- 荀静刘培玉杨玉珍张艳辉
- 关键词:情感分析多文档摘要
- 一种基于C4.5决策树算法的Web页面分类算法被引量:1
- 2015年
- 页面分类是Web信息处理的一个基础性问题,而页面分类算法是页面分类中设计实现分类器的理论基础.在页面分类算法领域,目前最典型的分类算法包括决策树算法、贝叶斯算法、KNN算法等.笔者讨论了这几种典型的分类算法的理论基础,分析了每个算法的优缺点,最后,笔者给出了一种基于C4.5算法的Web页面分类器的实现过程.
- 吕琳刘培玉
- 关键词:决策树C4.5
- 基于用户标签的微博推荐算法被引量:8
- 2017年
- 为了解决推荐算法中用户标签稀疏、推荐准确度不高的问题,提出了一种基于用户标签的微博推荐算法。利用TextRank排序方法提取用户发布微博中的关键词,并对该关键词进行扩展,将其作为表示用户兴趣的标签;再根据微博的效应函数和生命周期形成待推荐的微博列表,计算用户标签及其同义词在待推荐微博列表中出现的次数,将出现次数较多的TOP-k条微博推荐给用户。通过实验验证,该算法能够有效地解决用户标签的稀疏性问题,并能提高推荐算法的准确性。
- 王宁宁鲁燃王智昊刘承运
- 关键词:效应函数生命周期