国家自然科学基金(61033010)
- 作品数:22 被引量:345H指数:7
- 相关作者:印鉴何震瀛王轶彤焦李成王永刚更多>>
- 相关机构:中山大学复旦大学珠海城市职业技术学院更多>>
- 发文基金:国家自然科学基金国家科技重大专项广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- Graph Explorer:基于结构的大型网络可视系统被引量:1
- 2011年
- 视觉是人类观察理解事物的最直接的途径.在社会网络、生物网络等大型网络的研究与分析中,视觉依然是发现其中蕴含知识的重要途径之一.为了使用户更好地观测网络,本系统利用快速社区挖掘算法对网络的结构信息进行分析,并将其应用于网络可视化,从而实现实时、层次化地大网络展示.系统由结构分析器,缓冲管理器和视觉器3个模块组成.系统可以根据用户需求,观测网络的局部细节或者高层次结构.
- 余韬肖仰华徐晓旻何震瀛
- 关键词:大网络可视化
- HDCH:MapReduce平台上的音频数据聚类系统被引量:3
- 2011年
- 随着互联网上音乐数目的增长,如何对音乐进行分析、识别成为焦点问题.在音乐的识别过程中,需要对歌曲的帧数据进行聚类,数据的海量性与音乐数据本身的复杂性使得分析计算需要借助MapReduce平台多机并行完成.提出一种MapReduce平台上的音频数据聚类系统———HDCH,能够有效地对海量音频数据进行聚类.实验证明,HDCH具有很好的性能和可扩展性.除了音频数据外,HDCH还适用于所有海量高维数据的聚类分析.
- 廖松博何震瀛
- 关键词:高维数据聚类MAPREDUCE
- Aggregation-Based Privacy-Preservation Approximate Query Protocol in Wireless Sensor Networks
- Privacy preservation in wireless sensor networks has attracted more and more attentions.Answering generic quer...
- Yongjian FanXiaoying ZhangHong Chen
- 文献传递
- 基于迁移学习的图分类被引量:4
- 2011年
- 数据挖掘是从大量数据中提取隐含知识的过程.随着数据挖掘的广泛应用,图作为一种一般数据结构在复杂结构和它们之间相互作用建模中变得越来越重要,这使得图挖掘成为数据挖掘的一个新的热点研究方向之一.由于图分类具有许多真实的应用背景,因而图分类已成为图挖掘中重要的研究领域.目前对图分类的研究都基于一个假设:训练集和测试集都是来源于同一个分布.然而,在很多真实的应用上,训练集和测试集不一定是来自同一个分布的.在本文中,我们将学习如何运用迁移学习的方法来对图数据进行分类,并提出一个基于集成学习的算法TrGBoost,该算法能在少量有标签的图数据和大量相关的图数据集里,有效地建立一个图分类器.真实数据上的实验验证了本文算法的有效性.
- 陈炳超洪佳明印鉴
- 关键词:BOOSTING
- 一种新型的社会网络影响最大化算法被引量:45
- 2011年
- 社会网络中影响最大化问题是对于给定k值,寻找k个具有最大影响范围的节点集.这是一个优化问题并且是NP-完全的.Kemple和Kleinberg提出具有较好影响范围的贪心算法,但其时间复杂度很高,不能适用在大型社会网络中,并且不能保证最好的影响范围.文中利用线性阈值模型的"影响力积累"特性,提出了一个该模型下影响最大化算法的框架,并在此框架基础上给出一个新的算法HPG.HPG综合考虑网络的结构特性和传播特性,首先启发式选择PI值最大的节点,然后寻找最具影响力的节点.实验结果显示HPG在最终影响范围和运行时间上都获得比贪心算法更好的效果.
- 田家堂王轶彤冯小军
- 关键词:社会网络贪心算法信息传播
- 基于阈值的社交网络影响力最大化算法被引量:22
- 2012年
- 对于社交网络影响力最大化问题,Kemple和Kleinberg提出了有较好影响范围的贪心算法,但是KK算法的复杂度非常高,并不实用.利用线性阈值模型提出了一种基于节点激活阈值的启发式算法.它综合考虑了节点之间的影响力和节点的激活阈值,根据每个节点在激活过程中动态变化的阈值来计算PIN值,启发过程中,每一次都选取PIN最大的节点作为种子节点进行激活,贪心阶段中再贪心地挑选那些具有最大影响范围增量的节点作为种子节点.通过实验表明,即使在完全不采用贪心阶段,该算法的激活范围与KK算法都非常接近,而算法的复杂度则相对非常小.实验还表明该算法相对于HPG算法在相同启发因子c的情况下具有更大的激活范围.
- 陈浩王轶彤
- 关键词:社交网络启发式算法贪心算法
- 一种结合词项语义信息和TF-IDF方法的文本相似度量方法被引量:218
- 2011年
- 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.
- 黄承慧印鉴侯昉
- 关键词:文本聚类文本相似度自然语言处理
- MOOC中基于二分图推荐的同伴互评系统优化被引量:8
- 2016年
- 针对MOOC课程平台中作业反馈不及时的问题,就同伴互评系统的准确性与可靠性优化进行了研究。为了达到为作业推荐合适评阅人的目的,在综合考虑作业评阅人的评阅意愿、评阅能力和评阅双方作业相似度等多种因素的基础上,建立了作业评阅人推荐模型;引入二分图匹配理论来求解作业评阅人的任务均衡问题,设计了与之相适应的最优均衡匹配算法。实验表明,算法在评阅人的工作量均衡和作业评阅人的准确推荐等方面均取得了较好的效果,优化提高了同伴互评系统的准确性和可靠性。采用经互评算法优化的同伴互评系统,可以改善MOOC平台的整体满意度。
- 何升邓伟林肖体斌
- 关键词:二分图同伴互评
- 基于受限玻尔兹曼机与密集采样迭代加权的图像动作识别算法被引量:1
- 2018年
- 针对当前动作识别技术中正确识别率不高,易受到环境变化的影响等问题,提出了一种基于受限玻尔兹曼机与密集采样特征迭代加权融合的动作识别算法。避免单个特征对图像序列的表达力不强,引入了受限玻尔兹曼机(RBM)特征与密集采样(DT)特征分别对行为动作进行特征提取,得到RBM特征和DT特征;定义一种迭代加权函数,将RBM特征与DT特征进行加权融合,形成描述能力更强的RBM-DT特征;基于K-近邻(KNN)算法,对RBM-DT特征进行分类学习,完成动作识别的决策判断。通过在KTH、Hollywood数据集上实验表明:与当前动作识别技术比较,提出的新算法能够有效识别各种行为动作,对各类型动作均具有更高的正确识别率与鲁棒性。
- 潘强印鉴
- 关键词:K-近邻
- GCPR:一种在MapReduce平台上基于图划分的PageRank加速方法被引量:2
- 2012年
- 随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率.
- 廖松博陶岳何震瀛汪卫
- 关键词:PAGERANKMAPREDUCE图划分