您的位置: 专家智库 > >

平宇

作品数:5 被引量:20H指数:2
供职机构:同济大学更多>>
发文基金:国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇专利
  • 2篇期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇云计算
  • 2篇索引
  • 2篇网络
  • 2篇网络文件
  • 2篇网页
  • 1篇动态聚类
  • 1篇在线查询
  • 1篇指纹
  • 1篇时间序列
  • 1篇数据库
  • 1篇搜索
  • 1篇索引表
  • 1篇索引数据库
  • 1篇特征指纹
  • 1篇爬虫
  • 1篇排序
  • 1篇重复网页
  • 1篇网页结构
  • 1篇网页排序
  • 1篇相似度

机构

  • 5篇同济大学
  • 1篇辽宁师范大学
  • 1篇上海师范大学
  • 1篇上海证券交易...

作者

  • 5篇平宇
  • 4篇向阳
  • 3篇张波
  • 3篇袁书寒
  • 3篇张依杨
  • 1篇张波
  • 1篇赵晓慧
  • 1篇谢福鼎
  • 1篇嵇敏
  • 1篇黄寅飞

传媒

  • 1篇计算机工程
  • 1篇计算机应用研...

年份

  • 4篇2014
  • 1篇2012
5 条 记 录,以下是 1-5
排序方式:
一种基于云计算的分布式搜索方法
本发明公开一种基于云计算的分布式搜索方法,该方法包括通过分布式的网络爬虫爬取多种格式的网络文件;通过分布式的并行抽取解析爬虫所爬取到的文件,抽取格式为自定义的文档表格式;将抽取好的文档内容存入分布式的数据库中,建立文档表...
向阳陈佑雄张依杨平宇张波袁书寒
文献传递
基于云平台的消除近似重复网页方法
本发明公开一种基于云平台的消除近似重复网页的实现方法,该方法包括以下步骤:网页预处理,提取网页正文;在正文中提取特征项用于表征正文内容;计算特征项的指纹,对特征项进行压缩或降维处理以方便存储和检索;基于特征指纹计算相似度...
向阳陈佑雄张依杨平宇张波袁书寒
文献传递
基于云计算的网页排序方法
本发明公开一种基于云计算的网页排序方法,该方法包括:通过对存储在云上的,经过分布式网页爬虫爬取的网络文件进行解析处理,得到网络的基本拓扑结构信息文件;离线计算PR值后存入相应的文档表,其格式为以url为主键,包含titl...
向阳平宇张依杨陈佑雄张波袁书寒
文献传递
一种时间序列动态聚类的算法被引量:8
2012年
针对时间序列传统静态聚类问题,提出了对时间序列进行动态聚类的方法。该方法首先提取时间序列的关键点集合,根据改进的FCM算法找到动态特征明显的时间序列,再利用提出的动态聚类算法确定此类时间序列在不同时间段的所属类别,在改进的FCM算法中采用兰氏距离可以使其对奇异值不敏感。实验结果反映出动态特征明显的时间序列类别随时间演化的特性,表明了方法的可行性和有效性。与已有算法相比,该方法揭示了时间序列的部分动态特征。该方法还可以运用于研究数据挖掘的其他问题。
谢福鼎赵晓慧嵇敏平宇
关键词:时间序列模糊聚类算法动态聚类
基于MapReduce的并行PageRank算法实现被引量:12
2014年
分布式网络爬虫的广泛应用使得搜索引擎的数据规模呈几何式增长,面对数以TB甚至PB量级的数据,单机模式下的PageRank算法由于CPU、I/O和内存的开销过大导致效率低下。为此,提出一种基于MapReduce框架的并行PageRank算法。在算法的一次迭代过程中,利用Map函数对网页拓扑信息文件进行解析,使用Reduce函数计算网页得分,从而并行化PageRank算法的中间迭代过程。通过计算全局网页得分控制迭代次数,得到较精确的网页排序结果。实验结果表明,该算法在保持原有单机PageRank算法整体网页排序精度的基础上,具有较好的集群性能和较快的执行速度。
平宇向阳张波黄寅飞
关键词:PAGERANK算法MAPREDUCE框架并行计算HADOOP平台
共1页<1>
聚类工具0