朱小杰
- 作品数:26 被引量:14H指数:2
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家自然科学基金中国烟草总公司科技重大专项北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术军事农业科学电子电信更多>>
- 科学数据网络:概念、系统与应用
- 2024年
- 【应用背景】科学数据具有分散化、差异化、孤岛化等典型特征,构建可打破各种孤岛、有效整合分布式科学数据资源的基础设施具有重要意义。【方法】本文梳理了国内外类网络科学数据平台、技术与系统的进展,阐明了科学数据网络的概念、特征、功能与关键技术,并针对新型科研范式下科学数据的协作利用需求,提出并设计了科学数据协作网络RDCN。【结论】科学数据网络可有效改善科学数据的分散化、差异化、孤岛化问题,RDCN在生物多样性研究、生态系统野外台站观测研究、多信使天文学研究等融合科学协作场景中将发挥重大的作用。
- 沈志宏朱小杰王华进佟继周郭学兵吴慧敏玉芳吴林寰
- 关键词:科学数据
- DPML:一种面向科学数据语用的标记语言
- 2024年
- 【目的】科学数据的使用场景日益丰富,了解已有场景中科学数据如何使用,对科技探索与发现有很重要的启发和借鉴作用。然而,由于科学数据的场景化使用蕴藏了复杂的输入、算法和执行环境,这使得如何统一地描述数据的场景化使用成为了一个挑战。这种统一描述的缺失导致了理解和学习已有场景中的科学数据的用法变得难度大、成本高、效率低。【方法】针对数据场景化使用的统一描述缺失的问题,本文采用数据语用的概念,从超图的角度来建模数据的场景化使用,设计了面向数据语用的新型标记语言DPML(Data Pragmatics Markup Language),并提出了一套基于AI的科学数据语用的自动化提取方法。【结果】DPML可以表征多种典型的基于科学数据的场景化使用中的数据语用,同时利用上述的自动化方法,可以高效地提取出DPML。【结论】通过提出DPML及其自动化提取方法,本文实现了科学数据场景化使用中隐含的数据语用的自动化表征。通过数据以及数据之间的语用关系所形成的科学数据的语用网络蕴藏了科学数据如何使用的知识,可以促进科学数据跨学科的共享和再利用,为科学研究的深入合作与数据驱动发现开辟了新的路径。
- 蔡华谦刘逸豪关天鹏吴恺东杨婧如罗超然朱小杰刘佳黄罡
- 关键词:科学数据标记语言人工智能
- 大规模动态图版本化管理:需求、技术与挑战
- 2024年
- 【目的】在大数据时代,从生活生产到科研领域,产生了海量的动态图数据,对这些数据进行管理和分析可以有效地辅助人们进行工艺设计、智能决策和科学研究。【文献范围】本文使用动态图、演化图和版本图管理等关键字在知网和谷歌学术上进行搜索,整理收集了几十篇相关文献。【方法】本文以数据模型、管理系统和挖掘分析方法三大类为依据对相关研究文献进行分类和归纳总结,分析了国内外研究现状。【结果】其中对动态图数据三种主流存储策略的空间消耗情况在理论上进行了研究并得到了初步结论,其次从集合的角度对现有的动态图查询需求进行了更深层次的总结,最后从论文的分类数量发现当前对动态图的研究更侧重于挖掘分析方面。【局限】本文整理收集的相关文献包含的图模型以属性图为主,RDF相关的文献并未涉及。【结论】本文在分析了大规模动态图版本化管理的相关需求与技术后,也提出了存在的一些挑战,包括动态图多版本管理带来的高空间膨胀率、指定版本的高效随机检索和版本之间的演变关系精准刻画等问题。
- 曾成林王华进朱小杰沈志宏
- 关键词:动态图
- 一种基于Memcached的大数据缓存交互式查询方法
- 本发明提供一种基于Memcached的大数据缓存交互式查询方法,该方法基于Spark SQL提供的构建外部数据源的方式,结合Memcached缓存的内存读写特点,对特定应用场景下的大数据存储介质作了重新的定义。同时实现了...
- 沈志宏周园春吴章生黎建辉朱小杰杜园园徐晓伟
- 文献传递
- 基于大数据流水线系统的算法模型整合方法研究——以基于机器学习方法的LiDAR数据树木生物量反演为例
- 2024年
- 【背景】激光雷达(LiDAR)数据在森林资源分析利用方面有着广泛应用,科研人员研制了很多涉及大数据管理和人工智能的专业算法模型,这些算法模型目前多数散落在研究人员手里,尚缺乏新型信息化平台对其进行整合。【方法】大数据流水线系统πFlow软件具有大数据管理能力和大数据算法集成能力,并可以所见即所得方式构建流水线并调度运行流水线,适合于LiDAR数据复杂算法模型的整合,且流水线可定制、可复用。【内容】本文介绍了πFlow的特点和功能,并以基于LiDAR冠层高度模型(CHM)数据的树冠解析及利用机器学习方法估测树木生物量为例,介绍了将算法整合到πFlow并构建LiDAR数据分析处理流水线的方法和技术,且对流水线进行了测试运行。【结果】利用πFlow构建的可重复信息化平台可支撑野外站观测网络的LiDAR数据生物量快速反演,为数据密集型的专业数据处理算法模型的整合提供了创新方法技术。
- 郭学兵朱小杰朱小杰唐新斋侯艳飞何洪林
- 一种基于图遍历的SPARQL查询优化方法
- 本发明公开了一种基于图遍历的SPARQL查询优化方法。本方法为:1)使用属性图表示RDF数据中三元组,然后利用Bigtable模型存储RDF数据,得到RDF数据对应的Bigtable数据;2)将SPARQL查询转化对RD...
- 李亮沈志宏周园春黎建辉朱小杰刘东江李跃鹏
- 文献传递
- 一种科技资源汇聚与持续服务方法及装置
- 本发明涉及一种科技资源汇聚与持续服务方法及装置。该方法包括:根据特定领域知识库抽取科技实体,并存储到待更新科技实体库;待更新科技实体库向中心科技领域知识图谱进行数据请求;中心科技领域知识图谱根据数据请求中的各类参数,返回...
- 杜一朱小杰宋东泽周园春
- 一种大数据ETL任务的编排方法与系统
- 本发明涉及一种大数据ETL任务的编排方法与系统。该方法包括:1)对用户编排的ETL任务进行数据处理组件配置和数据流向配置;2)根据数据处理组件和数据流向,将用户编排的ETL任务生成模型描述语言;3)将模型描述语言解析成E...
- 朱小杰沈志宏杜一赵子豪周园春
- 文献传递
- 一种面向多模态数据查询的基准测试方法和测试框架
- 本发明公开一种面向多模态数据查询的基准测试方法和测试框架,该方法包括:将目标系统接入多模态数据查询的基准测试框架后,得到目标系统执行融合查询任务的基准测试结果;多模态数据查询的基准评测框架包括:仿真数据生成器,用于对结构...
- 王华进毛阿龙沈志宏朱小杰
- 面向数据处理工作流的跨集群流量优化调度方法及系统
- 本发明公开了一种面向数据处理工作流的跨集群流量优化调度方法及系统,可对跨集群运行的数据处理工作流进行作业优化调度的策略,通过对数据处理工作流进行瓶颈点分析,并在瓶颈点处进行跨集群的作业迁移;其主要步骤包括:构建数据处理工...
- 王华进朱小杰沈志宏路长发