陈跃国
- 作品数:37 被引量:226H指数:7
- 供职机构:中国人民大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种保证事务一致性和线性一致性的分布式系统和方法
- 本发明涉及一种保证事务一致性和线性一致性的分布式系统和方法,其包括多个客户端以及由接入层、元信息管理集群、全局Gts生成集群和事务处理及存储层构成的数据库服务端;客户端用于为用户提供与数据库服务端进行交互的接口,将用户请...
- 卢卫张孝杜小勇陈跃国赵欣程一舰张真苗
- 文献传递
- 一种对话处理方法、装置、计算机设备及存储介质
- 本申请提供一种对话处理方法、装置、计算机设备及存储介质,包括:接收客户端发送的问询信息;调用意向模型确定问询信息的问询意图;将数据分析任务与问询意图的目标意图对应且领域术语信息与问询意图的涉及领域对应的工作流设为目标工作...
- 陈跃国孙佳佳覃雄派王娟
- 实时数据存储与查询方法
- 本发明提供一种实时数据存储与查询方法,存储时,通过采用一致性哈希分片将待存储数据进行划分,在分布式存储系统的至少一个分布式节点中得到携带有一致性哈希分片索引信息的一级索引数据,对同一个分布式节点中的至少两个一级索引数据进...
- 陈跃国杜小勇覃雄派卞昊穹程鳌赵丽萍
- 文献传递
- Spark上的等值连接优化被引量:12
- 2014年
- 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
- 卞昊穹陈跃国杜小勇高彦杰
- 日志数据分片与查询方法及装置
- 本发明提供一种日志数据分片与查询方法及装置。该方法包括:获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取一个数据分片,然后对每个数据分片中的日志信息按照日志信息的实体的编码进行顺序排序,获取数据分组列表,...
- 陈跃国覃雄派杜小勇卞昊穹
- 大数据分析的应用案例——投资模型的稳健性被引量:3
- 2017年
- 交易模型的稳健性,指的是该模型的利润率曲线的波动性较小,没有大起大落。针对一个基于支持向量回归(SVR)技术的算法交易模型的稳健性问题,提出了使用若干导出指标训练统一的交易模型的策略,以及投资组合多样化的方法。首先,介绍基于支持向量回归技术的算法交易模型;然后,基于常用指标,构造了若干导出指标,用于股票价格的短期预测。这些指标,刻画了近期价格运动的典型模式、超买/超卖市场状态,以及背离市场状态。对这些指标进行了规范化,用于训练交易模型,使得模型可以泛化到不同的股票;最后,设计了投资组合多样化方法。在投资组合里,各个股票之间的相关性,有时会导致较大的投资损失;因为具有较强相关关系的股票,其价格朝相同方向变化。如果交易模型预测的价格走势不正确,引起止损操作,那么这些具有较强相关关系的股票,将引发雪崩式的止损,于是导致损失加剧。把股票根据相似性聚类到不同类别,通过从不同聚类类别中选择若干股票来构成多样化的投资组合,其中,股票的相似性,通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验,实验结果显示,交易模型能够获得超过定期存款的超额利润率,年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%,夏普指数由81.23%提高到88.79%,交易模型的利润率曲线波动性降低,说明交易模型的稳健性获得了提高。
- 覃雄派陈跃国王邦国
- 关键词:算法交易支持向量回归稳健性大数据
- 日志数据的存储方法及系统
- 本发明涉及计算机技术领域,公开了一种日志数据的存储方法及系统,所述方法包括:将日志数据按照所属实体簇的不同划分为多个日志记录分片;将各个日志记录分片分别写入分布式消息队列的不同主题;采用多线程方式,将所述分布式消息队列的...
- 陈跃国覃雄派杜小勇金国栋丛一鸣刘阳
- 数据整理——大数据治理的关键技术被引量:47
- 2019年
- 数据是政府、企业和机构的重要资源。数据治理关注数据资源有效利用的众多方面,如数据资产确权、数据管理、数据开放共享、数据隐私保护等。从数据管理的角度,探讨了数据治理中的一项关键技术:数据整理。介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出了一些思考。
- 杜小勇陈跃国范举卢卫
- 关键词:数据准备数据管理
- 人在回路的数据准备技术研究进展被引量:7
- 2019年
- 随着数据分析技术的迅猛发展,数据准备越来越成为一个瓶颈性问题。以真实的数据分析场景为背景,分析了数据准备的两大核心挑战:人力成本高与时间周期长。在此基础上,介绍了人在回路数据准备技术的研究进展。交互式数据准备技术面向终端用户,通过与用户的交互预测其意图,并通过有效的预测算法来节省数据准备的时间。基于众包的数据准备技术引入互联网上的海量用户作为众包工人扩展计算能力,从而支持数据准备的基本任务,并研究如何对众包做质量控制与成本优化。最后,对人在回路的数据准备做出总结并探讨未来的挑战性问题。
- 范举陈跃国杜小勇
- 关键词:数据准备众包交互机制
- 实体搜索综述被引量:6
- 2017年
- 与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化定义,并介绍了常用的评测指标;然后,对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行了详细的阐述和对比;最后,对未来的研究内容和发展方向进行了探讨和展望.
- 张香玲陈跃国马登豪陈峻杜小勇
- 关键词:知识图谱