杨宁 作品数:52 被引量:242 H指数:9 供职机构: 中国科学院文献情报中心成都分馆 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 中国科学院西部之光基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 电子电信 更多>>
基于多线程评估的基因表达式编程算法 被引量:4 2012年 分析了基因表达式编程(GEP)算法的性能关键,指出提升的一个重要瓶颈是在个体评估阶段;结合多核CPU并行计算能力,提出了基于多线程评估的GEP算法(MTEGEP),并通过实验验证了MTEGEP的高效性:在双核CPU环境下MTEGEP运算速度是传统GEP的1.89倍,而在8核CPU环境下达到了6.48倍。实验结果表明该算法能有效提升GEP算法的性能。 倪胜巧 唐常杰 杨宁 左劼关键词:数据挖掘 基因表达式编程 多线程 多核CPU 一种带有置物结构的桌面 本实用新型公开了一种带有置物结构的桌面,涉及家具技术领域,包括桌板,所述桌板的表面上方前侧开设有T型的沉槽,所述沉槽的表面前端开设有通腔,所述通腔的内部固定安装有风机,所述沉槽的内部位于桌板的内部中固定设置有风管,且风管... 杨宁基于干预规则挖掘因果关系与分段干预事件及对比不等式 被引量:1 2011年 为揭示亚复杂系统(SCS)在干预下的特殊行为,提出了对比不等式概念,提出并实现了分段干预规则的挖掘算法;通过在亚复杂系统中施加扰动式干预并分析其动力学效应,提出并实现了基于扰动因果关系挖掘算法。在真实数据上的实验表明,分段干预规则发现了传统挖掘方法难以发现的新干预事件,因果挖掘算法发现了传统方法难以发现的因果关系。 唐常杰 段磊 郑皎凌 杨宁 王悦 朱军关键词:因果关系 科学大数据时代数字图书馆的新定位与新挑战——第十六届数字图书馆前沿问题高级研讨班综述 被引量:24 2020年 “第十六届数字图书馆前沿问题高级研讨班”于2019年10月在成都召开,研讨班的主题是“数据科学、数据管理与数据应用”,来自国内外80余家高校和科研机构的260余名图书馆员、科研人员及师生等,围绕国内外数字图书馆在科学数据管理与服务领域研究与服务实践的最新进展和前沿动态等展开了深入交流和讨论,展示了数字图书馆在开放科学和科学大数据时代的新定位、新使命和新发展。文章从开放科学背景下科学大数据领域的发展态势、数字图书馆在科学大数据领域的定位与挑战、新技术对图书馆业务体系的深刻变革和影响等三个方面,讨论和分析了数字图书馆的发展现状以及未来的发展情景,特别是指出了未来图书馆(文献情报机构)将成为以数据知识生态系统的管理和服务为核心的“集成化跨界知识管理与服务咨询机构”的大方向。 杨宁 张志强关键词:数字图书馆 面向OLGP的多维信息网络数据仓库模型设计 被引量:5 2014年 信息网络的出现使信息由简单的数值型数据演化成较复杂的图网络结构。如何对基于图的信息网络数据进行良好的组织和存储成为一个亟待解决的问题。利用维建模的方法对基于图的信息网络数据进行模型设计,提出了多维信息网络仓库模型。该模型由边事实表、节点事实表、信息维连接属性表以及拓扑维节点属性表组成,能够为在线图处理提供底层的数据平台。实验表明该模型在消除冗余、查询时间、存储空间上均较泛关系表有明显优势。新模型在1.25万篇ACM论文上的查询时间稳定在几十毫秒,较泛关系表的查询时间约减少一个数量级。在空间性能上,随着论文数量的增加,该模型存储空间开销的增长速度远小于泛关系表的增长速度。 聂章艳 李川 唐常杰 徐洪宇 张永辉 杨宁关键词:信息网络 信息维 基于流信息距离的多文本流热点挖掘 被引量:5 2011年 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 杨宁 唐常杰 王悦 陈瑜 郑皎凌 李红军关键词:冗余信息 在不确定数据集上挖掘优化的概率干预策略 被引量:6 2011年 提出了不确定干预分析模型,主要工作包括:(1)建立了用于多维不确定数据分析的不确定监测点模型(uncertain surveillance);(2)建立了基于不确定监测点的不确定干预策略及挖掘评价算法;(3)在真实数据及仿真数据上对所提出的两种算法作了大量实验比较,验证了所提出的干预策略评价优化算法具有较高精度,效率比朴素方法高出3个数量级,适合在实际系统中处理海量干预评价. 王悦 唐常杰 杨宁 张悦 李红军 郑皎凌 朱军关键词:不确定数据 数据挖掘 海量数据分析 结合计量分析和内容分析的科学数据集使用特征研究 被引量:5 2022年 [目的/意义]从计量分析和内容分析两个视角对科学数据集的使用特征进行研究,定量化评估科学数据集对学科发展的影响,为科学数据管理服务及政策研究提供参考。[方法/过程]综合运用文本挖掘和文献计量方法对PubMed Central的全文文献进行分析,从时间分布、使用强度等7个方面全面考察科学数据集的使用情况,并在此基础上评估科学数据集对学科发展产生的实际影响。[结果/结论]研究结果表明,科学数据集对生物医学领域科研产生的影响力与日俱增,数据出版和高水平期刊促进了科学数据集的开放和共享,科学数据集的使用集中在论文的后半部分且正式引用较少,相应的标准规范还有待进一步加强。 杨宁 张志强基于基因表达式编程的进化模式定理 被引量:11 2009年 基因表达式编程(GEP)从提出迄今尚无完整的理论体系,严重阻碍了GEP的发展。为解决该问题,首先从理论上深入地研究了GEP计算模型:定义了GEP基因模式及相关的概念,采用概率办法详细分析了单基因GEP应用实例在进化过程中各算子的作用,根据分析结果推导出GEP模式定理,通过实验验证了GEP模式定理的正确性。GEP模式定理的提出,为GEP算法改进评估提供了量化的依据。 王悦 唐常杰 杨宁 陈瑜 徐开阔关键词:基因表达式编程 基于伪属性语义匹配的Deep web信息抽取 被引量:5 2009年 已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。 郑皎凌 唐常杰 姜玥 杨宁 李红军关键词:DEEP WEB 信息抽取 语义匹配