杨宁 作品数:51 被引量:241 H指数:9 供职机构: 中国科学院文献情报中心成都分馆 更多>> 发文基金: 国家自然科学基金 国家科技支撑计划 中国科学院西部之光基金 更多>> 相关领域: 自动化与计算机技术 文化科学 理学 电子电信 更多>>
科学大数据时代数字图书馆的新定位与新挑战——第十六届数字图书馆前沿问题高级研讨班综述 被引量:23 2020年 “第十六届数字图书馆前沿问题高级研讨班”于2019年10月在成都召开,研讨班的主题是“数据科学、数据管理与数据应用”,来自国内外80余家高校和科研机构的260余名图书馆员、科研人员及师生等,围绕国内外数字图书馆在科学数据管理与服务领域研究与服务实践的最新进展和前沿动态等展开了深入交流和讨论,展示了数字图书馆在开放科学和科学大数据时代的新定位、新使命和新发展。文章从开放科学背景下科学大数据领域的发展态势、数字图书馆在科学大数据领域的定位与挑战、新技术对图书馆业务体系的深刻变革和影响等三个方面,讨论和分析了数字图书馆的发展现状以及未来的发展情景,特别是指出了未来图书馆(文献情报机构)将成为以数据知识生态系统的管理和服务为核心的“集成化跨界知识管理与服务咨询机构”的大方向。 杨宁 张志强关键词:数字图书馆 面向OLGP的多维信息网络数据仓库模型设计 被引量:5 2014年 信息网络的出现使信息由简单的数值型数据演化成较复杂的图网络结构。如何对基于图的信息网络数据进行良好的组织和存储成为一个亟待解决的问题。利用维建模的方法对基于图的信息网络数据进行模型设计,提出了多维信息网络仓库模型。该模型由边事实表、节点事实表、信息维连接属性表以及拓扑维节点属性表组成,能够为在线图处理提供底层的数据平台。实验表明该模型在消除冗余、查询时间、存储空间上均较泛关系表有明显优势。新模型在1.25万篇ACM论文上的查询时间稳定在几十毫秒,较泛关系表的查询时间约减少一个数量级。在空间性能上,随着论文数量的增加,该模型存储空间开销的增长速度远小于泛关系表的增长速度。 聂章艳 李川 唐常杰 徐洪宇 张永辉 杨宁关键词:信息网络 信息维 基于流信息距离的多文本流热点挖掘 被引量:5 2011年 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将Kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于Kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件Kolmogorov复杂度提出了一个相似性度量指标——流信息距离(stream information distance,简称SID),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. 杨宁 唐常杰 王悦 陈瑜 郑皎凌 李红军关键词:冗余信息 在不确定数据集上挖掘优化的概率干预策略 被引量:6 2011年 提出了不确定干预分析模型,主要工作包括:(1)建立了用于多维不确定数据分析的不确定监测点模型(uncertain surveillance);(2)建立了基于不确定监测点的不确定干预策略及挖掘评价算法;(3)在真实数据及仿真数据上对所提出的两种算法作了大量实验比较,验证了所提出的干预策略评价优化算法具有较高精度,效率比朴素方法高出3个数量级,适合在实际系统中处理海量干预评价. 王悦 唐常杰 杨宁 张悦 李红军 郑皎凌 朱军关键词:不确定数据 数据挖掘 海量数据分析 结合计量分析和内容分析的科学数据集使用特征研究 被引量:5 2022年 [目的/意义]从计量分析和内容分析两个视角对科学数据集的使用特征进行研究,定量化评估科学数据集对学科发展的影响,为科学数据管理服务及政策研究提供参考。[方法/过程]综合运用文本挖掘和文献计量方法对PubMed Central的全文文献进行分析,从时间分布、使用强度等7个方面全面考察科学数据集的使用情况,并在此基础上评估科学数据集对学科发展产生的实际影响。[结果/结论]研究结果表明,科学数据集对生物医学领域科研产生的影响力与日俱增,数据出版和高水平期刊促进了科学数据集的开放和共享,科学数据集的使用集中在论文的后半部分且正式引用较少,相应的标准规范还有待进一步加强。 杨宁 张志强基于基因表达式编程的进化模式定理 被引量:11 2009年 基因表达式编程(GEP)从提出迄今尚无完整的理论体系,严重阻碍了GEP的发展。为解决该问题,首先从理论上深入地研究了GEP计算模型:定义了GEP基因模式及相关的概念,采用概率办法详细分析了单基因GEP应用实例在进化过程中各算子的作用,根据分析结果推导出GEP模式定理,通过实验验证了GEP模式定理的正确性。GEP模式定理的提出,为GEP算法改进评估提供了量化的依据。 王悦 唐常杰 杨宁 陈瑜 徐开阔关键词:基因表达式编程 基于伪属性语义匹配的Deep web信息抽取 被引量:5 2009年 已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。 郑皎凌 唐常杰 姜玥 杨宁 李红军关键词:DEEP WEB 信息抽取 语义匹配 基于轨迹时空关联语义和时态熵的移动对象社会角色发现 被引量:8 2012年 现有轨迹相似性度量缺乏对时空语义和时间随机性的考虑,不能有效地区分移动对象的社会角色.为解决这一问题,做了如下工作:1)提出了时空关联语义(spatial-temporal associated semantics,STAS)的概念,解释了轨迹的语义相似性规律,即两条轨迹的语义相似性与其在某时段内经过同类型区域的概率正相关;2)提出了时态熵(temporal entropy)的概念,度量了轨迹经过同一类型区域的时间随机性;3)基于STAS和时态熵,给出轨迹语义相似性度量(trajectory semantic similarity,TSS),刻画了轨迹所属移动对象的社会角色的时空特征;4)提出了移动对象社会角色发现算法(social roles discovering algorithm,SRDA),该算法基于TSS实现轨迹聚类,其中一个聚簇代表一种社会角色.真实数据和仿真数据上的实验表明,SRDA在准确率上比现有方法平均提高了18%,同时具有线性时间复杂度,从而验证了算法的有效性和性能. 马宇驰 杨宁 谢琳 李川 唐常杰基于谱聚类的多数据流演化事件挖掘 被引量:8 2010年 为解决从多数据流挖掘演化事件这一难题,提出了一种多数据流上的谱聚类算法SCAM(spectral clustering algorithm of multi-streams),其相似矩阵基于耦合度构造,而耦合度衡量了两个数据流的动态相似性.提出了算法EEMA(evolutionary events mining algorithm),该算法基于聚类模型的演变挖掘多数据流的演化事件.定义了聚类模型凝聚度,用以衡量聚类的紧凑程度,并证明了凝聚度的上界.基于到上界的距离和规范化相似矩阵的特征间隙,定义了聚类模型质量,并作为EEMA的优化目标自动地确定聚簇数k.设计了O-EEMA作为EEMA的优化实现,其时间复杂度为O(cn2/2).在合成和真实数据集上的实验结果表明,EEMA和O-EEMA是有效的、可行的. 杨宁 唐常杰 王悦 陈瑜 郑皎凌关键词:多数据流 面向TRIZ的领域专利技术挖掘系统设计与实践 被引量:15 2017年 [目的 /意义]针对面向TRIZ的专利技术深度、精准挖掘的需求,设计并开发一套领域专利技术挖掘系统。[方法 /过程]首先,归纳面向TRIZ的专利技术挖掘的具体需求,分析现有工具的不足。其次,提出领域专利技术挖掘系统的体系结构,总结其关键技术及解决方案。最后,开发一套面向TRIZ的领域专利技术挖掘原型系统,并进行大口径光学元件(LAOE)领域专利技术挖掘实践。[结果 /结论]该系统基于SAO(subject-action-object)三元组与简单知识对象,集成文本挖掘技术构建细粒度、多维度的领域技术索引,实现领域知识棱镜、面向TRIZ的语义检索与专利可视化分析功能,可以支持深度、精准的专利技术挖掘应用。 胡正银 刘春江 隗玲 杨宁 徐源 许海云 文奕