国家高技术研究发展计划(2002AA231011) 作品数:6 被引量:43 H指数:3 相关作者: 朱扬勇 邓绪斌 曹顺良 李亦学 张忠平 更多>> 相关机构: 复旦大学 上海生物信息技术研究中心 浙江财经学院 更多>> 发文基金: 国家高技术研究发展计划 上海市科委重大科技攻关项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于多维模型的交互式数据挖掘框架 1.概述数据挖掘(Data Mining)作为一种决策支持技术,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出供决策使用的高层次的知识,帮助决 朱扬勇 黄超文献传递 基于语义路径覆盖的Gene Ontology术语间语义相似性度量方法 被引量:13 2006年 进行GO(gene ontology)语义相似性度量是解决生物学数据集成中语义异构问题的重要方法。传统方法主要是基于距离的度量和基于信息量的度量。文中提出了一种基于语义路径覆盖的度量方法,并实现了其中Combine算法。该算法首先计算出每个节点的信息量,然后分别计算两个节点的语义路径的交的节点信息量之和以及这两个节点语义路径的并的节点信息量之和,将这两者之间的比率作为相似性度量值。实验结果表明该算法具有较高的相关系数。 李荣 曹顺良 李园园 谭灏 朱扬勇 钟扬 李亦学关键词:GENE ONTOLOGY 生物语义相似性在数据仓库中的应用与实现 被引量:3 2005年 通过有效手段从整合的异构生物信息资源中获取高质量的生物数据,能够为生物信息的分析和挖掘提供强有力的支持。本文基于B ioDW———一个整合的生物信息数据仓库系统,以Gene Ontology作为语义模型,应用信息的语义相似度计算方法,获取不同基因产物生物特征的相似度;考虑更多的生物结构信息,使相似性的计算更加符合基因产物自身的生物特征。基于信息的语义相似度计算方法与单纯的相似度计算相比,具有扩展性、准确率高等优点,为生物信息的进一步研究奠定了坚实的基础。 夏燕 张忠平 朱扬勇关键词:数据仓库 生物信息资源 数据挖掘 生物特征 BioDW:一个整合的生物信息学数据仓库平台 1引言人类基因组以及病毒、细菌、酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等其它模式生物基因组计划的全面实施,使分子生物学数据呈指数增长。及时地、充分地、有效地利用不断增长的生物信息资源, 曹顺良 李荣 张忠平 汪卫 朱扬勇 李亦学关键词:BIOINFORMATICS HETEROGENEOUS ONTOLOGY 文献传递 基于约束的XML模式规范化研究 1引言1998年2月,万维网协会(W3C)推出了可扩展的标记语言XML(eXtensible Markup Language)作为Web上进行数据传输与交换的标准。随着XML的出现,XML数据的相关技术研究成为热点。例如... 张忠平 曹顺良 李荣 朱扬勇关键词:XML DTD NORMALIZATION 文献传递 ReDE:一个基于正则表达式的生物数据抽取方法 被引量:12 2005年 从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· 邓绪斌 朱扬勇关键词:数据抽取 元数据 正则表达式 抽取算法 VI-DE:DE-Wrapper的可视化编辑调试环境 2006年 介绍了VI-DE,数据抽取工具DE-Wrapper的可视化编辑调试环境。DE-Wrapper使用扩展正则表达式(ERE)描述数据源结构,根据该ERE构造数据抽取树(DE-树),然后根据DE-树生成相应的关系数据库模式,最后抽取数据。VI-DE整合了DE-Wrapper的工作流程。该工具首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE-树是否具有二义性,最后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。VI-DE已用于构建国内第1个整合的生物信息在线数据仓库系统。 李岱 邓绪斌 朱扬勇关键词:数据抽取 Gene Ontology在生物数据整合中的应用 被引量:13 2005年 异构数据的高效整合,在生物数据呈爆炸性增长、生物数据库复杂度不断增加的今天,具有重要的理论价值和实际意义。该文基于BioDW——一个整合的生物信息学数据仓库平台,利用统一的GeneOntology语义模型,建立异构数据库之间的语义链接,在概念和联系层次上有效地解决了生物异构数据的整合问题,实现了对生物数据智能化的多重、复合和交叉检索,为生物信息的进一步研究奠定了坚实的基础。 夏燕 张忠平 曹顺良 朱扬勇 李亦学关键词:数据整合 异构数据库 语义模型 数据仓库 基于与或树的正则表达式有害二义性检查算法 被引量:3 2006年 在构造面向应用的正则表达式(RE)过程中,引入有益二义性可简化 RE 构造,而将有害二义性遗留在 RE中会危害匹配结果的正确性.为区别对待这两种二义性,基于与或树提出一种检查和定位 RE 中有害二义性的算法.该算法可减轻 RE 调试的工作量.实验表明,该算法在时间性能、空间性能和实用性等方面优于现有基于自动机的二义性检查算法.基于此算法的可视化 RE 编辑调试环境已用于构建国内第一个整合的生物数据仓库. 邓绪斌 朱扬勇关键词:二义性 与或树 生物数据仓库半结构化增量更新技术的研究与实现 1引言在世界范围内众多研究机构的推动下,近十年来,生物数据呈指数级增长。迄今,可利用的在线生物数据源已达500多个。如何将它们整合起来,为生物学家搭建方便而高效的查询分析平台,已成为计算机界研究的热点。 夏燕 邓绪斌 李岱 朱扬勇关键词:BIOINFORMATICS HETEROGENEITY SEMI-STRUCTURED 文献传递