李素建
- 作品数:45 被引量:543H指数:11
- 供职机构:北京大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字医药卫生更多>>
- 基于流形排序的领域词抽取方法
- 领域词通常是由一个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。在此假设下,本文利用领域词的内在...
- 宋涛李素建
- 关键词:流形排序
- 文献传递
- 基于混合模型的组块分析技术
- 组块分析根据“分而治之”的原则降低完整句法分析的难度,基于统计和基于规则的技术对于组块分析的实现各有优势。本文中,统计方法采用了最大熵模型框架,规则方法采用有限自动机技术,同时还提出用基于转换的机器学习把两种技术结合起来...
- 李素建刘群
- 关键词:组块分析最大熵模型有限自动机
- 文献传递
- 汉语组块的定义和获取
- 组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义。本文总结了当前对组块的各种研究,对汉语组块进行了定义。同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块。...
- 李素建刘群
- 关键词:组块树库语法分析
- 文献传递
- 中英文篇章依存树库构建与分析
- 本文在篇章依存关系的基础上,建立了小规模中英文篇章依存树库,并针对多核心关系问题、依存关系的选择、长篇章与复杂篇章的标注、层次结构信息的损失等标注过程中遇到的困难进行了分析研究,给出了解决方案.并对篇章依存树库进行了简单...
- 吴永芃李素建秦沐坤杨安王厚峰
- 词典匹配和串频统计相结合在自动主题分析中的应用
- 当前主题分析主要采用基于词表的自动抽词技术,这种方法的局限性在于无法处理知识库中未登录的关键词。因此本文提出了在专家知识库的词典匹配基础上,结合词的串频统计技术,进行自动主题分析,获取文档的关键词候选项。实验证明,该方法...
- 李素建李芸纪鹭宁徐睿峰
- 关键词:串频统计主题分析关键词自动标引
- 文献传递
- 内容标签和关系标签相结合的汉语篇章标注规范被引量:1
- 2015年
- 篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RSTDT,PDTB),并结合自然语言处理任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够比较准确和全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。
- 王荀李素建王宇昕
- 关键词:修辞结构理论
- 面向文本推理的汉语语义计算模型研究
- 李素建
- 课题围绕词汇层、语句层、篇章层三个层次对汉语文本语义推理的方法及其应用展开了研究,三年来的主要进展归纳为如下三方面:(1)在词汇层研究概念语义关系的分析方法。重点在于确立缩略语与原形语之间的关联,为基于词汇替换的推理服务...
- 关键词:
- 关键词:语言知识库
- 基于流形排序的领域词抽取方法
- 领域词通常是由—个或多个领域部件词组成的短语,其领域性主要由部件词体现。由此,本文收集领域文本,将其中候选短语构建成短语网,并提出假设:具有相同部件词的领域词之间具有紧密的联系,互相推荐。
在此假设下,本文利用...
- 宋涛李素建
- 关键词:流形排序
- 文献传递
- 关键词自动标引系统的知识库建设
- 关键词对于文本聚类/分类、信息检索等任务都具有非常重要的意义。然而,其自动标引技术的实现离不开知识库的支持。本文首先列出了关键词自动标引系统的重要组成部分,并对知识库进行了详细介绍,并且列出了与一般专家系统知识库的区别。...
- 李素建辛乘胜王厚峰俞士汶
- 关键词:自动标引文本聚类知识库建设
- 文献传递
- 医疗人工智能与临床医学术语标准被引量:13
- 2018年
- 分析国内医疗人工智能的应用领域,包括智能诊疗、智能影像诊断、智能医疗机器人和智能健康管理,提出临床医学术语标准的缺失是人工智能在医疗健康领域发展的主要瓶颈之一。从实现医学概念的规范化表述和医学语义关联两方面指出中文临床医学术语标准助力医疗人工智能发展的途径,为促进人工智能与医疗健康领域的深度融合贡献力量。
- 陆春吉李军莲郭进京李素建王怡任慧玲
- 关键词:人工智能