公共文化服务平台

2024年7月9日星期二

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

胡韧奋: 作品数：23 被引量：96H指数：7; 供职机构：北京师范大学文学院更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>; 相关领域：自动化与计算机技术语言文字文化科学文学更多>>

合作作者

诸雨辰北京师范大学文学院
刘智颖北京师范大学中文信息处理研究所
王军北京大学
苏祺北京大学
朱琦北京师范大学中文信息处理研究所

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

19篇期刊文章
4篇会议论文

领域

10篇自动化与计算...
5篇语言文字
4篇文化科学
2篇文学
1篇艺术
1篇历史地理

主题

6篇汉语
4篇语义
4篇句法
3篇唐诗
3篇自动识别
3篇机器翻译
3篇古汉语
3篇翻译
2篇断句
2篇语料
2篇语料库
2篇语言处理
2篇语言模型
2篇知识表示
2篇题材
2篇图书
2篇自然语言
2篇自然语言处理
2篇向量
2篇句法语义

机构

23篇北京师范大学
2篇中科鼎富(北...
2篇北京奇虎科技...
1篇北京大学
1篇成都航空职业...
1篇中国人民大学
1篇香港大学
1篇四川传媒学院

作者

23篇胡韧奋
6篇诸雨辰
3篇刘智颖
1篇李洪政
1篇苏祺
1篇王军
1篇朱筠
1篇杨丽姣
1篇张学涛
1篇朱琦
1篇郭玉娟
1篇杜健一
1篇李伟

传媒

6篇中文信息学报
2篇北京大学学报...
2篇曲靖师范学院...
2篇第三届CCF...
1篇电影文学
1篇情报杂志
1篇语言文字应用
1篇南京师范大学...
1篇新世纪图书馆
1篇中国诗歌研究
1篇情报工程
1篇开放学习研究
1篇数字人文研究

年份

1篇2023
1篇2022
4篇2021
1篇2020
3篇2019
2篇2017
2篇2016
5篇2015
2篇2014
1篇2013
1篇2010

共 23 条记录，以下是 1-10

全选清除导出

排序方式：

对外汉语教学领域话题语料库的研究与构建被引量：9: 2015年; 对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含四个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5 457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学及相关研究工作,还抽取、计算了文段的语法点和新HSK词语等级信息,作为话题标注的补充维度加入资源库,以期为汉语教学领域的教师、研究者及教材编写者提供较为全面的话题信息参考。; 胡韧奋朱琦杨丽姣; 关键词：对外汉语语料库

古籍数字化关键技术评述被引量：10: 2021年; 中国历史文化典籍是中华民族的宝贵财富.在数字环境下,实现古籍的数字化整理与利用,能够为数字人文研究、历史学研究及其他人文研究提供基础性资源,也是推动中华文明创造性转化与创新性发展的重要依托.古籍的数字化整理包括纸本资源的电子化,以及在电子化文本基础上的断句、标点、词语切分等基础性加工和深层知识提取.本文对现有古籍数字化整理的技术方法与平台进行梳理与评述,分析古籍数字化整理的挑战,探讨古籍数字化整理任务的未来发展方向.; 苏祺胡韧奋诸雨辰严承希王军; 关键词：古籍整理古籍数字化自然语言处理

基于分布式表示的汉字部件表义能力测量与应用被引量：2: 2021年; 汉字的表义性是其区别于表音文字的一大特点。部件作为构字单位,同汉字的意义之间有着很大的联系。然而,汉字部件的表义能力究竟如何是学界尚待讨论的课题。针对这一问题,该文从汉字部件入手,提出了融合部件的字词分布式表示模型。该模型在向量内部评测任务上性能获得了一定提升,在汉字理据性测量任务上也与人工打分结果显著相关。基于该模型,进一步提出了部件表义能力的计算方法,对汉字部件的表义能力做了整体评估,并结合部件的构字能力建立了现代汉字部件的等级体系。测量结果显示,现代汉字部件具有一定表义能力,但整体而言表义能力偏低。最后,将测量结果应用于对外汉语教学中,确立了适用于部件教学法的部件范围,并提出了对应的汉字教学顺序方案。; 梁诗尘唐雪梅胡韧奋吴金闪刘智颖; 关键词：汉字部件

基于深层语言模型的古汉语知识表示及自动断句研究被引量：11: 2021年; 古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。; 胡韧奋李绅诸雨辰; 关键词：古汉语

基于BERT模型的图书表示学习与多标签分类研究被引量：7: 2020年; 中文图书细粒度多标签分类的自动化,有利于促进图书的检索与学科的沟通。文章充分发挥BERT语言模型的微调特性,提出一种通过21类粗粒度分类微调语言模型,学习到更好的图书表示,进而实现细粒度分类的新策略。结果显示,在单标签的分类任务上,BERT模型的正确率分别较LSTM与Fasttext模型提升约4.9%与2.0%。KNN-ML对257类的细粒度多标签分类证明了前期微调的有效性。最佳情况下,有75.82%的图书细粒度类别恰好全部预测正确,92.10%的图书至少被正确预测了一个细粒度类别。因此可以得出结论,该系统有助于实现图书自动的细粒度归类,并帮助图书标引者补充合理的分类号。; 蒋彦廷胡韧奋; 关键词：中文图书

汉语词汇测试自动命题研究被引量：3: 2017年; 为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计7 263道词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约58%的试题被评价为完全合理,经人工简单调整,试题接受率达到75.7%。; 胡韧奋; 关键词：二语教学词汇测试

面向二语教学的把字句分类研究被引量：1: 2015年; 把字句作为汉语最重要的特殊句式,一直是对外汉语教学的难点。但一直以来,对把字句的研究偏重定性分析,基于计量分析的成果较少,且覆盖不够全面,有的研究难以直接适应教学需求。基于汉语国际教育动态语料库,从教学角度讨论把字句的分类体系。首先,根据语义差别将把字句分为基本处置式、转移式、判断式和致使式四类,再对四个语义类别的把字句语料进行标注和分析,区分其句法形式特征,最后讨论了语料库中不同类别把字句的分布情况及谓词搭配信息,以期为对外汉语教学和研究提供参考。; 胡韧奋; 关键词：把字句二语教学句法语义分类

基于深层语言模型的古汉语知识表示及自动断句研究: 古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求.该文提出了一种基于深层语言模型(BERT)古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型...; 胡韧奋李绅诸雨辰; 关键词：古汉语知识表示条件随机场卷积神经网络

面向汉英专利机器翻译的介词短语自动识别策略被引量：8: 2015年; 专利语料中的介词短语一般长而复杂,且存在嵌套现象,不易为机器自动识别。针对专利语料的特殊性,本文提出一种基于语义分析的识别策略,汉语介词因语义功能不同而被分为两类,可根据介词语义类和上下文特征信息来制定规则,确定短语的左右边界及句法层次。测试结果表明,融合本策略的机器翻译系统在短语识别准确率、召回率和BLEU值三项指标上均得到显著提升。; 胡韧奋; 关键词：机器翻译介词短语自动识别句法分析

基于专名识别技术的古典文献“远读”初探——以雍正《畿辅通志》为例: 2023年; 应用BERT模型,设计了一种基于多任务联合学习的古籍文本信息标注工具,可实现对标点、专名信息的自动标注。相较于以往同类技术而言,该工具对人名、地名、时间名、书名的有效识别度更高,并将有助于“远读”方法在古籍文献领域的实现。以《四库全书》所收雍正《畿辅通志》为例,专名自动识别技术可快速提取文献出处、建筑设施的建造时间、人口分布等历史信息,也可以快速提取作家作品、经典意境。在对水利设施的兴建与对黄河水患的书写中,可以看出治河名臣李卫在编纂《畿辅通志》时的个人意志。; 诸雨辰李绅胡韧奋; 关键词：命名实体识别

全选清除导出

共3页<1 2 3>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张