朱丹浩 作品数:25 被引量:136 H指数:8 供职机构: 江苏警官学院 更多>> 发文基金: 国家社会科学基金 国家自然科学基金 教育部人文社会科学重点研究基地度重大研究项目 更多>> 相关领域: 文化科学 自动化与计算机技术 政治法律 电子电信 更多>>
基于领域大语言模型的古籍分词研究 2024年 [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。 朱丹浩 赵志枭 吴娜 王希羽 孙光耀 王东波关键词:《左传》 分词 不同特征下的学术文本结构功能自动识别研究 被引量:21 2018年 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。 王东波 高瑞卿 叶文豪 周鑫 朱丹浩关键词:文本分类 条件随机场 篇章结构 领域大语言模型下的古籍词性标注应用研究 2024年 [目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。 朱丹浩 赵志枭 胡蝶 赵文华 孙光耀 王东波关键词:《左传》 词性标注 新工科背景下实训课程教学改革研究 2024年 针对当前公安院校实训课程教学现状,以学生能力培养、素质提升为导向,进行实训课程教学改革研究。引入评价量规手段,进一步完善评分标准,提出了一种立体化、多维度的考核方式,丰富考核主体,将考核贯穿实训教学全过程,有效提升了学生实训积极性,取得了良好的教学效果。 李俊瑶 叶东 李宗辰 朱丹浩关键词:实训课程 面向汉语句法功能分布知识库的词汇类别知识挖掘研究 被引量:5 2013年 基于清华大学汉语树库,通过多叉树存储结构,构建汉语词汇的句法功能分布知识库。在构建的句法功能分布知识库基础上,利用Sparse Feature Clustering(SFC)中的K-medoids聚类算法,对汉语词汇的类别知识进行挖掘探究。 王东波 朱丹浩关键词:树库 知识库 SFC 洛特卡现象在汉语词汇句法功能分布复杂度中的呈现 被引量:2 2012年 本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇句法功能分布复杂度的高低排序后,本文发现两者之间呈现洛特卡现象。本文的这一发现一方面揭示了汉语词汇在句法结构中的分布规律,对于汉语的研究具有重要的促进作用;另一方面对于中文信息处理中的词性标注、自动消歧和句法分析等研究具有重要的影响。 王东波 朱丹浩 苏新宁关键词:汉语词汇 面向情报学课程设置的数据科学技能素养自动抽取及分析研究 被引量:13 2018年 情报课程是情报学教学体系的核心和灵魂,是新的情报学人才培养模式的基础。在大数据、数据科学、人工智能发展的大环境下,数据学科与情报学之间存在很多共同点和交叉点,尤其是在对相应工作者所具有的技能素养上。文章通过对数据科学招聘信息中出现的人才技能素养实体的抽取,探究指导情报学学科紧跟时代发展潮流的课程设计内容。通过对招聘网站中数据科学相关工作岗位公告的抓取,经人工标注10534条公告数据,构建了基于预训练字嵌入的BI-LSTM-CRF神经网络的技能素养实体自动抽取模型,并在开发集中取得最高调和平均值85. 04%的效果。文章利用最优模型在11508条招聘公告中进行实体自动抽取,分析抽取结果,并围绕数据科学技能素养要求为情报学课程发展提出了适当建议。 王东波 高瑞卿 苏新宁 朱丹浩关键词:自动抽取 面向汉语自动句法分析的语法知识库构建 被引量:1 2011年 基于100万字的973汉语树库,按照语法功能分布的理论,从汉语自动句法分析和语言知识库构建的角度,构建一个相对系统化和多层次的语法知识库。该语法知识库由汉语词语、短语实例、短语结构、句法规则等知识组成。汉语词语知识共统计51 390个汉语词汇的58种语法知识,短语实例知识共获取3 836个汉语短语实例的58种语法知识,短语结构知识共抽取26种短语结构的58种知识,句法规则共有900条记录知识组成。该语法知识库的构建不仅为汉语自动句法分析和语言学研究提供语法知识,而且为更大规模的语法知识库构建打下基础。 王东波 朱丹浩 谢靖国家社科基金哲学领域项目成果及热点分析——以1991-2015年所立项目及论文成果为研究对象 被引量:15 2016年 以1991-2015年国家社会科学基金哲学所立项目及论文学术成果为研究对象,在统计和文献计量学方法的基础上,从基金数量、基金负责人、基金承担单位分布和基金类型成果分布、成果期刊分布和基金研究热点等几个方面完成对国家社科基金的统计与分析。在哲学社会科学研究热点分析过程中,通过高频关键词的聚类,获取到了哲学研究热点的分布情况。 朱丹浩 王东波 华康关键词:社科基金 哲学 面向摘要结构功能划分的模型性能比较研究 被引量:10 2018年 [目的/意义]摘要作为学术论文中能够简明扼要地说明研究目的、研究方法和最终结论的陈述部分,具有较高的探究价值和意义。[方法/过程]选取长短期记忆网络(Long Short-Term Memolw)、支持向量机(SupportVectorMachine)、LSTM-CRF和CNN-CRF4种模型,对3672篇情报学领域的期刊论文进行摘要划分识别研究。[结果/结论]长短期记忆网络模型识别F值最高为69.15%,LSTM-CRF神经网络模型最高F值为88.76%,RNN-CRF模型最高F值达到89.10%,支持向量机分类器分类宏观F值最高为72.04%。该实验结果对图书情报领域的学术论文结构功能划分实验模型选取有较高的参考价值。 王东波 陆昊翔 周鑫 朱丹浩关键词:条件随机场 卷积神经网络 支持向量机