姚天昉 作品数:70 被引量:547 H指数:11 供职机构: 上海交通大学 更多>> 发文基金: 国家自然科学基金 德国大众基金 国家电子信息产业发展基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 天文地球 更多>>
汉语主客观文本分类方法的研究 在意见挖掘中所涉及到的文本类型是主观性文本。这就需要解决主客观文本的分类问题。本文首先介绍了主客观文本的定义和它们之间的区别。接着针对主观性文本的特点提出了分类适用的预选特征。在此基础上,介绍了通过实验选择稳定的分类特征... 姚天昉 彭思崴关键词:文本分类 使用“数据黑匣子”对付休眠数据 2009年 数据仓库(Data Warehousing,简称DW)工作过程中,休眠数据也会以同样的增长率在成长,其增长大大影响了数据仓库的工作效率。常规处理休眠数据的方法存在许多不足之处。文章阐述如何使用收集数据本身的一些元数据帮助数据仓库管理在最快时间内处理休眠数据。"数据黑匣子"对数据操作语言进行分析,分离关键词,再提取相关信息,并将关键信息数据送入"数据黑匣子"进行存储。最后,通过信息的频繁使用度,自动分析所有的休眠数据。 张瑶 姚天昉关键词:数据仓库 一种用于汉语信息抽取的词汇本体 在研究特定领域汉语命名实体和实体关系识别时,笔者建议了一种可用于上述任务的词汇体育本体模型.根据这个模型,本文设计和实现了这个本体.它被来自知网的词汇概念信息与笔者建议的语义限制方法半自动地组合.除了概念类层次体系的关系... 姚天昉关键词:汉语 信息抽取 体育领域 汉语意见型主观性文本标注语料库的构建 被引量:10 2009年 汉语意见型主观性文本是目前自然语言处理中的一个研究热点。该文介绍了汉语意见型主观性文本标注语料库构建方面的一些经验,讨论了设计和建设语料库方面的几个重要问题,包括语料的选取、标注、存储、检索和统计,以及语料库相关工具的设计等。汉语意见型主观性文本标注语料库与普通的语料库相比,其特点在于深度标注了主观性文本的词性、句法、语义和意见元素等信息,忠实记录了主观性文本的语言现象。汉语意见型主观性文本标注语料库的构建为人们分析和研究汉语主观性文本提供了有力的资源支持。 宋鸿彦 刘军 姚天昉 刘全升 黄高辉关键词:计算机应用 中文信息处理 语料库 基于Web数据挖掘的B2C推荐系统的设计 2012年 电子商务相对传统贸易具有成本上面的优势。随着互联网的普及,电子商务的一种重要分支,企业对个人的电子商务(BUSINESS TO CUSTOMER,B2C)被越来越多人们接受和使用。但是互联网上的信息量非常巨大,普通消费者往往不知道如何才能买到自己心仪的商品。利用WEB数据挖掘的相关技术,设计了一个可以在B2C贸易中推荐优惠商品给用户的系统。 时睿 姚天昉关键词:数据挖掘 电子商务 汉语情感问题类型分类研究 随着网络搜索引擎技术的飞速发展,对于问答系统的需求愈发迫切。而问答系统处理问题的第一步就需要分辨情感问题和非情感问题并对情感问题进行分类。本文首先分析了当前问答系统和问题分类领域的研究现状,总结了一些存在的问题。然后针对... 葛正荣 李婷玉 姚天昉关键词:情感问题 问答系统 自然语言处理 基于关联度模型的文本倾向性检索研究 观点检索,是指利用信息检索与情感分析等技术,寻找针对主题的观点评论等信息。是主题检索与倾向型分析相结合的工作。观点检索的研究已经成为国际上研究的一大热点。本文在研究了信息检索理论与文本倾向性分析技术等基础上,结合国内外关... 刘全升 姚天昉关键词:信息检索 文本挖掘 汉语意见型主观性文本类型体系的研究 被引量:6 2008年 主观性文本是一种描述个人想法、情感和意见等的非约束性文本。它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素(意见持有者、意见陈述范围、意见主题和意见情感)的一种主观性文本,它大量出现在网上的电子公告板、论坛和博客等媒介中,受到广泛的关注,并成为研究意见挖掘方法和技术的语料。该文介绍了主观性文本的定义及其与客观性文本的差异,同时着重讨论了意见型文本的定义、特点、类型体系及其在意见挖掘技术中的应用。 刘全升 姚天昉 黄高辉 刘军 宋鸿彦关键词:计算机应用 中文信息处理 汉语意见型主观性文本类型体系的研究 主观性文本是一种描述个人想法、情感和意见等的非约束性文本,它与主要描述以事实为主的客观性文本在内容和结构上有很大的不同。意见型文本是包含有意见元素的一种主观性文本,它大量出现在网上的电子公告板,论坛和博客等媒介中,受到广... 刘全升 姚天昉 黄高辉 刘军 宋鸿彦关键词:汉字处理 数理语言学 基于LDA模型的论坛热点话题识别和追踪 被引量:22 2016年 在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。 徐佳俊 杨飏 姚天昉 付中阳关键词:LDA