您的位置: 专家智库 > >

张奇

作品数:48 被引量:182H指数:6
供职机构:复旦大学计算机科学技术学院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划上海市科委重大科技攻关项目更多>>
相关领域:自动化与计算机技术经济管理理学语言文字更多>>

文献类型

  • 19篇期刊文章
  • 15篇专利
  • 9篇会议论文
  • 4篇学位论文
  • 1篇科技成果

领域

  • 32篇自动化与计算...
  • 2篇经济管理
  • 1篇政治法律
  • 1篇文化科学
  • 1篇语言文字
  • 1篇理学

主题

  • 8篇文本
  • 7篇中文
  • 7篇句子
  • 6篇信息检索
  • 6篇网络
  • 6篇拷贝
  • 6篇拷贝检测
  • 6篇查询
  • 6篇抽取
  • 5篇索引
  • 4篇语言模型
  • 4篇最大熵
  • 4篇相似度
  • 4篇向量
  • 4篇分布式
  • 4篇分布式索引
  • 4篇查询扩展
  • 3篇信息处理
  • 3篇语言处理
  • 3篇社交

机构

  • 48篇复旦大学
  • 2篇清华大学
  • 1篇北京大学
  • 1篇哈尔滨工业大...
  • 1篇苏州大学
  • 1篇中国人民大学
  • 1篇中国科学院软...
  • 1篇中国科学院自...
  • 1篇上海市智能信...
  • 1篇国家新闻出版...
  • 1篇哈尔滨工业大...
  • 1篇之江实验室

作者

  • 48篇张奇
  • 29篇黄萱菁
  • 8篇吴立德
  • 5篇俞昊旻
  • 4篇张玥
  • 3篇张玥
  • 3篇陈欢
  • 2篇邱锡鹏
  • 2篇吴苑斌
  • 2篇王秉卿
  • 2篇施洋
  • 1篇唐勇
  • 1篇吴龑
  • 1篇章剑锋
  • 1篇冯岩松
  • 1篇刘康
  • 1篇张家俊
  • 1篇韩先培
  • 1篇黄民烈
  • 1篇刘挺

传媒

  • 10篇中文信息学报
  • 2篇计算机研究与...
  • 2篇计算机工程
  • 2篇计算机应用与...
  • 1篇计算机学报
  • 1篇广播与电视技...
  • 1篇中国科学:信...
  • 1篇第四届全国学...
  • 1篇第一届全国信...
  • 1篇中国中文信息...
  • 1篇第六届全国信...

年份

  • 2篇2024
  • 2篇2023
  • 5篇2022
  • 2篇2021
  • 1篇2019
  • 1篇2018
  • 2篇2017
  • 2篇2016
  • 2篇2015
  • 3篇2014
  • 2篇2013
  • 3篇2012
  • 4篇2011
  • 4篇2010
  • 1篇2009
  • 6篇2008
  • 3篇2007
  • 1篇2005
  • 2篇2004
48 条 记 录,以下是 1-10
排序方式:
英文口语中非流利区域的检测
本文介绍了我们在非流利部分检测以及对非流利句子进行句法分析上的工作。我们的主要贡献是扩大了非流利部分检测的特征集合,最佳特征选择,并且比较了三种不同的分类器(AdaBoost,Maximum Entropy,and Co...
张奇翁富良黄萱菁吴立德
关键词:条件随机场BOOSTING
文献传递
面向自由文本的中文地址规范化被引量:4
2015年
随着Web 2.0的发展,用户再也不仅仅是网站内容的浏览者,而且也成为网站内容的创造者。通过用户上传分享信息逐渐成为互联网内容的重要活力源泉,例如,维基百科的参与者来自世界各地,谷歌地图搜索提供的修改和商户中心功能,大众点评的商户信息收录服务等。在用户由网上冲浪变为波浪制造者的同时,应考虑到用户上传分享内容的规范性和正确性。特别地,提供生活消费平台的网站,用户上传的商户地址信息的规范化尤显重要。为此针对大众点评网中的自由文本商户地址语料,提出基于层叠条件随机场对中文地址进行规范化的方法。实验结果表明所提出的中文地址规范化方法是有效的,在真实语料的开放测试中F值达到81%。
徐娟曹晔张奇
关键词:WEB层叠条件随机场
一种知识感知的序列到树的数学应用题求解系统
本发明提供了一种知识感知的序列到树的数学应用题求解系统,用于对待分析应用题文本进行处理与推理得到对应的数学表达式,其特征在于,包括:问题编码模块利用预定的第一神经网络对待分析应用题文本进行编码得到编码后问题向量;实体图构...
吴沁倬张奇黄萱菁
文献传递
基于Low-IDF-SIG的句子重复检测
2011年
随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
俞昊旻张玥张奇黄萱菁
关键词:特征抽取
医疗合同研究
医疗损害赔偿纠纷迅速增多已成为我国现今的一个社会问题,而医疗损害赔偿法律制度不健全的弊端也日益彰显。同样的问题在世界各主要工业国家也日趋严重。如何妥善解决处理医疗纠纷中所遇到的各种问题,各国的做法不一。但采用合同责任作为...
张奇
关键词:医疗合同医患关系
文献传递
区域农业产业集群发展中的政府作用研究——以浙江丽水食用菌产业集群发展为例
农业产业集群是大农业发展的一种趋势,是优势农业资源、区域经济实现飞跃发展的一条新捷径,这一新的农业产业化经营组织形式将在我国农业进入国际市场的大背景下,显示出强大的竞争优势。 首先,本文以农业发展和产业集群的相...
张奇
关键词:农业产业集群政府作用食用菌产业
文献传递
一种基于HTML流处理的数据采集方法和系统
本发明属于网页信息抽取技术领域,具体是一种基于HTML数据流处理的数据采集方法和系统。它由多线程收集器和下载控制模板以及数据存储系统构成。多线程收集器保证了工作速度,下载控制模板保证了工作的准确性。本系统可以在通过简单的...
施洋张奇黄萱菁
文献传递
机器学习的查询扩展在博客检索中的应用
本文介绍一种新的查询扩展方法。该方法将查询扩展工作纳入机器学习的框架下,首先伪反馈将生成原始查询项的候选扩展词集合,然后一个支持向量机将对这些候选词进行排序,形成一个优化的查询项,以此来提高最终检索结果的性能。由于此类方...
王秉卿张奇吴立德黄萱菁
关键词:文字处理信息检索数理语言学
文献传递
基于主题模型的微博转发行为预测被引量:7
2018年
在全部微博内容中,由用户转发而产生的信息占有非常大的比例。同时,内容的转发也是微博中信息传播的主要途径。因此,用户的转发行为有着重要的研究价值,可应用于社交营销、微博检索、热点事件预测等领域中。该文中,我们通过分析所收集的大量真实的新浪微博数据,发现影响用户转发行为的一些因素:微博作者、用户兴趣以及微博热度。基于这些发现,该文提出了一种新颖的基于LDA模型的方法,综合利用以上3个特征预测用户转发行为。为了对该方法进行评价,我们利用收集的大量的微博数据及对应的社交网络结构模拟真实用户环境。实验表明,该方法的性能优于目前最好的方法,F值比其他基线方法高出35%—45%。
郭亚宫叶云张奇黄萱菁
关键词:主题模型社交网络
一种针对中文社交网络中中英文混合文本的规范方法
本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,...
陈欢张奇黄萱菁
文献传递
共5页<12345>
聚类工具0