您的位置: 专家智库 > >

蔡莉

作品数:8 被引量:94H指数:4
供职机构:复旦大学计算机科学技术学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术天文地球艺术文化科学更多>>

文献类型

  • 6篇期刊文章
  • 2篇会议论文

领域

  • 7篇自动化与计算...
  • 1篇天文地球
  • 1篇文化科学
  • 1篇艺术

主题

  • 4篇大数据
  • 2篇数据质量
  • 2篇聚类
  • 2篇非物质文化
  • 2篇非物质文化遗...
  • 2篇大数据时代
  • 1篇地理数据
  • 1篇地图
  • 1篇语义描述
  • 1篇数据模型
  • 1篇数据融合
  • 1篇四面体
  • 1篇签到
  • 1篇情感
  • 1篇情感变化
  • 1篇情感分析
  • 1篇人工智能
  • 1篇主题发现
  • 1篇相对熵
  • 1篇历史沿革

机构

  • 8篇复旦大学
  • 8篇云南大学
  • 1篇广西师范学院

作者

  • 8篇蔡莉
  • 6篇蔡莉
  • 4篇朱扬勇
  • 3篇梁宇
  • 1篇刘俊晖
  • 1篇彭昱忠
  • 1篇何婧

传媒

  • 2篇小型微型计算...
  • 2篇计算机科学
  • 1篇软件学报
  • 1篇测绘地理信息

年份

  • 1篇2021
  • 1篇2020
  • 2篇2019
  • 2篇2018
  • 1篇2017
  • 1篇2016
8 条 记 录,以下是 1-8
排序方式:
签到数据的热点区域时空模式与情感变化的可视化分析被引量:4
2018年
签到数据是包含经纬度位置信息和文本内容的微博数据,这些数据对于基础设施规划、土地价值评估和消费推荐都有十分重要的作用.本文提出了一种新颖的可视化交互系统CIDVis.CIDVis使用AC-DBSCAN算法对签到数据进行聚类,发现用户签到较为频繁的热点区域,并利用百度地图API动态展示这些区域的时空变化趋势,探索微博用户的签到模式.接着,利用中文分词,特征值提取等文本挖掘技术对微博内容进行情感评分,获得各个热点区域的用户情感倾向变化.同时,利用LDA模型执行隐含主题挖掘,发现微博主题的变化规律.以昆明市2015年7月-11月的新浪微博签到数据作为数据源,验证了该可视化系统的有效性.实验结果表明CIDVis系统提供多种直观、交互式的可视化组件,能帮助决策者分析微博用户的出行规律、情感变化和热点主题.
蔡莉蔡莉魏宝乐周怡帆李英姿
关键词:可视化情感分析主题发现
大数据时代下非物质文化遗产的数据模型研究
大数据时代,越来越多的非物质文化遗产以文本、图形、图像、音频和视频等非结构化形式进行保存。由于非结构化数据存在分析困难、查询和使用不太方便等问题,很难有效挖掘这些数据背后的价值。针对现有非物质文化遗产在数据管理上的不足,...
蔡莉胡洪斌朱扬勇
关键词:非物质文化遗产数据模型四面体大数据
文献传递
数据质量的历史沿革和发展趋势被引量:25
2018年
在互联网时代,数据成为了新的生产要素,也成为了基础性资源和战略性资源,同时还是重要的生产力。大数据服务业在全国广泛开展,数据交易所纷纷成立。这时,数据质量就逐渐变成制约数据产业发展的关键问题。首先,按照时间顺序将数据质量的研究内容划分为3个阶段,全面梳理和总结每个阶段的代表性成果,包括理论、方法、技术、工具和框架;然后,分析了在物联网、云计算和大数据环境下,数据质量研究所面临的各种挑战和机遇;最后,从数据质量模型、大数据质量管理、大数据质量相关技术、众包、物联网以及数据开放6个方面对数据质量的研究热点和发展方向进行了展望。
蔡莉蔡莉梁宇朱扬勇
关键词:数据质量历史沿革大数据
面向城市热点区域的不平衡数据聚类挖掘研究被引量:9
2019年
在大数据时代,数据来源众多,因此多源数据的融合成为数据挖掘领域的一个研究热点。现有的多源数据融合研究主要聚焦于相同领域内平衡数据集的融合模型和算法,对来自不同领域的非平衡数据集的聚类挖掘关注较少。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是挖掘热点区域的主要算法,但其无法处理不平衡的融合数据,少数类数据形成的聚类结果很难被发现。针对不平衡数据的融合,文中提出了一种基于时空特征的位置数据融合模型;同时,从数据层面和算法层面提出新颖的方法来解决不平衡数据的挖掘问题。鉴于目前的聚类算法的评价指标并不适用于不平衡数据的聚类结果评估,提出了一种新的综合评价指标来反映聚类质量。将来自交通领域的GPS轨迹数据(多数类数据)和社交领域的微博签到数据(少数类数据)进行融合,然后采用所提方法来挖掘热点区域。实验结果表明:基于多源数据融合的热点区域挖掘结果优于单源挖掘结果,所发现的热点区域位置、分布和数量与实际情况一致。文中所提出的融合模型、改进算法和评估指标法是有效且可行的,还可用于其他来源的位置数据的融合与分析。
蔡莉蔡莉江芳梁宇
关键词:不平衡数据数据融合
数据标注研究综述被引量:53
2020年
数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望.
蔡莉蔡莉刘俊晖刘俊晖
关键词:人工智能众包大数据
一种基于自适应网格划分和决策图的聚类算法研究被引量:2
2019年
为了减少大规模数据集在聚类过程中的计算复杂度和运行时间,本文提出了一种基于自适应网格划分和决策图的聚类算法AGPCA.首先,采用相对熵自适应划分数据空间,形成明显的稀疏网格和稠密网格.将网格作为聚类对象,降低以点为对象之间的距离计算复杂度.之后,依据决策图思想确定簇心网格对象,并通过Kd树完成邻接网格的查找和合并以实现聚类.以多个标准数据集和真实的出租车GPS轨迹数据作为测试对象,并与现有一些先进的聚类算法进行对比实验.实验结果表明所提算法结合了网格划分和局部距离判断的优点,具有较高的准确性和运行效率.
蔡莉蔡莉许卫霞梁宇
关键词:决策图聚类算法相对熵
大数据时代下非物质文化遗产的数据模型研究
大数据时代,越来越多的非物质文化遗产以文本、图形、图像、音频和视频等非结构化形式进行保存.由于非结构化数据存在分析困难、查询和使用不太方便等问题,很难有效挖掘这些数据背后的价值.针对现有非物质文化遗产在数据管理上的不足,...
蔡莉胡洪斌朱扬勇
关键词:非物质文化遗产大数据语义描述
基于层次分析法的众源地理数据质量评估研究被引量:7
2021年
在分析开放街道地图(OpenStreetMap, OSM)数据特征的基础上构建了一个新颖的数据质量评估框架,该框架包括具体的评估指标、评估模型和评估流程。采用层次分析法确定了各个评估指标的权重,并使用ArcGIS评估昆明市OSM数据集的质量。结果表明,昆明市OSM数据质量一般,仅可在日常生活中应用,不太适合专业的科研领域。
蔡莉蔡莉王淑婷彭昱忠彭昱忠
关键词:数据质量层次分析法
共1页<1>
聚类工具0