共有 296 个数据目录

  • 家居室内图片数据集

    有关自然风光的图像数据,包含高清图片、说明、标签等


    北京市大数据中心 主题领域:2023-11-15更新

  • 生活方式图片数据集

    有关生活方式的图像数据,包含高清图片、说明、标签等,包含高清图片、说明、标签等


    北京市大数据中心 主题领域:2023-11-15更新

  • 企业信用信息数据集

    国内2.1亿企业数据,全球3亿企业数据,包含工商、司法、行业、资质动态、财务等信息


    北京市大数据中心 主题领域:2023-11-15更新

  • 多领域语音交互大模型高质量语音评测数据集

    涵盖26个领域,真实场景音频数据集,可作为模型评测数据集,应用于语音对话与听觉大模型的研究。


    北京市大数据中心 主题领域:2023-11-15更新

  • 通用场景图像描述基础多模态数据集

    120万张图像,图像内容包括但不限于风景、动物、食物、花卉树木、人物、汽车、运动、建筑、卡通动漫、影视剧、商标logo、表格文本、书法绘画、商品展示、生活场景。每张图像至少配备两种不同的简要中文文本描述。


    北京市大数据中心 主题领域:2023-11-15更新

  • 人机对话高质量语音评测数据集

    涵盖7类对话场景,自然表达的音频数据集,可作为模型评测数据集,应用于语音对话与听觉大模型的研究。


    北京市大数据中心 主题领域:2023-11-15更新

  • 企业管理服务问答语料库

    包含企业管理中员工管理、时间管理、目标管理、团队管理、领导力等问答语料。


    北京市大数据中心 主题领域:2023-11-15更新

  • 印尼语多模态语音视频数据集

    多模态模型被认为是目前提高人工智能系统能力的最佳途径之一,而本产品库采用最新采集形式,同时采集录制印尼语native发音人的多人对话的音频和视频数据,共计约84小时的有效对话数据,音频和视频数据采集结果会进行对齐处理,误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度,可提供更加全面的信息输入从而高效提升系统的表现和效率。


    北京市大数据中心 主题领域:2023-11-15更新

  • 古今文化数据集

    包含从辽、隋、明、魏、晋、唐、元、明、清等各朝代的古诗词以及其赏析,古文以及其翻译


    北京市大数据中心 主题领域:2023-11-15更新

  • 问答数据集

    涵盖网络问答对数据,包括知识问答、常识问答、娱乐新闻问答等主题,培养模型对问题的深刻理解和准确回答的能力


    北京市大数据中心 主题领域:2023-11-15更新

  • 医疗影像数据集

    医疗影像是通过医疗系统内成像设备(CT、核磁等)拍摄,形成患者DICOM格式影像数据,同时医生出具报告,形成“诊断报告+影像”交付患者,用于患者保存、异地会诊、院内科室会诊等。


    北京市大数据中心 主题领域:2023-11-15更新

  • 美食图片数据集

    有关美食的摄影图像数据,包含高清图片、说明、标签等


    北京市大数据中心 主题领域:2023-11-15更新

  • 政策数据集

    包括国家部委、地方政府等的政策文件、政策研究报告、政策解读文章和政策问答数据


    北京市大数据中心 主题领域:2023-11-15更新

  • 全球生物序列数据集

    根据核苷酸和蛋白质序列获取到相似序列,以及相关专利、期刊文献和生物公共库中的公开信息;可帮助研发和IP人员进行序列创新信息检索,了解项目是否有侵权风险,并可以快速获取当前市场的战略布局,监控市场动态


    北京市大数据中心 主题领域:2023-11-05更新

  • 生成式对话大模型精调语料

    面向对话大模型的高质量、多类型指令数据集,包括但不限于单轮对话、多轮对话、个性化指令、上下文理解指令和推理思维链等


    北京市大数据中心 主题领域:2023-09-14更新

  • 财税文本数据集

    该数据集包含全国各地区政策、新闻、财税类知识、问答等信息


    北京市大数据中心 主题领域:2023-09-14更新

  • 中文高质量大模型预训练文本数据集

    文本内容涵盖80多个学科领域,进行了准确的标签分类和严格的内容清洗。


    北京市大数据中心 主题领域:2023-09-12更新

  • 大模型中文千万轮对话数据集

    该数据集是一个上千万轮的双人对话的高质量工程化数据集,覆盖金融、教育、客服等行业和场景,用于大模型的训练和调优。


    北京市大数据中心 主题领域:2023-09-12更新

  • 中文千万轮对话语料库 DOTS-NLP-216

    真实场景对话采集,高度还原真实场景的模拟对话。兼顾分布的代表性、多样性和样本规模。


    北京市大数据中心 主题领域:2023-09-12更新

  • 大模型多语种语音识别数据集

    来自世界10多个国家的20万小时音频文本,主要包含中、英、维、藏等国内重点安防关注领域;


    北京市大数据中心 主题领域:2023-09-12更新

找到296项  第3页/共15页     上一页   1  2  3  4  5  6  7  8  9  10  下一页   末页