北京公共数据开放平台-有条件开放AI数据

共有 287 个数据目录

开放方式：

110人多种角度光照表情组合人脸图像数据【数据堂】

数据规模110人，每人2,100张照片人种分布黄种人11人，白种人44人，黑种人55人性别分布男61人、女49人采集环境室内场景采集多样性

主题领域：2024-01-22更新

查看
178小时中国儿童麦克风语音采集数据【数据堂】

格式44.1kHz， 16bit，未压缩wav，单声道录音环境相对安静的室内语言普通话录音内容儿童教科书；故事书；数字人员739名中国儿童

主题领域：2024-01-05更新

查看
531小时麦克风手机采集车载噪音数据【数据堂】

格式麦克风 32kHz 32bit，wav，单声道；手机 16kHz 16bit，wav，单声道数据特点包含 5 类条件，每类包含多种情景；每段音频对应

主题领域：2023-12-10更新

查看
中文普通话语音识别库（桌面）

该识别数据在安静办公室环境中完成录制，共有260位发音人参与，录音时长138.9小时，包括130位男性和130位女性，录音语种中文普通话。所有参与录音的发音人均经过专业筛选，保证其发音标准，吐字清晰。录音文本覆盖短信等信息。

主题领域：2023-12-10更新

查看
金融知识问答语料库

包含股票、基金、外汇、期货、债券、理财等数据

主题领域：2023-11-17更新

查看
中文大模型垂直领域图像描述数据集

14万张图像，图像内容包括但不限于人脸、车辆、人体行为、手势、中文OCR、场景、监控人体。每张图像配备一段详细中文文本描述。

主题领域：2023-11-15更新

查看
语音复刻大模型高品质数据集-中文

本数据集招募了18226名说话者，男女近似1比1。语料覆盖领域多样，包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所有数据使用麦克风进行采集，具备48kHz高采样率，内容自然，是通用语音复刻模型的绝佳训练数据。此数据集已被数家AI头部企业用于声音克隆应用研发，数据质量经过实践检验认可。

主题领域：2023-11-15更新

查看
人物图片数据集

有关人物的图像数据，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
动物图片数据集

有有关动物、宠物的图像数据，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
美国英语多模态语音视频数据集

多模态模型被认为是目前提高人工智能系统能力的最佳途径之一，而本产品库采用最新采集形式，同时采集录制美式英语native发音人的多人对话的音频和视频数据，共计约85小时的有效对话数据，音频和视频数据采集结果会进行对齐处理，误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度，可提供更加全面的信息输入从而高效提升系统的表现和效率。

主题领域：2023-11-15更新

查看
全球专利文本数据集

该数据集提供了专利文本数据，包括专利标题、摘要、权利要求、说明书，以及摘要附图，可以了解专利基本信息、保护范围、技术的创新性和特点，从而能评估专利的商业化潜力和技术优势。相比于文字描述，图示更具直观性和简洁性，能够更有效地传达发明的核心概念。

主题领域：2023-11-15更新

查看
商务图片数据集

有关商务办公、金融等场景的图像数据，包含高清图片、说明、标签等，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
舆情数据集

涵盖新闻、短视频、微博、微信、APP、自媒体等媒体渠道，每天采集入库的泛舆情数据超过1亿条，在此基础上，精细化数据维度，打标形成正负面数据和六类情绪数据，11个行业数据，“民生问题”“ 涉黑涉暴”“直播乱象”“意识形态”等60种相关敏感规则数据。同时，累积了上百位重点人物、上万个意见领袖，以及几十万个媒体/个人账号。基于社会实时发生的热点事件，每年创建记录万余条舆情专题事件，采集存储上亿条相关信息，并对重点舆情事件撰写形成舆情分析报告，目前累计1万余篇。

主题领域：2023-11-15更新

查看
肖像图片数据集

有关人物肖像的图像数据，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
自然风光图片数据集

有关自然风光的图像数据，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
全网实时舆情数据与社交媒体数据

中国互联网上公开数据，包含：新闻网站、微信公众号，知乎、天涯、小红书等论坛，抖音快手等短视频平台，资讯类APP等全平台文本内容；包含账号标签及各平台上阅读量、点赞量、转发量等公开平台数据；同时对文本数据进行正负面、情绪判别。

主题领域：2023-11-15更新

查看
国家政务问答

面向政务服务大模型-慧政，是中科汇联自主研发的AiGCP智能生成大模型平台，该平台基于LLM110亿参数规模、可信中文数据源训练、国产信创支持、可私有化部署的垂直行业大模型平台。平台支持多模态、大模型指令集微调,实现三大应用·智语(上下文多轮对话)、智画(文本生成图片)、智人(数智人交互)。中科汇联基于AiGCP智能生成大模型平台,推出了面向政务行业大模型-慧政、面向医疗行业大模型-阳明以及面向金融行业大模型-慧金等系列垂直行业大模型产品。

主题领域：2023-11-15更新

查看
运动图片数据集

有关健身、运动等人物和场景的图像数据，包含高清图片、说明、标签等

主题领域：2023-11-15更新

查看
智慧网络数据集

围绕网元智能、运维智能、服务智能三大方向建设，是业界首个涵盖无线信道、基站、云网、核心网、哑资源等多领域，支持感知、诊断、预测、决策等多类网络AI能力研发的标志性数据集。

主题领域：2023-11-15更新

查看
问问基础评测集

动机：（1）市面上的已有评测集存在依赖国外开源数据的问题，翻译过来的题目存在文化bias，涉及语言类的题目缺乏汉语视角，不能忠实反映大语言模型在中国语境中日常问题、日常语言中的表现；（2）市面上的已有评测集中包含大量的语言逻辑题，却未充分体现汉语的特点；（3）市面上的已有评测集分类较为随意，不能有效把握问题反映出来的大模型能力

主题领域：2023-11-15更新

查看

找到287项第1页/共15页

开放方式：

主题领域：2024-01-22更新

主题领域：2024-01-05更新

主题领域：2023-12-10更新

主题领域：2023-12-10更新

主题领域：2023-11-17更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新

主题领域：2023-11-15更新