字段搜索
共有 287 个数据目录
-
110人多种角度光照表情组合人脸图像数据【数据堂】
数据规模110人,每人2,100张照片人种分布黄种人11人,白种人44人,黑种人55人性别分布男61人、女49人采集环境室内场景采集多样性
数据堂(北京)科技股份有限公司提供主题领域:2024-01-22更新
-
178小时中国儿童麦克风语音采集数据【数据堂】
格式44.1kHz, 16bit,未压缩wav,单声道录音环境相对安静的室内语言普通话录音内容儿童教科书;故事书;数字人员739名中国儿童
数据堂(北京)科技股份有限公司提供主题领域:2024-01-05更新
-
531小时麦克风手机采集车载噪音数据【数据堂】
格式麦克风 32kHz 32bit,wav,单声道;手机 16kHz 16bit,wav,单声道数据特点包含 5 类条件,每类包含多种情景;每段音频对应
数据堂(北京)科技股份有限公司提供主题领域:2023-12-10更新
-
中文普通话语音识别库(桌面)
该识别数据在安静办公室环境中完成录制,共有260位发音人参与,录音时长138.9小时,包括130位男性和130位女性,录音语种中文普通话。所有参与录音的发音人均经过专业筛选,保证其发音标准,吐字清晰。录音文本覆盖短信等信息。
数据堂(北京)科技股份有限公司提供主题领域:2023-12-10更新
-
-
中文大模型垂直领域图像描述数据集
14万张图像,图像内容包括但不限于人脸、车辆、人体行为、手势、中文OCR、场景、监控人体。每张图像配备一段详细中文文本描述。
数据堂(北京)科技股份有限公司提供主题领域:2023-11-15更新
-
语音复刻大模型高品质数据集-中文
本数据集招募了18226名说话者,男女近似1比1。语料覆盖领域多样,包含了对话、唤醒词、控制命令、数字串、新闻论坛、书面语。所有数据使用麦克风进行采集,具备48kHz高采样率,内容自然,是通用语音复刻模型的绝佳训练数据。此数据集已被数家AI头部企业用于声音克隆应用研发,数据质量经过实践检验认可。
数据堂(北京)科技股份有限公司提供主题领域:2023-11-15更新
-
-
-
美国英语多模态语音视频数据集
多模态模型被认为是目前提高人工智能系统能力的最佳途径之一,而本产品库采用最新采集形式,同时采集录制美式英语native发音人的多人对话的音频和视频数据,共计约85小时的有效对话数据,音频和视频数据采集结果会进行对齐处理,误差在30毫秒以内。在稀缺资源语种的基础上具有非常高的信息丰富度,可提供更加全面的信息输入从而高效提升系统的表现和效率。
数据堂(北京)科技股份有限公司提供主题领域:2023-11-15更新
-
-
-
-
-
-
全网实时舆情数据与社交媒体数据
中国互联网上公开数据,包含:新闻网站、微信公众号,知乎、天涯、小红书等论坛,抖音快手等短视频平台,资讯类APP等全平台文本内容;包含账号标签及各平台上阅读量、点赞量、转发量等公开平台数据;同时对文本数据进行正负面、情绪判别。
数据堂(北京)科技股份有限公司提供主题领域:2023-11-15更新
-
-
-
-