共有 296 个数据目录
开放方式:
-
-
-
科技文献挖掘语义标注数据集
人工整编的可用于科技文献语步识别、概念定义识别、研究问题识别、领域分类、领域科研实体识别等任务的训练数据集。 其中语步识别数据集40万条,标注了文献摘要中各句子的语步类型,包括研究背景句、研究目的句、研究方法句、研究结果句、研究结论句;概念定义识别数据集1万条,标注了文献中描述概念定义的句子;研究问题识别数据集1万条,标注了文献中描述研究问题的句子;分类数据集50万条,包括了每篇文章及其中图分类号的对应关系;科研实体识别数据集10万条,标注了文献摘要中描述研究问题、方法模型、数据资料、仪器设备等实体词。
北京市大数据中心 主题领域:2023-09-02更新
-
中国科学引文数据库数据集
中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库,覆盖我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术和环境科学等领域出版的中英文科技核心期刊1300余种。数据准确、处理规范,目前已积累高质量论文记录 600余万条,包括论文题名、作者、机构、关键词、摘要等信息,可用于基于中文文献的知识挖掘等场景。
北京市大数据中心 主题领域:2023-09-02更新
-
-
-
-
-
-
-
-
-
大模型多语种语音数据集
该数据集包含20万小时多人对话/单人的高质量工程化人机交互场景语音数据,覆盖汉语、英语、日语等200个语种和方言,可用于通用语音模型的训练。
北京市大数据中心 主题领域:2023-09-02更新
-
-
-
197小时韩语手机采集语音数据_朗读【数据堂】
格式16kHz,16bit,未压缩wav,单声道录音环境相对安静的室内;录音内容经济,娱乐,新闻,口语,数字,字母人员韩国人,朝鲜人
北京市大数据中心 主题领域:2023-08-19更新
-
215小时美式英语手机采集语音数据_朗读【数据堂】
格式16kHz,16bit,未压缩wav,单声道录音环境相对安静的室内;无回声录音内容娱乐;新闻;口语;经济;数字;字母人员349名美国
北京市大数据中心 主题领域:2023-08-19更新
-
1,003人情感视频数据【数据堂】
数据规模1,003人,一人采集一段或几段带有多种情感的视频人员分布人种分布:黄种人232人,白种人614人,黑种人157人 ;性别分布
北京市大数据中心 主题领域:2023-08-19更新
-
1,056人活体检测数据【数据堂】
数据规模1,056人,一个人采集235段视频,63张照片人种分布人种分布:黄种人641人,白种人217人,黑种人198人;性别分布:男542人
北京市大数据中心 主题领域:2023-08-19更新
-
607小时粤语自然对话语音数据【数据堂】
格式16kHz/44.1kHz,16bit,未压缩wav,单声道/双声道录音环境相对安静的室内,无回声录音内容给出话题列表,录音人从中挑选多个
北京市大数据中心 主题领域:2023-08-19更新