共有 296 个数据目录

  • 高品质、大规模、多语种双语平行语料数据集

    来自于科技服务、军事、国防安全、金融、医疗等领域的专利、论文、科技文献等资料整理的双语平行语料


    北京市大数据中心 主题领域:2023-09-03更新

  • 医药题库数据集

    关于医药行业的考试题库


    北京市大数据中心 主题领域:2023-09-03更新

  • 科技文献挖掘语义标注数据集

    人工整编的可用于科技文献语步识别、概念定义识别、研究问题识别、领域分类、领域科研实体识别等任务的训练数据集。 其中语步识别数据集40万条,标注了文献摘要中各句子的语步类型,包括研究背景句、研究目的句、研究方法句、研究结果句、研究结论句;概念定义识别数据集1万条,标注了文献中描述概念定义的句子;研究问题识别数据集1万条,标注了文献中描述研究问题的句子;分类数据集50万条,包括了每篇文章及其中图分类号的对应关系;科研实体识别数据集10万条,标注了文献摘要中描述研究问题、方法模型、数据资料、仪器设备等实体词。


    北京市大数据中心 主题领域:2023-09-02更新

  • 中国科学引文数据库数据集

    中国科学引文数据库(Chinese Science Citation Database,简称CSCD)创建于1989年,是我国第一个引文数据库,覆盖我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术和环境科学等领域出版的中英文科技核心期刊1300余种。数据准确、处理规范,目前已积累高质量论文记录 600余万条,包括论文题名、作者、机构、关键词、摘要等信息,可用于基于中文文献的知识挖掘等场景。


    北京市大数据中心 主题领域:2023-09-02更新

  • 声誉风险事件数据集

    近10年声誉风险事件的舆论高结构化、时序化和精准关联分析数据。


    北京市大数据中心 主题领域:2023-09-02更新

  • 产业要素数据集

    产业链及链上要素,包含产业链上下游、政策、舆情、企业及科创评估。


    北京市大数据中心 主题领域:2023-09-02更新

  • 人民日报语料库

    收录了党的十八大以来《人民日报》的要闻、评论、理论、经济、政治等重要版面内容。


    北京市大数据中心 主题领域:2023-09-02更新

  • 两会参政议政建言数据集

    北京市2002-2023年两会期间各类参政议政建言、答复等政务文本及其分词库。


    北京市大数据中心 主题领域:2023-09-02更新

  • 产业风险数据集

    覆盖8000+产业节点,包括产业风险指数、产业舆情风险及风险企业数据。


    北京市大数据中心 主题领域:2023-09-02更新

  • 北京市中小企业惠企政策数据集

    国家级、北京市级、区级惠企政策全量拆解发布,精准触达企业。


    北京市大数据中心 主题领域:2023-09-02更新

  • 多语言多模态视频文本对齐数据集

    涵盖普通话、方言、英德越印芬瑞阿等30多个语种,每段视频都标注了话题类型、说话内容。


    北京市大数据中心 主题领域:2023-09-02更新

  • 超大规模中文多领域高质量多轮对话数据集

    15w小时,5千万轮多领域自然式人人对话数据集,可显著优化中文多轮交互自然效果。


    北京市大数据中心 主题领域:2023-09-02更新

  • 大模型多语种语音数据集

    该数据集包含20万小时多人对话/单人的高质量工程化人机交互场景语音数据,覆盖汉语、英语、日语等200个语种和方言,可用于通用语音模型的训练。


    北京市大数据中心 主题领域:2023-09-02更新

  • 国家法律法规语料库

    收录了中国现行的各类规范性法律法规以及相关国际 条约,包含中国法律库、中国法规库、司法解释库、地方 法规库、国际条约惯例库、立法草案与说明六个子库。


    北京市大数据中心 主题领域:2023-09-02更新

  • 藏语语音文本句对数据集

    含卫藏、安多、康巴三种藏语方言的平行语料和语音对应文本的多模态数据集。


    北京市大数据中心 主题领域:2023-09-02更新

  • 197小时韩语手机采集语音数据_朗读【数据堂】

    格式16kHz,16bit,未压缩wav,单声道录音环境相对安静的室内;录音内容经济,娱乐,新闻,口语,数字,字母人员韩国人,朝鲜人


    北京市大数据中心 主题领域:2023-08-19更新

  • 215小时美式英语手机采集语音数据_朗读【数据堂】

    格式16kHz,16bit,未压缩wav,单声道录音环境相对安静的室内;无回声录音内容娱乐;新闻;口语;经济;数字;字母人员349名美国


    北京市大数据中心 主题领域:2023-08-19更新

  • 1,003人情感视频数据【数据堂】

    数据规模1,003人,一人采集一段或几段带有多种情感的视频人员分布人种分布:黄种人232人,白种人614人,黑种人157人 ;性别分布


    北京市大数据中心 主题领域:2023-08-19更新

  • 1,056人活体检测数据【数据堂】

    数据规模1,056人,一个人采集235段视频,63张照片人种分布人种分布:黄种人641人,白种人217人,黑种人198人;性别分布:男542人


    北京市大数据中心 主题领域:2023-08-19更新

  • 607小时粤语自然对话语音数据【数据堂】

    格式16kHz/44.1kHz,16bit,未压缩wav,单声道/双声道录音环境相对安静的室内,无回声录音内容给出话题列表,录音人从中挑选多个


    北京市大数据中心 主题领域:2023-08-19更新

找到296项  第6页/共15页     上一页   1  2  3  4  5  6  7  8  9  10  下一页   末页