知识计算引擎驱动的科技产业情报数据平台
申报单位:中科天玑数据科技股份有限公司 中国科学院计算技术研究所 中科曙光南京研究院有限公司
浏览量: 发布时间:2024-07-12
案例背景

面向国际科技创新需求,着眼于支持科技产业升级转型、助力“一带一路”科技合作、 服务地方经济发展,研制知识计算引擎驱动的科技产业情报数据平台。主要面临以下几个 问题:一是科技信息过载,实际工作中需要大量人力从事网络信息采集、筛选、分析工作。 二是信息数据共享、重用度不高,数据应用体系缺乏,使用效率低。数据碎片化明显,难 以跨单位、跨项目共享、重用 , 存在重复建设等现象。三是多源异构数据统一处理复杂, 亟需深度知识挖掘工具。不同类型数据(如结构化、半结构化、非结构化)、不同格式数 据(如图片、文本、网页等) ,需要对多源异构数据进行梳理、挖掘, 形成高价值的知识, 发挥应有的价值。

解决方案

1. 针对科技信息过载,消耗大量人力采集、筛选的问题 科技产业情报数据平台支持对特定领域多种来源、多种类型、多种模态数据的定源跟 踪与自动采集。支持全网主题词过滤与采集(元搜索)、或者特定网站栏目采集两类模式。 支持用户自定义网址的采集,支持自动化抽取及数据自动分类打标签。 2. 针对数据碎片化明显,缺乏应用体系,难以共享、重用,使用效率低的问题 对不同网络渠道收集的多源异构数据,按业务应用体系进行自动过滤、去重、筛选分类, 构建领域数据体系。根据数据中的关键人物、事件地点、相关机构、时间窗口、事件领域 分类等关键要素信息进行自动提取,形成海量数据的规范化分类标签体系,提高复用效率。 3. 针对多源异构数据进行梳理、挖掘,形成高价值的知识信息 通过智能搜索平台、知识图谱引擎、量化建模分析平台对动态新闻、专题报告、博客 信息等网络数据进行知识抽取和智能分析,形成时间域、空间域、技术领域中的事件脉络、 态势地图、敏感事件监测、发展趋势分析等深层知识。从而支撑技术监测预警、人才监测 预警、机构监测分析、科技成果分析、产业链图谱等业务应用。

创新点

技术创新方面,一是科技异构数据知识抽取与统一表示技术。提出多源科技数据深度 采集与结构化知识抽取方法;解决科技大数据非结构化科技数据获取难、细粒度结构化知 识不易抽取、多来源异构数据缺乏有效结构化统一表示、难以融合等问题;二是科技知识图谱快速构建。基于知识计算引擎,解决在科技知识图谱中自动化构建效率低、跨领域隐 含知识推理能力弱、用户查询意图解析难等问题。 应用创新方面,面向业务应用,针对科技产业数据的层次关系、时序关系、属性关系 的发现、关联、融合分析技术,解决知识融合多源关系和属性预测的难题,解决领域知识 图谱多层属性融合和时序演化预测准确率低等问题,支持知识计算引擎驱动的科技产业深 层情报的高效分析。

应用成效

经济效益方面,基于海量的科技产业数据,中外专利数据 4500 万 +,中外论文 2.1 亿篇, 中外科研项目 300 万 +,中外人才 1.1 亿 +,中外企业 / 机构 800 万 +,技术领域标签 74 万 +,海量数据在实际融合处理中,产生明显乘数倍应用效益。成果为中国工程院、中国 科学技术发展战略研究院、军事科学院、天津市、河南省等 5 家重要科技单位提供全球 科技情报实时监测预警。提升相关科技部门对海量科技产业信息的采集、管理与分析效能, 预测国家、特定产业重大科技趋势,为国家和地方的科技产业发展提供量化决策支撑。 社会效益方面,提升政府科技服务效能,促进智慧政府发展。 一是成果的问题解析技 术应用于国家网络安全宣传周的线下知识问答互动,服务政企单位 5000 余人次,提升公 众的网络安全技能;二是知识快速构建技术应用于“疫情通”信息服务模块,疫情期间服 务全国 267 万余人次,为特殊时期防疫抗疫做出重要贡献;三是专家库应用于中原科技 城“人才引进一件事”,实现毫秒级人才审核,服务 16 个国家及地区 10 余万人次,首 创河南人才服务新模式。