《知识图谱标准化白皮书》
# 1. 知识图谱标准化
# 2. 背景
## 2.1. 柏拉图知识定义核心要素
- 合理性
- 真实性
- 被相信
## 2.2. 知识图谱定义
- 结构化形式
- 概念,实体及其关系
## 2.3. 发展阶段
- 起源1955-1977
- 1968-语义网络
- 发展1977-2012
- 智能系统
- 知识本体
- 问题求解方法
- 机构知识库
- 繁荣2012-now
## 2.4. 重要性
- 人工智能的重要基石
- 推动智能应用
- 强人工智能发展的核心驱动之一
# 3. 知识图谱需求
## 3.1. 公共安全
- 违法犯罪活动呈现复杂化、动态化、智能化的特征
- 公共信息庞大而且实体关系复杂
- 海量数据快速检索与理解需求难以满足
## 3.2. 数字经济
- 数字经济的发展离不开大规模有效数据的关联
- 将“数据中心”向“知识中心”过渡是数字经济升级发展的重要需求
- 知识图谱成为推动数字经济创新场景下智能应用的重要力量
## 3.3. 金融科技
- 知识图谱能促进金融科技信息技术与开放知识领域的融合
- 知识图谱为金融科技服务于实体经济提供了深度技术
- 知识图谱践行金融科技的风险管理创新机制
## 3.4. 资源优化
- 企业资源优化
- 社会资源优化
## 3.5. 科学研究
- 各学科资源整合困难,学科知识服务有待提高
- 学术网络信息分散,专业群体建设不足
- 识别前沿热点问题,预测技术发展趋势
## 3.6. 制造业转型
- 数据粗放采集管理,智能化应用的水平无法满足工业需求
- 人力成本增加、人员流动率大
- 技术瓶颈、人才断层,导致创新能力不足
## 3.7. 公共健康
- 医疗资源不足、分布不均衡以及效率低下
- 分级诊疗政策难以有效落实
- 医疗行业诊疗规范分散
- 医疗资源浪费现象严重,医疗服务效率有待提高
- 医疗保险监督管理问题
## 3.8. 人文发展
- 知识图谱有助于提升传统文化数据知识化治理水平,拓展传播渠道
- 知识图谱有助于提升休闲娱乐消费体验和发展水平
- 知识图谱助力破解教育资源不平衡
## 3.9. 政府管理
- 政府数据碎片化导致“信息孤岛”现象严重
- 政府数据共享开放缺乏统一标准
- 政府决策缺乏有效数据支撑
- 政府数据应用模式单一
# 4. 推动条件
## 4.1. 计算设备及硬件发展
- 硬件加速
- GPU
- FPGA
- ASIC
## 4.2. 可用数据规模的提升
- 丰富的数据资源储备奠定知识图谱工程化的知识基础
- 数据规模攀升推动知识图谱技术的演进
- 推动知识图谱规模化和商业化
- 新增节点
## 4.3. 算法演进
- 算法在符号主义和连结主义时代对于知识图谱的推动
- 算法在大数据时代对于知识图谱的推动
## 4.4. 数据/知识检索需求攀升
- 精准搜索正在成为搜索引擎的目标和挑战
- 个性化信息的精准智能化推荐成为全新的趋势
## 4.5. 开源知识库建设
- Freebase/Wikidata/Dbpedia, IMDB/MusicBrainz
- 开源知识库辅助知识图谱的知识抽取和本体构建
- 开源知识库推动知识图谱融合,扩大知识图谱规模
## 4.6. 专业人才培养
- 构建新型校园AI人才教学体系
- 构建校企合作培养AI人才
- 优化人才政策、释放人才效能
# 5. 驱动因素
## 5.1. 云计算
## 5.2. 大数据
- 大数据为知识图谱提供数据支撑
- 知识图谱为大数据提供高质量结构化数据
- 知识图谱为大数据提供可靠的先验知识
## 5.3. 物联网
- 物联网为知识图谱构建提供数据支撑
- 物联网为知识图谱的应用提供落地渠道
- 物联网为知识图谱在各行业中相关平台建设提供底层支持
## 5.4. 信息安全
## 5.5. 机器学习
## 5.6. 自然语言处理
- 自然语言处理为知识图谱提供技术支撑
- 知识图谱为自然语言处理提供知识背景
- 自然语言处理推动了知识图谱的自动化构建
- 自然语言处理推动了知识图谱的智能化应用
## 5.7. 计算机视觉
- 知识图谱对于计算机视觉作用主要是弥补深度学习模型对现实世界的大量背景知识的忽略
# 6. 主要技术
## 6.1. 知识获取
- 新增节点通过知识抽取技术从这些不同结构和类型的数据中提取出计算机可理解和计算的结构化数据,以供进一步的分析和利用
- 抽取问题
- 实体抽取
- 关系抽取
- 属性抽取
- 事件抽取
- 方式
- 众包法
- 爬虫
- 机器学习
- 专家法
- 现状
- 面向互联网海量文本数据的知识抽取是研究的主流
- 趋势
- 资源缺乏下的知识抽取
- 面向开放域的知识抽取
- 数据规模可扩展性
- 数据主题鲁棒性
- 跨语言的知识抽取
- 自然语言表达的多样性
- 不同语种在知识表达方式上的差异性
- 跨媒体的知识抽取
- 视觉实体和关系的抽取
- 视觉事件的自然语言描述
- 跨媒体信息融合
## 6.2. 知识表示
- 知识是人类在认识和改造客观世界的过程中总结出的客观事实、概念、定理和公理的集合。
- 现状
- 基于符号的知识表示方法
- 一阶谓词逻辑表示法
- 产生式规则表示法
- 框架表示法
- 语义网络表示法
- 基于表示学习的知识表示方法
- 趋势
- 符号与表示学习的融合统一
- 面向事理逻辑的知识表示
- 融合时空间维度的知识表示
- 融合跨媒体元素的知识表示
## 6.3. 知识存储
- 知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算。
- 存储方式
- 基于表结构
- 三元组表
- 类型表
- 新增节点
- 基于图结构
- RDF资源描述框架
- Property Graph属性图
- Hyper Graph超图
- 存储工具
- 关系型数据库
- 图数据库
- 趋势
- 基于RDF知识表示的分布式存储
- 设计高适应性的知识存储
- 基于LOD(Linked Open Data)的知识存储
- 超图的进一步研究和应用
## 6.4. 知识融合
- 是指对来自多源的不同概念、上下文和不同表达等信息进行融合的过程[维基百科]。
- 现状
- 数据层知识融合技术
- 基于实体知识的链接方法
- 基于篇章主题的链接方法
- 融合实体知识与篇章主题的实体链接方法
- 概念层知识融合技术
- 跨语言知识融合技术
- 现有知识融合工具
- Falcon-AO
- YAM++
- Dedupe
- 趋势
- 短文本及资源缺乏环境下的实体链接方法
- 融合先验知识的端到端深度学习实体链接方法
- 大规模本体的高效匹配方法
## 6.5. 知识建模
> 知识建模是指建立知识图谱的数据模型,即采用什么样的方式来表达知识,构建一个本体模型对知识进行描述
- 方向
- 自顶向下
- 自底向上
- 建模方法
- 手工建模方式
- 明确领域本体及任务
- 模型复用
- 列出本体涉及领域中的元素
- 明确分类体系
- 定义属性及关系
- 定义约束条件
- 半自动建模方式
- 基于结构化数据
- 基于半结构化数据
- 基于非结构化
- 模型评价
- 明确性客观性
- 完全性
- 一致性
- 最大单调可扩展性
- 最小承诺
- 易用性
- 趋势
- 与自动语义处理算法结合
- 全自动建模方式
- 快速集成现有模型
## 6.6. 知识计算
> 知识计算是基于已构建的知识图谱进行能力输出的过程,是知识图谱能力输出的主要方式
- 目标
- 针对
- 不完备性
- 存在错误信息
- 提高
- 完备性
- 知识的覆盖面
- 代表性能力
- 知识统计与图挖掘
- 知识推理
- 现状
- 知识统计与图挖掘
- 图查询检索
- 图特征统计
- 关联分析
- 节点分类
- 异常检测
- 预测推理
- 时序分析
- 知识推理
- 智能搜索
- 智能推荐
- 智能问答
- 趋势
- 基于小样本学习的知识计算
- 面向一致性动态变化的知识计算
- 面向多远关系和多源信息的知识计算
## 6.7. 知识运维
> 知识运维是指在知识图谱初次构建完成之后,根据用户的使用反馈、不断出现的同类型知识以及增加的新的知识来源进行全量行业知识图谱的演化和完善的过程,运维过程中需要保证知识图谱的质量可控及逐步的丰富衍化。
- 关注点
- 从数据源方面的基于增量数据的知识图谱的构建过程监控
- 通过知识图谱的应用层发现的知识错误和新的业务需求
- 现状
- 基于增量数据的知识运维
- 图谱内容统计监控
- 知识审核与修正
- 知识版本管理
- 知识安全管理
- 知识容灾备份
- 趋势
- 知识图谱的全生命周期质量保障
- 多知识图谱的运维管控
# 7. 应用
## 7.1. 智慧金融
> 智慧金融作为一个有机整体,知识图谱提供了金融领域知识提取、
融合、分析、推断、决策等功能。
- 金融监管
- 资本市场监管
- 新型金融监管
- 债券市场风险
- 个人系统反欺诈
- 反洗钱
- 金融机构应用
- 风险预测
- 智能投顾和智能投研
- 智能营销
- 智能搜索可视化
- 金融服务
- 银行信贷风险评估
- 银行客户生命周期价值评估
- 失联客户管理
## 7.2. 智慧医疗
- 治疗过程智能辅助
- 安全合理用药辅助
- 临床辅助决策
- 安全用药
- 患者智能服务
- 医疗知识服务和智能助理
- 智能分诊导诊
- 辅助问诊
- 医学研究教学
- 医疗文献辅助阅读与洞察
- 医疗信息搜索引擎
- 辅助药物研发
## 7.3. 智能制造
- 石油化工领域
- 辅助生产操作控制
- 生产预测
- 生产异常追溯
- 钢铁行业生产知识整合
- 设备制造商全数据链整合
## 7.4. 智慧教育
> 我国目前已发布多项政策,加速推动教育信息化进程,逐步落实智慧教育,其中包括《国家中长期教育改革和发展规划纲要(2010-2020年)》、《国家教育事业发展“十三五”规划》、《教育部2018工作要点》等。智慧教育市场的巨大发展潜力吸引了诸多企业涌入,并尝试从不同角度切入市场,其中涉及百度、阿里巴巴、腾讯、网易、新东方和沪江等企业。
- 应用
- 智慧课堂
- 智能备课
- 智能答疑
- 高考智能估分
- 个性化教学资源推荐
- 学习成效分析
- 智能校园管理
## 7.5. 智能政务
> 智慧政务即通过“互联网+政务服务”构建智慧型政府,利用云计算、移动物联网、人工智能、数据挖掘、知识管理等技术,提高政府在办公、监管、服务、决策中的智能水平,形成高效、敏捷、公开、便民的新型政府,实现由“电子政务”向“智慧政务”的转变。
> 知识图谱的意义在于将大规模、碎片化的多源异构政务数据进行关联,以实体为基本单位对政务数据进行挖掘分析,揭示各实体间的复杂关系,实现知识层面的数据融合与集成,更大程度释放政务数据价值,为政府部门、企业、非营利组织、企业、公民提供知识服务。
- 知识图谱在政策公文领域的应用
- 知识图谱在医保审计的应用
- 知识图谱在辅助行政审批的使用
## 7.6. 智慧司法
> 使司法机关在审判、检查、侦查、监管职能各方面得到全面的智慧提升,实现社会治理、公共法律服务等的智慧化。
- 搜索引擎构建
- 证据索引
- 类案检索及推送
- 结果预判
- 证据分析
- 文书生成
- 智慧调解
## 7.7. 智慧交通
- 知识图谱在人车识别中的应用
- 知识图谱在路径规划中的应用
- 知识图谱在交通诱导中的应用
## 7.8. 智能电网
> 智能电网以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。
- 电力设备缺陷记录检索
- 电力公司客户服务
- 智能变电站二次安全措施自动生成
- 全业务统一数据中心
- 设备故障诊断与管理
## 7.9. 智能公安
> 智能公安是利用互联网、物联网、人工智能、云计算、智能引擎、视频技术、知识图谱等技术为支撑,以公安信息化为核心,通过互联化、物联化、智能化的方式,促进公安系统各个功能模块高度集成、协调运作,实现警务信息“强度整合、高度共享、深度应用”之目标的警务发展新理念和新模式。
- 全息档案研判
- 人物画像
- 案件画像
- 战法应用
- 高危人员分析研判
- 嫌疑人分析模型
- 串并案分析模型
- 伴随分析模型
- 时空轨迹研判
- 情报检索与分析
- 深度语义检索
- 警务知识问答
- 网络有害信息识别
- 事件预警
- 群体性事件预警
- 社会稳控事件预警
## 7.10. 智慧农业
- 农业信息服务
- 信息检索
- 信息问答
- 产业指导
- 农产品推荐
## 7.11. 社交网络
- 社交搜索
- 餐饮娱乐
- 智能搜索
- 辅助决策
## 7.12. 新零售
> 电商认知图谱是一个以用户需求为中心,连接商品、用户、购物需求,以及各类开放领域知识、常识的大规模语义网络。
- 电商搜索
- 电商推荐
## 7.13. 智慧外交
- 全球新闻事件整合
> GDELT(Global Database of Events, Languages, and Tone,全球新闻整合数据库)作为该方面的代表系统。
- 全球多摸套信息整合
## 7.14. 智慧城建
- 城市人口承载力知识图谱
- 城市市政公用设施知识图谱
- 城市经济承载力分析
# 8. 存在的挑战
## 8.1. 数据相关挑战
- 数据源
- 自由数据
- 外源数据
- 多源数据歧义大、噪声大
- 数据相关性不明确
## 8.2. 算法相关挑战
- 现有技术存在的算法挑战
- 知识抽取
- 制约条件多的方法扩展性不强
- 基于大规模开发域的知识抽取研究仍处于起步阶段
- 知识融合
- 指代消解
- 实体对齐
- 实体链接
- 误差层层传递
- 知识计算
- 需要大量样本
- 算法性能的挑战
- 算法泛华能力差
- 严重依赖现有数据集
- 算法鲁棒性差
- 算法多样化,缺乏统一的评测指标
- 算法可解释性的挑战
- 随着模型复杂性的增加,模型可解释性按照同样的速度降低。
## 8.3. 基础知识库相关的挑战
- 基础知识库融合的挑战
- 垂直领域支持库构建的挑战
- 基于知识库不愿开放的挑战
## 8.4. 开发工具相关的挑战
- 贯穿知识图谱全生命周期的平台缺失
- 算法、工具、专家间人机协同有待提升
- 基于文本的知识图谱构建工具性能弱
- 跨语言语系的知识图谱构建共建工具有待突破
- 知识图谱中间件有待建设
## 8.5. 隐私、安全和伦理相关的挑战
- 应用/接口数据安全风险管理
- 敏感数据发现和风险评估
- 数据安全异常行为分析
- 数据安全事件溯源取证
- 知识图谱的4A安全管理
- 4A:认证、账号、权限、审计
- 模型与图谱内容质量安全
- 以数据为中心的审计与保护
## 8.6. 测试认证相关的挑战
- 知识图谱测试与评估涉及的环节众多
- 知识图谱测试与评估的方法缺失
- 知识图谱测试与评估标准空白
- 标准测试集建设迟滞
- 测试人员及机构资质要求不明确
## 8.7. 商业模式相关的挑战
- 客户内生驱动力不足,大规模盈利模式不清晰
- 知识图谱构建与应用标准化模块推广受限
- 数据获取受法规约束大
## 8.8. 人才相关的挑战
- 人工智能相关人才整体缺口大
- 多技术交叉复合型人才缺口大
- 具备深厚行业背景的人才缺口大
# 9. 标准化现状与需求
## 9.1. 知识图谱标准化现状
- 国际与国外标准化现状
- W3C
> 在知识图谱领域,W3C相关标准化工作主要集中在语义网知识描述体系方面,研制与发布XML、RDF、SPARQL、RDF Schema、OWL等系列标准,形成了一系列知识图谱中知识表示关键技术标准.
- ISO/IEC JTC1
> ISO/IEC JTC 1(国际标准化组织/国际电工委员会的第一联合技术委员会)是信息技术领域的国际标准化委员会,已经在人工智能领域进行了二十多年的标准化研制工作,主要集中在人工智能词汇、计算机图像处理、云计算、大数据等人工智能关键技术领域。
> JTC 1/SC 42 人工智能分技术委员会在2018年8月23日发布了《计算方法与人工智能系统研究报告》第二版,并在其中对知识图谱系统以及知识图谱计算方法与特点、知识图谱行业应用进行了论述,同时分析了知识图谱系统标准化需求与标准化可能存在的问题。
- IEEE
> 中国电子技术标准化研究院向IEEE标准协会提报的标准提案《知识图谱架构》(Framework of Knowledge Graph ,项目编号:P2807) 于2019年3月20日正式获批立项,并于2019年8月20日至21日召开IEEE知识图谱工作组(IEEE/C/ SAB/KG_WG)暨标准启动会。
- MUC
> 消息理解会议(Message Under-standing Conference, MUC),主要针对关系抽取概念发布MUC-6、MUC-7评测标准。
- NIST
> 在MUC-7之后,MUC由美国国家标准技术研究院组织的自动内容抽取(Automatic Content Extraction Evaluation, ACE)评测取代,ACE评测标准从1999年开始筹划,2000年正式启动,其中关系识别和检测任务定义了较为详细的关系类别体系,用于两个实体间的语义关系抽取。ACE-2008包括了7大类和18个子类的实体关系,从2004年开始,事件抽取成为ACE评测的主要任务。
- ITU
> 2016年开始进行人工智能相关标准化研究。但前尚未发布知识图谱相关标准以及研制计划。
- 国内标准化现状
- 全国信息技术标准化技术委员会
> 全国信息技术标准化技术委员会(SAC/TC 28)负责对ISO/IEC JTC 1工作,在人工智能领域的标准化研制工作主要集中在术语词汇、大数据、云计算等方面。
## 9.2. 知识图谱标准体系
- 知识图谱标准体系结构
- A:基础共性
- B:数字基础设施
- C:关键技术
- D:产品/服务
- E:行业应用
- F:运维/安全
> 
> 
## 9.3. 知识图谱标准化需求
- 标准制定需求
- 知识图谱架构标准
- 知识表示与建模标准
- 数据标注规范
- 测试方法与评估标准体系
- 标准化工作建议
- 加强知识图谱重点标准研制
- 推进知识图谱标准在各行业中的应用示范
- 参与知识图谱国际标准化工作
# 10. 展望
## 10.1. 趋势展望
- 技术展望
- 在知识获取方面,资源缺乏、面向开放域、跨语言及跨媒体等方向的知识抽取正在成为未来的研究方向;
- 符号与表示学习的融合统一、面向事理逻辑的知识表示、融合时空间维度的知识表示、融合跨媒体元素的知识表示正在成为未来的研究方向
- 基于RDF知识表示的分布式存储、涉及高适应性的知识存储、基于LOD(Linked Open Data)的知识存储、Hyper Graph的进一步研究和应用正在成为未来的研究方向
- 应用展望
- 智能语义搜索
- 深度问答
- 演化分析
- 对话理解
-标准化展望
> 知识图谱领域基础共性及关键技术标准将不断涌现,依托正在研制的知识图谱技术架构等标准,通过聚焦核心标准化需求逐步建立基本的知识图谱标准体系并孵化典型行业中的知识图谱应用标准,形成国际标准、国家标准、行业标准和团体标准良性互动的局面。
## 10.2. 支持与监管政策相关建议
- 加强知识图谱标准化顶层设计与统筹推进机制
- 加强知识图谱重点领域标准研制和应用示范
- 加快知识图谱标准符合性测试工具和平台建设
- 加快知识图谱公共服务平台建设
- 成立知识图谱产业联盟
## 10.3. 技术开发与应用相关建议
- 加强知识图谱核心关键技术支持与突破
- 加强知识图谱优秀解决方案/产品展示与推广
- 加强通用和领域知识图谱开放平台建设
- 加强知识图谱与其他人工智能技术的融合
- 加强知识图谱相关人才培养


雷达卡



京公网安备 11010802022788号







