知识图谱本质上是一种结构化的语义网络
其节点代表实体或概念
边代表实体/概念之间的各种语义关系
知识图谱(Knowledge Graph)也叫语义网络(Semantic NetWork)。其初衷是为了提升搜索引擎的能力,增强用户的搜索质量以及搜索体验。
知识图谱又称科学知识图谱,用各种不同的图形等可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。
知识图谱是用图谱的形式表示知识
知识图谱可以看作一张图,节点表示实体或概念、边表示属性或关系构成
实体:具有可区别性且独立存在的某种事物
概念(语义类):具有同种特性的实体构成的集合
内容:通常作为实体和语义类的名字、描述、解释等,可以由文本、图像、音视频等来表达
属性值:描述资源之间的关系,即知识图谱中的关系
关系:把k个图节点(实体、语义类、属性值)映射到布尔值的函数
数据层
模式层
根据是先确定数据模型再收集具体数据,还是先收集具体数据再确定数据模型,将知识图谱分为自顶向下和自下向上的构建方式
自顶向下的构建方式,指先确定知识图谱的数据模型,再根据模型去填充具体数据。
数据模型的设计,是知识图谱的顶层设计,根据知识图谱的特点确定数据模型,就相当于确定了知识图谱收集数据的范围,以及数据的组织方式。
适用于行业知识图谱的构建,对于一个行业来说,数据内容,数据组织方式相对来说比较容易确定。比如对于法律领域的知识图谱,可能会以法律分类,法律条文,法律案例等的方式组织。
自下向上的构建方式,是指先按照三元组的方式收集具体数据,然后根据数据内容来提炼数据模型。
一般公共领域的知识图谱采用这种方式。
先把所有的数据收集起来,形成庞大的数据集,然后再根据数据内容,总结数据的特点,将数据进行整理、分析、归纳、总结,形成数据模型
知识图谱的原始数据类型一般来说有三类
结构化数据(Structed Data):如关系数据库
半结构化数据(Semi-Structed Data):如XML、JSON、百科
非结构化数据(UnStructed Data):如图片、音频、视频、文本
如何存储这三类数据类型
基于表结构的存储采用二维数据表的方式存储数据,例如三元组表、属性表以及关系数据库
基于图结构的存储可以使用图数据库
RDF(Resource Description Framework)存储
- Subject:通常是实体、事实或者概念中的任何一个。
- Predicate:通常是关系或者属性。
- Object:既可以是实体、事件、概念,也可以是普通的值。
图数据库存储
- 节点(node):通常表示实体,例如人员、账户、事件等,节点可以有属性和标签
- 边(edge):又被称为关系(relationships),具有名字和方向,并有开始节点和一个结束节点,边是图数据库中最显著的一个特征,在RDBMS中没有对应实现。
- 属性(properties):类似KV数据库中的键值对,节点和边都可以有属性
从原始的数据到形成知识图谱,经历[知识抽取、知识表示、知识融合和知识推理]四个过程
从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱
结构化数据处理
半结构化数据处理
采用包装器的方式进行处理
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序
包装器归纳主要包括网页清洗、网页标注、包装器空间生成、包装器评估、包装器归纳结果等步骤
非结构化数据处理
实体抽取(命名实体识别):实体包括概念,人物,组织,地名,时间
关系抽取:实体和实体之间的关系
属性抽取:实体的属性信息
子主题 5
将多个来源的关于同一个实体或概念的描述信息融合起来
知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。
挑战
数据质量的挑战
数据规模的挑战
知识加工主要包括三方面内容:本体抽取、知识推理和质量评估
本体抽取
本体(ontology)是指公认的概念集合、概念框架,如“人”、“事”、“物”等
人工编辑
自动化本体构建
知识推理
质量评估
1 在知识图谱的构建中,知识提取包括
[实体抽取]
[关系抽取]
[属性抽取]
2 在知识图谱中先搜集数据然后建立本体的构建过程,采用了[自下向上]的构建方式
3 知识图谱在逻辑上可以由“实体—关系—实体”三元组,或者“实体-属性—属性值”构成,实体间通过关系相互联结,构成网状的知识结构
4 从知识图谱数据组织的架构来看,可以把知识图谱的数据分为两个层次,一个是[模式层],另一个是[数据层]