浅谈知识图谱-KG

Original 叉烧 CS的陋室 2022-08-08

首先说一段题外话，本公众号已经开放了原创功能，已经支持留言、原创标识等内容，可喜可贺！但是，链接虽然能发了，但是并不能发外链，只能发我公众号的内容，抱歉orz。当然，好消息是大家可以拉到下面进行评论哈（放心，沙发属于我自己的，你们抢板凳吧）~还有，涉及到的参考文献我会放在文章最后的参考文献中，方便各位进一步阅读。

下面先试试內链靠不靠谱：

上一篇：离开“保姆式”教学之后

正文开始：

最近在看关于知识图谱方面的内容，现在停留在了解阶段，了解其定义和简单用法，对知识图谱的运用目前下面是我对知识图谱的理解，说说我对其的看法。

什么是知识图谱1

在百度、维基等百科工具中已经有比较完整的定义，经过个人阅读，给出的定义如下：

通过数据以及一定的业务逻辑构建形成基于“实体-关系”的结构图，通过该图可以进行深度挖掘以获取更加深层的知识，这种技术称为知识图谱（Knowledge Graph）。

狭义的知识图谱指的就是图谱本身，而广义的知识图谱其实包含了其建立、存储、使用等技术，形成一个巨大的技术框架，各种技术围绕着知识图谱进行。下面给出一个例子（来自参考文献9）：

上面这种形式就是知识图谱，来源于知乎的用户讨论的文本数据。每个点上都有一个标签，如中间的红点表示是“数据”这个词，两点之间的连接线表示关系，被连接上的两点存在一定的关系（这个关系和业务逻辑以及计算方法有关），在这张图中，“数据”和“数据结构”被连在一起，说明这两者存在关系，从作者的算法看来，应该是话题相关，当网友在他讨论“数据”话题是很可能讨论的就是“数据结构”话题。

类似技术2

基于“图”的数据结构已经比较有名，而之前最为流行的一项技术应该就数语义网了。直接给例子说说什么是语义网（来自参考文献1）：

和知识图谱不同的应该就是他的边，也就是连线，含义比知识图谱要多，线上有（isa，livesin之类的属性）而且是有向边（从一个结点指向另一个节点，线是有方向的），这就是语义网。

相比语义网，知识图谱肯定是有很大优势，主要体现在下面几点：

语义网的建立一般是基于常识或者是专家的知识建立的，存在一定的主观性，而知识图谱是基于数据本身建立的，数理逻辑性强，客观性强。
只能研究特定的知识，特定的关系，对关系不清楚的不好界定导致在构建的时候很可能存在错误；知识图谱的构建都是基于数据的关系，如关联规则等，不需要分析深层次的关系，例如对象实体的关系还是总体部分的关系等。
语义网具有一定的文本挖掘功能，但是由于并非基于数据建立，其信息量非常有限，而知识图谱则可以通过数据之间的关系发掘更多深层次的知识。

能做什么3

目前知识图谱没有形成完整的知识体系，但是已经由很多前沿的技术部门和公司已经开始广泛使用，目前最火的应该是Google的知识图谱，已经应用在搜索引擎中方便向用户推荐和检索词有关的其他内容，这个“有关”，就来源于知识图谱，因为墙的原因，我用百度代替演示一下：

不知道大家有没有注意到，以前搜索情人节并不会出现下面很大张的日历，现在是有了，另外还有右侧的推荐栏有相关节日和情人节适合送女生的礼物，内容更加丰富。

首先，我输入情人节之后，系统需要分析情人节是什么，这个分析是放在知识图谱中的，情人节可能是节日，当然也可能不是如《海贼王》中有一个“Mr. 情人节”，这是一个动漫人物，通过用户的搜索频率等信息可以分析出用户更加可能在搜索节日，于是识别其为节日。

识别为节日之后，系统就会为你整理关于节日用户常需要的内容，如日期等，像是一个套餐，你点了里面就会有汉堡薯条和可乐，在这里，百度给出了情人节日期还有其他的如宜忌等信息。右侧还有和情人节有关的内容，想必是和情人节有“关系”。

从上面可以知道，知识图谱在进行检索、推荐时具有很高的性能，能结合用户喜好、热点等因素为用户提供更加丰富的内容，提升用户体验。

再举一个例子说说其推理能力，这个能力其实在语义网中已经存在，但是性能更高，局限性毫无疑问地更小。这个例子是刑侦领域的，涉及身份洗白的搜索。

A是一名罪犯，但是最近他的活动突然就没了，之前可以知道，A和BCDE四个人的交流都很频繁，而最近，有一个新任务出现在关系网中，是a，这个人和其中的BDE关系很密切，而且这个a的突然出现并无任何征兆，原来和这几个人完全无交集。由于a的这几项特征，我们有理由相信，A很可能洗身份洗成了a，a无犯罪前科，其实是想洗白身份，以便进行下一步的犯罪活动。

在这个案例中，知识图谱为刑侦科提供了重要线索，了解人物关系，从而让企图身份洗白的人无所遁形。在语义网中，每个关系都有特定的性质，如ISA等，而知识图谱并不详细分析这个关系，而是直接进行数据的分析，认为其交流频繁，从而得到“有关系”的结论，而这层结论对探索已经足够，而且计算效率大大提升，里面用到的其实就是简单地通讯记录数据而已。

怎么做4

实质上，知识图谱技术应分为下面四个板块：

实体提取：一般而言，获取的原始数据都是“脏”的，存在非结构化数据、错误数据、空数据等，需要对数据进行处理，进行处理之后需要分析并且将数据按照一定的结构规范化，形成“实体”，类似一个“对象”，对象中当然会存在各种属性，例如上面提到的罪犯A和洗白后的a。
关系提取：关系提取是指在抽取出实体之后，通过业务背景和其他数据对实体之间的关系进行分析，了解实体之间的关系，例如A和BCDE之间的关系。其实到这一步，知识图谱已经建立起来了。
图谱存储：通过将实体和关系通过可视化的方式绘制出来，用户通过直观的观察等方式可以进行初步的分析。最终还要将其存储下来，以便长期使用。
检索：检索是在建模之后的工作，在需要使用知识图谱是将其拿出用作特定功能，例如知识检索、分析挖掘等。

掌握这4方面的技术，就能利用知识图谱进行各种分析、检索知识、推荐等工作。这个也是“怎么做”的基础。这背后，一方面设计hadoop、spark等大数据技术，也涉及到关联规则，统计学习等数学理论，当然还有服务器等设备，就如元帅排兵布阵，合理使用弓兵、骑兵、盾兵等，才能打胜仗。

说了是浅谈，所以就说到这里，关于详细的相关技术，大家可以阅读下面内容，本文部分内容有参考了下面的资料。

参考文献：

1. 鲍捷. 从语义网到知识图谱——语义技术工程化的回顾与反思[EB/OL]. http://www.wtoutiao.com/p/181x8bc.html.

2. 王昊奋. 知识图谱技术原理介绍[EB/OL]. http://www.36dsj.com/archives/39306.

3. 知乎. 中文知识图谱构建思路是什么？[EB/OL]. https://www.zhihu.com/question/26385031.

4. 黄桦. 企业级大数据知识图谱产品构建与应用[EB/OL]. http://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653160477&idx=1&sn=fd76194c9bdefd5d4547e4710bf21bc2&mpshare=1&scene=1&srcid=0209q2i0LTrHUoHK1AdMwZ3X#rd.

5. 汪洋兽. 知识图谱初探与应用[EB/OL]. http://chenhaiqing9-163-com.iteye.com/blog/2204214.

6. china_guan. 搜狗知识图谱方案[EB/OL]. http://wenku.baidu.com/link?url=gBvUyM6XrPlrjeEBNA73fNvacDNly3tF9d2kUlZj7gpqq1E2eZYHpBgkupc3zrmSSTYHaRJlVbRECADp9Tx2K2Zrj3w4lKbBdXCTFUQAheK.

7. 万物云. 技术人，为什么需要构建知识图谱[EB/OL]. http://www.wanwuyun.com/pages/news/480.html.

8. CSDN. 知识图谱[EB/OL]. http://www.csdn.net/tag/%25E7%259F%25A5%25E8%25AF%2586%25E5%259B%25BE%25E8%25B0%25B1.

9. 笑虎. 春节福利：“知乎话题关系可视化”代码[EB/OL]. https://zhuanlan.zhihu.com/p/24932721.

微信：zgr950123
QQ：545281848欢迎关注

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

浅谈知识图谱-KG

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

浅谈知识图谱-KG

您可能也对以下帖子感兴趣