查看原文
其他

浅谈知识图谱-KG

叉烧 CS的陋室 2022-08-08

首先说一段题外话,本公众号已经开放了原创功能,已经支持留言、原创标识等内容,可喜可贺!但是,链接虽然能发了,但是并不能发外链,只能发我公众号的内容,抱歉orz。当然,好消息是大家可以拉到下面进行评论哈(放心,沙发属于我自己的,你们抢板凳吧)~还有,涉及到的参考文献我会放在文章最后的参考文献中,方便各位进一步阅读。


下面先试试內链靠不靠谱:

上一篇:离开“保姆式”教学之后


正文开始:

最近在看关于知识图谱方面的内容,现在停留在了解阶段,了解其定义和简单用法,对知识图谱的运用目前下面是我对知识图谱的理解,说说我对其的看法。

什么是知识图谱1

在百度、维基等百科工具中已经有比较完整的定义,经过个人阅读,给出的定义如下:

通过数据以及一定的业务逻辑构建形成基于“实体-关系”的结构图,通过该图可以进行深度挖掘以获取更加深层的知识,这种技术称为知识图谱(Knowledge Graph)


狭义的知识图谱指的就是图谱本身,而广义的知识图谱其实包含了其建立、存储、使用等技术,形成一个巨大的技术框架,各种技术围绕着知识图谱进行。下面给出一个例子(来自参考文献9):

上面这种形式就是知识图谱,来源于知乎的用户讨论的文本数据。每个点上都有一个标签,如中间的红点表示是“数据”这个词,两点之间的连接线表示关系,被连接上的两点存在一定的关系(这个关系和业务逻辑以及计算方法有关),在这张图中,“数据”和“数据结构”被连在一起,说明这两者存在关系,从作者的算法看来,应该是话题相关,当网友在他讨论“数据”话题是很可能讨论的就是“数据结构”话题。


类似技术2

基于“图”的数据结构已经比较有名,而之前最为流行的一项技术应该就数语义网了。直接给例子说说什么是语义网(来自参考文献1):

和知识图谱不同的应该就是他的边,也就是连线,含义比知识图谱要多,线上有(isa,livesin之类的属性)而且是有向边(从一个结点指向另一个节点,线是有方向的),这就是语义网。


相比语义网,知识图谱肯定是有很大优势,主要体现在下面几点:

  1. 语义网的建立一般是基于常识或者是专家的知识建立的,存在一定的主观性,而知识图谱是基于数据本身建立的,数理逻辑性强,客观性强

  2. 只能研究特定的知识,特定的关系,对关系不清楚的不好界定导致在构建的时候很可能存在错误;知识图谱的构建都是基于数据的关系,如关联规则等,不需要分析深层次的关系,例如对象实体的关系还是总体部分的关系等。

  3. 语义网具有一定的文本挖掘功能,但是由于并非基于数据建立,其信息量非常有限,而知识图谱则可以通过数据之间的关系发掘更多深层次的知识

能做什么3

目前知识图谱没有形成完整的知识体系,但是已经由很多前沿的技术部门和公司已经开始广泛使用,目前最火的应该是Google的知识图谱,已经应用在搜索引擎中方便向用户推荐和检索词有关的其他内容,这个“有关”,就来源于知识图谱,因为墙的原因,我用百度代替演示一下:

不知道大家有没有注意到,以前搜索情人节并不会出现下面很大张的日历,现在是有了,另外还有右侧的推荐栏有相关节日和情人节适合送女生的礼物,内容更加丰富。


首先,我输入情人节之后,系统需要分析情人节是什么,这个分析是放在知识图谱中的,情人节可能是节日,当然也可能不是如《海贼王》中有一个“Mr. 情人节”,这是一个动漫人物,通过用户的搜索频率等信息可以分析出用户更加可能在搜索节日,于是识别其为节日。


识别为节日之后,系统就会为你整理关于节日用户常需要的内容,如日期等,像是一个套餐,你点了里面就会有汉堡薯条和可乐,在这里,百度给出了情人节日期还有其他的如宜忌等信息。右侧还有和情人节有关的内容,想必是和情人节有“关系”。


从上面可以知道,知识图谱在进行检索、推荐时具有很高的性能,能结合用户喜好、热点等因素为用户提供更加丰富的内容,提升用户体验。


再举一个例子说说其推理能力,这个能力其实在语义网中已经存在,但是性能更高,局限性毫无疑问地更小。这个例子是刑侦领域的,涉及身份洗白的搜索。

A是一名罪犯,但是最近他的活动突然就没了,之前可以知道,A和BCDE四个人的交流都很频繁,而最近,有一个新任务出现在关系网中,是a,这个人和其中的BDE关系很密切,而且这个a的突然出现并无任何征兆,原来和这几个人完全无交集。由于a的这几项特征,我们有理由相信,A很可能洗身份洗成了a,a无犯罪前科,其实是想洗白身份,以便进行下一步的犯罪活动。


在这个案例中,知识图谱为刑侦科提供了重要线索,了解人物关系,从而让企图身份洗白的人无所遁形。在语义网中,每个关系都有特定的性质,如ISA等,而知识图谱并不详细分析这个关系,而是直接进行数据的分析,认为其交流频繁,从而得到“有关系”的结论,而这层结论对探索已经足够,而且计算效率大大提升,里面用到的其实就是简单地通讯记录数据而已。

怎么做4

实质上,知识图谱技术应分为下面四个板块:

  1. 实体提取:一般而言,获取的原始数据都是“脏”的,存在非结构化数据、错误数据、空数据等,需要对数据进行处理,进行处理之后需要分析并且将数据按照一定的结构规范化,形成“实体”,类似一个“对象”,对象中当然会存在各种属性,例如上面提到的罪犯A和洗白后的a。

  2. 关系提取:关系提取是指在抽取出实体之后,通过业务背景和其他数据对实体之间的关系进行分析,了解实体之间的关系,例如A和BCDE之间的关系。其实到这一步,知识图谱已经建立起来了。

  3.  图谱存储:通过将实体和关系通过可视化的方式绘制出来,用户通过直观的观察等方式可以进行初步的分析。最终还要将其存储下来,以便长期使用。

  4. 检索:检索是在建模之后的工作,在需要使用知识图谱是将其拿出用作特定功能,例如知识检索、分析挖掘等。

掌握这4方面的技术,就能利用知识图谱进行各种分析、检索知识、推荐等工作。这个也是“怎么做”的基础。这背后,一方面设计hadoop、spark等大数据技术,也涉及到关联规则,统计学习等数学理论,当然还有服务器等设备,就如元帅排兵布阵,合理使用弓兵、骑兵、盾兵等,才能打胜仗。


说了是浅谈,所以就说到这里,关于详细的相关技术,大家可以阅读下面内容,本文部分内容有参考了下面的资料。


参考文献:

1. 鲍捷. 从语义网到知识图谱——语义技术工程化的回顾与反思[EB/OL]. http://www.wtoutiao.com/p/181x8bc.html.

2. 王昊奋. 知识图谱技术原理介绍[EB/OL]. http://www.36dsj.com/archives/39306.

3. 知乎. 中文知识图谱构建思路是什么?[EB/OL]. https://www.zhihu.com/question/26385031.

4. 黄桦. 企业级大数据知识图谱产品构建与应用[EB/OL]. http://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653160477&idx=1&sn=fd76194c9bdefd5d4547e4710bf21bc2&mpshare=1&scene=1&srcid=0209q2i0LTrHUoHK1AdMwZ3X#rd.

5. 汪洋兽. 知识图谱初探与应用[EB/OL]. http://chenhaiqing9-163-com.iteye.com/blog/2204214.

6. china_guan. 搜狗知识图谱方案[EB/OL]. http://wenku.baidu.com/link?url=gBvUyM6XrPlrjeEBNA73fNvacDNly3tF9d2kUlZj7gpqq1E2eZYHpBgkupc3zrmSSTYHaRJlVbRECADp9Tx2K2Zrj3w4lKbBdXCTFUQAheK.

7. 万物云. 技术人,为什么需要构建知识图谱[EB/OL]. http://www.wanwuyun.com/pages/news/480.html.

8. CSDN. 知识图谱[EB/OL]. http://www.csdn.net/tag/%25E7%259F%25A5%25E8%25AF%2586%25E5%259B%25BE%25E8%25B0%25B1.

9. 笑虎. 春节福利:“知乎话题关系可视化”代码[EB/OL]. https://zhuanlan.zhihu.com/p/24932721.

微信:zgr950123
QQ:545281848欢迎关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存