BlackWidow:监控暗网中的网络安全信息
原文作者:Matthias Schäfer; Markus Fuchs; Martin Strohmeier; Markus Engel; Marc Liechti; Vincent Lenders
原文标题:BlackWidow: Monitoring the Dark Web for Cyber Security Information
原文链接:https://ieeexplore.ieee.org/abstract/document/8756845
原文来源:2019 11th International Conference on Cyber Conflict (CyCon)
笔记作者:2rrrr@SecQuan
笔记小编:bight@SecQuan
介绍
暗网由于其隐蔽于搜索引擎和普通用户之外,被网络犯罪分子用来提供各类非法服务和商品。在暗网社区中,许多交易的商品都与网络安全领域高度相关,如0day漏洞的信息、某些网站的用户信息数据库或可租用的僵尸网络。这篇论文中,作者提出了BlackWidow,可以对特定的暗网社区论坛进行监测并将收集到的数据融合到一个分析框架中,然后将论坛数据和相应的关系通过知识图谱表示出来,提供给分析人员交互式的搜索功能。实验表明,BlackWidow可以推断出帖子作者与论坛之间的关系,并检测网络安全相关主题的讨论趋势。
方法
Planning & requirements:最初的规划和需求分析阶段是人工方式进行的,首先需要确定下合适的暗网论坛,获取网站的地址,然后根据网站的要求注册帐号并验证,来获得论坛的访问权限。帐号获得访问权后,剩下的步骤将完全自动化进行。 Collection:收集阶段包含Tor连接的建立和数据爬取两个任务。BlackWidow会自动登录已注册好的帐号,并利用nodejs的无头浏览器访问论坛收集数据。这种方式更接近真实用户的行为,可以降低被论坛反爬机制阻止的概率。 Processing:解析阶段首先对收集下来的HTML文件进行解析,获取页面的文本信息,然后使用翻译API将非英语内容转换为英语。BlackWidow设计的知识图谱本体如下图所示,从文本中提取这些实体及关系存入Elasticsearch中。 Analysis:
推断用户间关系:一个帖子是由一个用户发布,然后其他用户在该帖子下方发表回复。从时间顺序来看,如果用户B在用户A之后发表了一个回复,则可以定义用户A到用户B的关系,因为B在A之后的回复可以看作是B与A的交互行为。 识别主题:帖子中的回复内容一般与帖子的主题有关,但不容易了解哪些帖子涉及了相同的主题。BlackWidow使用基于LDA的无监督文本聚类方法,将帖子的回复分组为不同类别,如僵尸网络、数据库、漏洞利用、DDoS等。 识别网络安全趋势:BlackWidow融合了不同论坛的帖子、回复和类别并汇总到一个时间序列中,通过对这些时间序列进行分析,比如短时间内这些序列经历高速增长或下降,一定程度上代表了这段时间内的话题趋势如何。
Dissemination:在提取和分析阶段结束后,BlackWidow支持将数据进行各种类型的可视化并提供查询接口,供分析人员使用。
实验及分析
作者选择了7个论坛进行相关的分析,持续收集数据1年。在作者撰写论文时,只有4个论坛仍然能够访问,这也说明了这类暗网论坛生命周期短、波动性高。
论坛网站结构
论坛规模可以通过帖子数量或用户数量来评估,下面两个图分别是7个论坛的用户数量和帖子数量情况。
论坛间的关系
论坛间的关系通过不同论坛内用户的用户名关联性确定,结果如下图所示。
论坛内用户间的关系
论坛内用户的关系,则通过查看他们共同回复过的帖子来进行确定。下图是论坛4和论坛5的分析结果,图中的点表示单个用户,边则表示了他们存在的关系,节点的大小表示边的数量,以不同颜色表示其中的子社区。
论坛讨论趋势
安全学术圈招募队友-ing, 有兴趣加入学术圈的请联系secdr#qq.com