查看原文
其他

【工具资源】调查记者的开源情报导航器

dingba 丁爸 情报分析师的工具箱 2023-01-02

打击非法资金流动全球方案(GP IFF)支持西巴尔干地区的调查记者为打击非法资金流动的全球议程提供帮助。GIZ与巴尔干调查报道网(BIRN)合作,讨论了适用于记者的开源情报技术。我们希望这个“导航器”将有助于记者的研究和调查,并将被证明是一个有用的工具,这是2019年5月在马其顿北部斯科普里与BIRN记者进行的“记者开源情报”培训的成果。

导航器开发者卢多·布洛克(Ludo Block)和安德烈·彼得罗夫斯基(Andrej Petrovski)。

斯科普里,2019年



【目录】

1、OSINT基础知识

简介

背景

调查和验证

法律和道德

注意事项

备注


2、准备您的系统和工具

系统

浏览器

其他工具

构建链接存储库


3、记录和存档

记录脱机

存档和其他外部存档

文档云


4、运营安全

伪账户

密码使用和2FA

清洁环境

IRL操作安全性


5、搜索引擎

有关搜索的一般说明

谷歌

其他搜索引擎

Wayback


6、社交媒体

脸书

LinkedIn

Instagram

推特


7、人员搜索

电子邮箱

用户名

泄露数据

电话号码


8、影像验证和地理位置

First inspection 

Google, Yandex和Bing反向图片搜索

Google地图和辅助工具


9、公司注册处

当地登记册 

汇总(商业)注册簿

免费资源

替代来源

区域公司注册处


10、元数据研究

网站元数据

Google Analytics(分析)数据

文件元数据


11、深网

深,暗,有什么区别?

Freenet 

ToR


12、数据处理

格式

数据清理

取消透视

1OSINT基础知识

1.1简介

互联网不再只是“超级高速公路”,而已成为数字存档和存储大量数据的地方。每年,人们以推文,发布到Instagram的图片,YouTube上的视频,Facebook上的消息和照片/视频的形式共享越来越多的数据。储存库和数据库会自动填充大量数据,并且旧的存档会被数字化并可以访问。总而言之,大量的数据从我们的电子设备流向更公开的地方。 “ 60秒后在线会发生什么?”信息图形进一步说明了这种情况,尤其是当您回顾前几年的相同信息图表时。本指南旨在帮助您浏览开源中的大量数据,并了解如何收集和分析数据。为此,在本章介绍之后,我们将首先讨论如何准备系统,使用哪些工具,如何记录结果以及如何保持操作安全。您将了解为什么“透视”和“上下文”等概念在在线研究中很重要,当然我们将讨论其中可用的不同(类型)资源。我们希望本指南将帮助您了解整体方法并为您的工作提供帮助。本指南主要是针对巴尔干地区的记者撰写的。举例来说,这意味着本指南将较少的时间用于诸如监管链之类的法律事务,而将较少的时间用于诸如亚洲,非洲和美洲等遥远地区。另一方面,在相关的情况下,我们提供了巴尔干相关数据源的更多覆盖范围,以及与调查记者更相关的数据源。如果不使用许多其他资源,就无法编写本指南。例如,已经使用了Bellingcat指南和教程,Michael Bazzell撰写的OSINT书和SEC487课程指南以及许多其他可用资源。在需要的地方,我们将引用使用的来源并归因于这些来源。


1.2背景

OSINT(开源情报的首字母缩写)通常被用作“开源”的同义词。从技术上讲,这是不正确的,因为数据本身并不等同于“情报”。数据就像离岸实体的所有权记录一样,只是数据,没有上下文就没有意义。只有在你正在写的故事的背景下,这些数据才可能是有意义的,也可能是有趣的拼图的一部分。此外,要使数据变得有意义,需要对数据进行验证和分析。通常用来表示数据、信息和情报之间关系的图形可以在北约开源手册中找到:

虽然我们将在本指南的许多情况下使用首字母缩写OSINT,但我们要强调的是,对您可能收集的所有数据进行验证和分析,以便您在适当的上下文中理解这些数据,这可能是最重要的一点。市场上有大量的数据可供参考。从更经典的意义上讲,收集开源数据主要是指数据是从媒体,档案馆中获取的,如果对公众开放的话,则可能是从某些政府注册表中获取的。数字时代的到来深刻地改变了这一点。不仅在全球范围内产生,传输,存储的数据量呈指数级增长到无法想象的比例,而且,也许更重要的是,数据的性质和可用数据类型已经改变。至少有五个因素是相关的。


首先,今天产生和存储的数据比几十年前成倍增加,并且产生的数据量不断增加。公开提供任何类型问题的相关数据的机会大大增加了。


重要的是,当今产生的数据本质上是数字的,而不是模拟的,一个重要的后果是数字数据易于索引和搜索。例如,将您当前的大学图书馆全文搜索访问权限与古代目录系统进行比较。


第三,数据来源(即互联网)的互联性和模拟数据集的数字化使来自世界各地的数据可以从我们的桌面即时访问。除了可能是一次有趣的经历之外,几乎没有任何理由再为了获取数据而在潮湿的档案中进行艰苦的研究。


此外,还出现了新类型的数据。几十年来,OSINT一直由传统媒体的内容主导,然而,互联网催生了许多新的数据类型。一个关键的例子当然是用户在社交媒体上创建的内容,包括链接、位置、情感以及用户生成的照片和视频。


但也要考虑开放(物联网/政府)数据和“数据泄露数据”。尤其是后一种类型的数据泄露数据,包括互联网上用户活动的数据(如泄露的密码、电话号码和凭证)和泄露的政府注册数据,Bellingcat在其Skripal研究中利用了这种数据泄露数据。


加强OSINT力量的最后一个重要变化因素是计算能力和数字工具对公众的广泛可获得性。虽然收集和处理大型数据集过去是国家(和学术)机构的特权,这些机构可以访问大型主机,但现在公众可以使用大量廉价的工具来收集、处理和分析大型数据集。例如,盗取吉尔吉斯共和国所有公民的个人数据实际上并不那么困难。


1.3调查和验证
开源研究通常有两个目的。首先当然是调查一些可能有数据的感兴趣的东西。收集未知数据是这种情况下的主要目的。调查中出现的问题包括:
我们可以找到关于某个事件、个人或公司的什么信息?
谁与谁有联系,谁是某家公司的幕后黑手?
,这个人在某一时刻身处何处?

另一个目标往往是对提交的数据进行核实,或者换句话说,“事实核查”,这在我们这个时代可能更加重要。验证中出现的问题包括:
那个时候这个人去过那个地方吗?
他们提供的数据是否正确和完整?
他们会发布很多这样的内容吗,他们知识渊博吗?
你能找到他们的其他数据和交叉引用吗?

开源中可以通过互联网访问的信息量是巨大的。不过,请记住,从屏幕上看,您只能看到一个虚拟世界,这一点很好。现实世界可能会有所不同。打电话给一位有当地知识和/或会说当地语言的友好记者通常会非常清楚。有时这还不够,你只需要走出去,到实地去,自己核实事实就行了。

1.4法律和伦理方面的考虑
虽然我们将在本指南中讨论的数据是“开放的”,因为每个人都可以在不经过黑客攻击的情况下获取这些数据,但根据您所在的国家或您所在的组织的不同,可能会有法律上的限制和要求。从公开来源收集和使用数据当然有伦理方面的考虑。


一个重要的法律考虑因素可能是数据保护法规,具体地说是2018年5月25日生效的欧盟一般数据保护条例(GDPR)9。GDPR第85条豁免为新闻目的(“公共利益”)处理个人数据,不受GDPR的许多限制和规则的约束。但是,各国对该条的执行情况可能有所不同。尽管第85条向成员国发出了明确的指示,但一些成员国已经制定了在处理属于新闻目的豁免之前必须满足的条件。我们只能强调,您一定要了解您发布/收集数据所在国家的法律情况。有一些案例,例如罗马尼亚和匈牙利,当局利用GDPR骚扰记者。


除了潜在的法律考虑之外,使用来自公开来源的数据可能还需要伦理考虑。你会如何处理可能会伤害旁观者的抵押品发现?你在你的出版物中披露信息是否成比例,这是否真的符合公众利益?您可能已经有了关于这些问题的组织政策,请确保它也适用于来自开源的数据。


虽然我们从开源数据收集的原则出发,我们不会通过黑客、窃取或撒谎来获取数据,但当然也存在灰色地带。例如,以下情况可能处于灰色地带:

-使用虚假的社交媒体帐户(‘角色’)查看个人资料/连接到您正在研究的人的个人资料。这通常会违反社交媒体平台的条款,但这是为了保护您自己。这是一种被接受的做法吗?

-使用“泄露”的数据(维基解密、离岸泄露、复制的官方数据库、“数据泄露”数据)。严格来说,你没有偷那些数据,但它是在某个地方被偷的。你的组织有关于使用这类数据的政策吗?

-谷歌“Dorking”和使用Shodan访问不安全的设备或使用默认密码的设备。


从技术上讲,你并不是“闯入”一个系统,但同时,你也不应该出现在那里。确保你了解你个人在这些灰色地带的立场,并确保你所在组织的立场是什么。我们假设您将使用道德新闻的五个核心原则作为指导:

-准确性-不对事实进行欺骗性的处理;

-独立性-不代表任何其他人-对您所做的事情的透明度;

-公平和公正-认识到一个故事有更多的方面;

-人道-意识到您发布的内容的后果;

-问责-承认并纠正您的错误;


1.5备注
本简介的最后一个注解。本指南中引用了许多来源。然而,没有什么比互联网变化更大的了。在撰写本指南时(2019年4/5月),所有指向这些来源的链接都在运行,但此后可能已更改并消失。


2、准备您的系统和工具

本指南中编译的方法和技术大多基于免费或廉价的工具,每个拥有台式机的笔记本电脑的人都可以使用或很容易获得这些工具。虽然我们承认有各种专门的工具可用于收集和分析来自开源的数据,但我们不会讨论这些工具有两个原因。第一个原因很简单,那就是价格。这些工具中的许多都相当昂贵,实际上大多数媒体和记者都负担不起。其次,我们认为,通过使用简单的工具学习贸易技术可以提供更坚实的技能和经验基础。虽然工具可以通过获取更大的数据集来提供帮助,但这些工具不能取代经验丰富的开源研究人员的技能和坚韧不拔的精神。因此,在本指南中,我们将主要使用免费的基本工具。我们将讨论如何设置您的系统、浏览器、其他工具,以及如何为您的工作创建资源集合。


2.1系统
对系统的选择可能是您必须做出的最基本的选择。为了便于使用,许多人选择使用自己的笔记本电脑进行OSINT工作。虽然在某种程度上这是可以理解的,但它会让你面临重大风险。研究开源意味着你点击的东西比一般的要多。因此,您可能会意外地遇到恶意软件,这些恶意软件会感染您的笔记本电脑,并可能带来灾难性的后果,具体取决于笔记本电脑上的数据量。此外,特别是如果你是一名调查记者,你可能会成为那些你写作的对象的靶子。您吸引的恶意软件可能不是随机的。

有几种选择,其中一些需要额外的资金,一些需要技术知识。最常用的选项是:

使用单独的笔记本电脑进行OSINT工作,并且只将相关调查结果导出到您的个人系统或组织系统/存储库。如果笔记本电脑被感染,您可以擦拭它,然后重新安装。但是,此解决方案需要额外的资金;

使用虚拟机(VM),并且仅将相关调查结果导出到您的个人系统或组织系统/存储库。VM可以是任何操作系统(OSX、Windows、Linux),但大多数情况下Linux和OSX可能比Windows更受欢迎。有不同的VM可用于OSINT工作,例如预装了所有工具的Buscador。您可以轻松地使用干净版本的VM启动每个研究项目,因此还可以避免研究结果的交叉污染。您确实需要一些额外的技术知识,并且需要获得一些linux技能;

使用Athentium 8的Silo浏览器,它在您每次启动Silo时都会给您一个安全的云实例。您可以根据需要浏览和保存任意数量的内容,并且只将实际的相关调查结果下载到您的笔记本电脑上。浏览器也隐藏你的IP和位置,你访问的网站。还有一些相关的费用,大约150美元/年。此外,Silo浏览器不像其他浏览器那样可自定义。


花点时间思考一下需求。你有预算吗?是时候学习新技能了吗?你是唯一一个在工作的人,还是应该寻找适合团队的解决方案?

2.2浏览器
无论你选择什么系统,你的主要工具,你通往开源在线世界的窗口都是你的浏览器,所以选择和定制它,需要同样多的关注。目前有几十种浏览器可供选择,讨论所有这些浏览器是不可行的。有两款浏览器是最常用于开源数据收集的:Firefox和Chrome。请确保无论您选择哪种浏览器,您都能理解它。花点时间了解和调整浏览器的不同隐私和安全设置以及屏幕配置。Firefox和Chrome都有能力在广告中添加许多扩展或附加组件,每个扩展或附加组件都为浏览器提供了功能。您可以在浏览器中搜索扩展名,


对OSINT工作有用的常用扩展包括:
EXIF查看器-快速查找在线照片中是否有EXIF信息;
的HTTPS Everywhere--越来越不相关,但会强制你通过HTTPS(安全)而不是通过Http建立的所有连接;
用户代理切换器-允许您选择您访问的站点如何查看您的系统和浏览器。这可能有助于混淆你是谁,但网站对不同的系统和浏览器的反应也不同;
Location Guard-允许您选择您要访问的位置。
RevEye-只需单击鼠标右键即可连接到四个反向搜索引擎。
CopyFish-光学字符识别和翻译照片和视频中的文本。
隐私徽章-阻止广告/跟踪器uBlock原始块脚本。
IP和域名信息--只需单击鼠标右键即可显示域名上的IP和域名信息;

视频下载器-有几个用于从多个来源下载视频的扩展。有一台很方便,但哪一台工作得最好取决于系统;


2.3其他工具
除了浏览器之外,还有多个工具可用于研究开放源代码以及分析和呈现数据。下面我们简要列出一些我们建议使用的工具。

TweetDeck-免费的桌面推特应用程序,可以帮助您构建对推特列表和/或关键字的监控;

Google Earth Pro-使用Google Earth Pro查找和查看全球各地的位置比浏览谷歌地图更容易,您可以在不同的图像日期之间进行选择(因此可以看到随时间发生的变化),界面速度也比Google地图更快;

Keepass(XC)-密码管理器是必须的,才能以安全的方式跟踪您的密码。请参阅第4章

OpenRefine-当您收集大量定量数据时,数据清理通常是最费力的。Excel提供了帮助,但也有局限性。OpenRefine通过您的浏览器工作,并有多个智能选项来清理和组织您的数据。请参阅第12章。

虚拟专用网-使用虚拟专用网增加您的隐私(匿名性)和安全性。

Maltego CE-Maltego的社区版(CE)是Maltego的一个免费但功能仍然相当强大的版本,可用于收集数据和制定链接分析方案。WindowsNotepad-对于许多人来说,

操作系统(linux和mac都有自己的版本)标配的这个小型文本编辑器是一个未知的应用程序。但是,它有两个非常重要的功能,我们可以将其用于OSINT工作。首先,这款应用在F5键下有一个标准的日期/时间戳。试试看。此功能可帮助您非常精确地记录您做了什么以及何时做的事情。也许对犯罪调查人员来说更重要,他们必须展示他们的整个证据链,但对任何其他调查人员来说仍然非常有用。第二个功能是,粘贴到记事本中的所有文本将立即从所有标记代码中完全剥离。因此,如果您可以从文档中复制文本并将其用作搜索中的选择器,请先将其粘贴到记事本中,然后从那里将其复制到搜索框中。

的另一个廉价工具是思维导图。思维导图是一种创造性和逻辑性的笔记方式,字面上可以“绘制出”你的想法。最初用于创造性过程(“头脑风暴”)的思维导图有很多用途,在在线研究中,它不仅可以帮助你轻松地记录下你所采取的步骤,还可以获得你所处的“总体”图景,以及哪些研究角度仍然需要关注。


迈卡·霍夫曼(Micah Hoffmann)的OSINT思维导图是了解思维导图如何帮助调查的一个很好的例子来源。 Micah是6天现场无国界医生培训课程的开发者和主要培训师,这是目前唯一可供选择的结构化和高水平的OSINT课程。

在进行在线研究时,您可能会编译自己的链接库。此存储库将包含经过尝试和测试的链接。请注意,编译一个好的存储库需要时间和精力,使其保持最新也同样需要时间和精力。本指南中的链接已于2019年5月编写时进行了编译和测试。然而,第一批链接可能在2019年6月就已经过时了。这些消息来源可能已经改变了他们的网站和搜索语法,或者可能已经完全消失了。
有许多链接存储库可以作为一个良好的起点,并定期更新。我们将讨论三个问题。

您可以在www.osintframework.com找到的链接存储库看起来就像一棵类别树。每个蓝点都可以分成多个从属信号源或更多(子)类别。
一旦您到达一个白点,它就会有一个指向实际源代码的链接,该链接会在一个新的选项卡中打开。
,OSINT框架最初是GitHub的一个项目,由Justine Nordine(@jnordine)维护。

另一个很棒的存储库是http://technisette.com 

Technisette上提供的存储库,这是一项荷兰的OSINT调查,你可以在Twitter@Technisette上关注她。
Technisette将她的存储库保存在start.me页面中,并包含多个子页面。只要花点时间浏览一下她的页面,测试一下她提供的许多链接中的一些就行了。
OSINTTechnisette也是https://osintcurio.us/上的博客作者之一,如果您想了解社区的最新发展,可以关注这个有趣的博客。


最后,我们想指出Michael Bazzell的IntelTechniques工具页。
实际上,这个页面不仅仅是一个链接库,页面上的工具被预先配置为直接用于在线调查。这些工具是按您要搜索的数据类型组织的,每种类型都有其子页面。
通常,构建您自己的链接库最常用的方法是将它们保留为书签。Firefox使用json数据库文件来组织链接,这些链接可以作为单个文件导出。然后可以很容易地交换和调用该文件。另一个好处是可以在Firefox中将标签添加到书签,这给了你另一种组织书签的方式。但请注意,如果在Firefox中导入json书签文件,它将覆盖所有较旧的链接。
如何组织链接和书签通常是个人喜好问题。有些使用地理分类、其他功能分类或它们的组合。这将不可避免地是一个试验错误的过程,直到你找到最适合你的方法。

其余内容请到小编知识星球中下载原文和机器翻译文档






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存