查看原文
其他

大数据安全技术在信息安全领域的应用

计算机与网络安全 计算机与网络安全 2022-06-01

一次性付费进群,长期免费索取教程,没有付费教程。

教程列表见微信公众号底部菜单

进微信群回复公众号:微信群;QQ群:460500587



微信公众号:计算机与网络安全

ID:Computer-network

大数据滔滔来袭的背景下,人们的关注点逐渐从如何掌握庞大的数据信息,转向如何实现对这些数据的深层挖掘,进而让其增值。通过大量信息的整合与海量数据的分析,企业能够更深入地了解自身业务,实现新需求洞察,更好地做出商业决策。


对企业而言,信息安全是为信息化服务的,而信息化又服务于业务增长。因此,利用大数据提升企业信息安全防护水平,能够间接为企业带来效益。大数据信息安全领域的应用将演化为 IT 商业智能发展趋势的一部分,即安全数据和业务数据的结合能够为企业提供更可靠的策略依据,帮助企业判断各种潜在威胁,预测业务发展趋势。


本文围绕大数据在安全检测、数据挖掘、网络感知、视频监控4个方面的应用介绍相关的技术,包括安全检测与大数据整合技术、面向安全大数据的挖掘技术、基于大数据的网络态势感知技术、视频监控数据的挖掘技术,力求使大家了解大数据信息安全领域的应用情况。


一、安全检测与大数据的融合


安全检测与大数据的融合能够及时发现潜在的威胁,提供安全分析与趋势预测,加强应对威胁的能力。需要首先对数据进行分类、过滤与筛选,其次采用信息安全检测技术对系统环境和数据环境进行检测,然后通过关联分析和数据挖掘构建安全威胁模型,经过数据分析预测安全趋势。


1、数据提炼与处理


在收集到原始海量数据后,需要对数据进行分类、过滤、筛选等提炼与处理操作。应当根据数据的敏感程度、影响范围、应用场景,以及业务合作的数据需求,对数据进行分级分类的预处理。然后过滤敏感数据、保密数据、非法数据,得到有价值的可使用的数据。数据过滤与筛选需要达到的性能要求包括海量处理规模、多字段过滤、智能筛选、高效过滤等。因此,针对大数据的智能过滤和内容审计,能够快速便捷地匹配大量自定义的关键字、词,智能过滤去违反国家法律法规以及侵犯用户权益的内容,确保信息内容的安全。


(1)关键字、词智能匹配


大数据的智能匹配要求用户输入关键字、词后,系统能够自动匹配,计算出有关该字词的相关信息。同时保证用户定义的关键词数目不限,可以并发支持百万级别的关键词。依据Google、百度等公司定义的关键字匹配方式,大数据智能匹配大致有广泛匹配、词组匹配、精准匹配、多关键字匹配等方式。


● 广泛匹配可以对关键字的任一顺序进行匹配,对包含其他字词的查询也能触发,并且对相似字词(包括复数形式和同义词)也能触发。


● 词组匹配只有搜索字词同词组顺序完全匹配时才触发,并且允许词组周围存在其他搜索字词。


● 精准匹配只会对完全匹配的关键字进行触发,限制触发范围,减少触发次数。


● 多关键字匹配是从大量数据中快速匹配多个关键字(多个模式)的技术,需要对文本进行预先处理。


(2)智能逻辑关系运算


大数据的智能逻辑关系运算应支持关键字、词复杂匹配,包括常用的“与、或、非”,同时支持“NEAR”临近关系的复杂算法。按照用户自定义的类别体系分类整理过滤出的信息内容,根据自身业务的特点,自定义内容过滤体系,将自定义的类别输出。


(3)样本机器学习


在没有关键词的时候,机器通过自动学习技能,达到对信息文本的相似类划分。由大数据环境提供信息,学习部分则实现信息转换,用能够理解的形式记忆下来,并从中获取有用的信息。学习过程与推理过程是紧密相连的,按照学习中使用推理的多少,机器学习所采用的策略大体上可分为4种:机械学习、通过传授学习、类比学习和通过事例学习。学习中所用的推理越多,系统的能力越强。


2、信息安全检测


根据检测原理与应用机制的不同,目前常用的安全检测技术有入侵检测漏洞检测、审计追踪等方法。入侵检测是对系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性和可用性。漏洞扫描是对重要信息系统和数据环境进行检查,发现其中可被黑客利用的漏洞。安全审计对系统安全和数据安全进行实时监控,及时发现整个环境中的动态,发现外部入侵和违规行为。


(1)入侵检测技术


入侵检测通过收集和分析网络行为、安全日志、审计数据、其他网络上可以获得的信息以及计算机系统中若干关键点的信息,检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象。其作用包括威慑、检测、响应、损失情况评估、攻击预测和起诉支持。入侵检测技术的第一条防线是接入控制,第二条防线是检测。入侵检测可分为两种:基于主机的IDS和基于网络的IDS(如图1和图2所示),一个完备的入侵检测系统是基于主机和基于网络两种方式兼备的分布式系统。根据检测系统所分析的原始数据不同,可以将入侵检测分为来自系统日志和网络数据分组两种。利用最新的可适应网络安全技术和 P2DR ( policy protection detection response)的安全模型,可以深入地研究入侵事件、入侵手段本身及被入侵目标的漏洞等。

图1  基于主机的入侵检测系统

图2  基于网络的入侵检测系统

对安全事件的检测包括大量复杂的步骤,涉及很多系统,任何单一技术很难提供完备的检测能力,需要综合多个检测系统以达到尽量完备检测能力。因此,国内外专家十分重视入侵检测框架的研究。较有名的是通用入侵检测框架(CIDF)和入侵检测交换格式(IDEF)。前者是由美国加洲大学Davis分校的安全实验室提出的框架,后者是由IETF的入侵检测工组(IDWG)开发的安全事件报警的标准格式。通常,入侵检测的过程分为3部分:信息收集、信息分析和结果处理。


1)信息收集。收集内容包括系统、网络、数据及用户活动的状态和行为。由放置在不同网段的传感器或不同主机的代理来收集信息,包括系统和网络日志文件、网络流量、非正常的目录和文件改变、非正常的程序执行。


2)信息分析。收集到有关系统、网络、数据及用户活动的状态和行为等信息时,送到检测引擎,通过3种手段进行分析:模式匹配、统计分析和完整性分析。当检测到某种误用模式时,产生告警并发送给控制台。


3)结果处理。控制台按照告警产生预定义的响应措施,可以是重新配置路由器防火墙、终止进程、切断连接、改变文件属性,也可以只是简单的告警。


入侵检测技术是动态安全技术的核心技术之一。传统的操作系统加固技术和防火墙隔离技术等都是静态安全防御技术,对网络环境下日新月异的攻击手段缺乏主动的反应。入侵检测被认为是防火墙之后的第二道安全防线,能够帮助系统对付内外部网络攻击,扩展了系统管理员的安全管理能力(包括安全审计、监视、进攻识别和响应),提高了信息安全基础结构的完整性。


(2)漏洞检测技术


对信息系统的安全而言,仅具有事后追查或实时报警功能的安全检测装备是不够的,还需要具备系统安全漏洞扫描能力的事先检查型的安全工具。入侵者常常是从收集、发现和利用信息系统的漏洞来发起攻击的。不同的应用,甚至同一系统不同的版本,其系统漏洞都不尽相同,大致上可以分为:网络传输和协议漏洞、系统漏洞和管理漏洞。针对网络传输和协议漏洞,攻击者利用网络传输时对协议的信任以及网络传输的漏洞进入系统。针对系统漏洞,攻击者可以利用服务进程的 BUG 和配置错误进行攻击。针对管理漏洞,攻击者可以利用各种方式从系统管理员和用户那里诱骗或套取可用于非法进入的系统信息。


漏洞检测技术通常采用两种策略:被动式策略和主动式策略。前者是基于主机的检测,对系统中不合适的设置、脆弱的口令以及其他同安全策略相抵触的对象进行检查。后者是基于网络的检测,通过执行一些脚本文件对系统进行攻击,并记录它的反应,从而发现其中的漏洞


依据采用的策略和技术特点,漏洞检测技术可分为:基于应用的检测技术(检查应用软件包设置)、基于主机的检测技术(检查系统)、基于目标的检测技术(检查系统属性和文件属性)、基于网络的检测技术、综合的技术5大类。对漏洞的发掘有黑盒测试、白盒测试、灰盒测试、动态跟踪分析和补丁比较等方法。


● 黑盒测试在完全不考虑程序内部结构和内部特性的情况下,检查程序功能是否按照需求规格说明书的规定正常使用,是否能适当地接收输入数据而产生正确的输出信息等。


● 白盒测试按照程序内部的结构测试程序,通过测试来检测产品内部动作是否按照设计规格说明书的规定正常进行,检验程序中的每条通路是否都能按预定要求正确工作。


● 灰盒测试介于白盒测试与黑盒测试之间,关注输出对于输入的正确性,同时也关注内部表现,通过一些表征性的现象、事件、标志来判断内部的运行状态。


● 动态跟踪分析是记录程序在不同条件下执行的全部和安全问题相关的操作(如文件操作),然后分析这些操作序列是否存在问题,这是竞争条件类漏洞发现的主要途径之一,其他的污点传播跟踪也属于这类。


● 补丁比较通过对比补丁前后文件的源码(或反汇编码)就能了解到漏洞的具体细节。

(3)审计追踪


审计追踪是系统活动的流水记录,按事件从始至终的途径,顺序检查、审查和检验每个事件的环境及活动。通过书面方式提供应负责任人员的活动证据以支持职能的实现。审计追踪记录系统活动(操作系统和应用程序进程)和用户活动(用户在操作系统中和应用程序中的活动)。


审计追踪是正常系统操作的一种支持,也是一种安全策略,用于帮助系统管理员确保系统及其资源免遭黑客、内部使用者或技术故障的伤害。它需要足够的信息,以确定事件的内容和引起事件的因素。通常,事件记录应该列有事件发生的时间、和事件有关的用户识别码、启动事件的程序或命令以及事件的结果。


为了确保审计追踪数据的可用性和正确性,审计追踪数据需要受到保护,如果不对日志数据进行及时审查、规划和实施,再好的审计追踪也会失去价值。审计追踪应该根据需要定期审查、自动实时审查或两者兼而有之。系统管理员根据计算机安全管理的要求确定需要维护多长时间的审计追踪数据,包括系统内保存和归档保存的数据。


3、威胁模型构建


大数据环境下,需要从广泛的数据来源获取、量度、建模、处理、分析大容量多类型数据。其安全威胁可能是破坏数据完整性、一致性、保密性、隐私性、可用性的行为,例如:窃取、篡改、伪造、拒绝服务、冒充和抵赖等。大数据的威胁模型能够明确指出哪些地方可能会被攻击或者利用。一个典型的大数据安全威胁模型由3个关键部分组成:数据流程图(DFD)、入口点和退出点列举、潜在威胁列举。威胁建模包括5个主要步骤:确定安全目标、创建应用程序概述、分解应用程序、确定威胁、确定漏洞(如图3所示),需要通过重复执行步骤2至步骤5逐步细化威胁模型。

图3  威胁建模过程

威胁模型的核心元素是应用程序入口点的描述。威胁模型在绘图阶段捕获入口点作为信任边界。良好的威胁模型还应该可以捕获网络可访问性和接口的身份验证/授权要求,这包括基于 IP 地址的网络可访问性、身份验证和授权级别、匿名访问、用户访问等内容。


4、安全趋势预测


大数据与安全检测技术的整合,提高了信息系统捕获数据、关联分析、深度挖掘、实时监测、预测趋势等能力,提高了企业评估风险、跟踪威胁、应对处理的能力。受益于这种安全能力的提高,企业不会再根据极少的数据来做出临时性应对决策,而是在明确了解关联事件及其对基础设施的影响后,采取果断行动。因此,根据安全检测到的安全数据和威胁信息,通过大数据过滤与筛选,构建出的安全威胁模型应该有趋势预测功能,分析出业务发展、系统状态和安全因素等内容。

二、面向安全大数据的挖掘


1、安全大数据


安全大数据是指与业务安全、系统安全、网络安全、硬件安全有关的配置数据、实时数据、衍生数据等,可归类为资产数据、威胁数据、脆弱性数据和网络结构数据,同时不考虑数据类之间的关系。利用数据挖掘相关技术能够从这些大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出隐含在其中能够标识业务、系统、网络安全的潜在信息。


在企业的实际生产中,业务安全往往是指保护业务系统免受安全威胁的措施或手段。广义的业务安全应包括业务运行的软硬件平台、业务系统自身、业务所提供的服务安全;狭义的业务安全指业务系统自有的软件与服务的安全。表征业务安全的信息主要有经营数据、分析数据、监控数据、报表数据等。


系统安全是指在系统生命周期内应用系统安全工程和系统安全管理方法,辨识系统中的危险源,并采取有效的控制措施使其危险性最小,从而使系统在规定的性能、时间和成本范围内达到最佳的安全程度。系统安全的基本原则是在一个新系统的构思阶段就必须考虑其安全性的问题,制定并执行安全工作规划,并且把系统安全活动贯穿于生命整个系统生命周期,直到系统报废为止。表征系统安全的信息主要有:系统运行参数、硬件使用率、软件使用率、功能使用情况、数据输出情况、接口数据、监测数据等。


网络安全是指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。网络安全从其本质上来讲就是网络上的信息安全。从广义来说,凡是涉及网络上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论都是网络安全的研究领域。表征网络安全的信息主要有:网络参数、网络流量、防火墙/IPS 运行情况、网络利用率、网络传输情况、网络监测数据等。


针对安全数据的挖掘与分析可以表征企业整体运行情况,及时发现安全隐患,同时也能够表现安全运行趋势,预测业务走向,反应系统闲忙,再现网络使用情况等潜在信息。


2、数据挖掘方法


数据挖掘是把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。典型的数据挖掘系统如图4所示。

图4  典型数据挖掘系统

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。数据挖掘采用较多的技术有决策树、分类、聚类、粗糙集、回归分析、关联规则、特征分析、神经网络、遗传算法等,它们从不同角度对数据进行挖掘。数据挖掘根据挖掘目标,选取相应算法的参数,分析数据,得到可能的数据模型。以下简要介绍各相关技术。


● 决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。树上的每个节点说明了对实例的某个属性的测试,该节点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从树的根节点开始,测试这个节点指定的属性,然后按照给定实例的属性值向下移动。决策树方法主要用于数据挖掘的分类方面。


● 分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等。


● 聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使属于同一类别数据间的相似性尽可能大,不同类别数据间的相似性尽可能小。聚类分析的技术关键除了算法的选择之外,就是对样本度量标准的选择。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。


● 粗糙集是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的值分成相应的子集,然后对条件属性划分的子集与结论,划分子集之间上下近似关系,生成判定规则。粗糙集理论可以应用于数据挖掘中的分类,发现不准确数据或噪声数据内在的结构联系。


● 回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相互关系等。


● 关联规则是描述数据库中数据项之间所存在关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。


● 特征分析是从数据库的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。


● 神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。


● 遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前已知的最好假设来生成后续的假设。通过使用目前适应性最高假设的后代替代群体的某个部分,更新当前群体的一组假设,来实现各个个体适应性的提高。在数据挖掘中,可以被用作评估其他算法的适合度。


目前,数据挖掘技术取得了显著成效,但仍存在着许多尚未解决的问题,例如:数据的预处理、挖掘算法、模式识别和解释、可视化问题等。对于业务过程而言,数据挖掘最关键的问题是如何结合业务数据时空特点,将挖掘出知识表达出来,即时空知识表达和解释机制问题。


3、挖掘目标及评估


对安全大数据的挖掘可以表征企业现状、预测未来趋势及行为,做出基于知识的决策。挖掘的目标是从数据中发现隐含的有意义的信息。其中,数据关联是数据挖掘要发现与利用的一类重要知识。关联关系可分为简单关联、时序关联、因果关联,其目的是找出海量数据中隐藏的关联关系。


在安全数据的挖掘中,利用概念描述可以对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。


针对大数据库中的异常记录,可以利用数据挖掘技术从中检测出来。其偏差包括很多潜在的知识,例如:分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。数据挖掘与传统数据分析的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。


使用数据挖掘算法得出结果之后,系统如何知道哪些规则对于用户来说是有价值?实际操作中,从两个层面可以进行评测:用户主观层面评测和系统客观层面评测。前者评估一个模式(知识)是否有意义,通常依据4个标准:易于用户理解;对新数据或测试数据能够确定有效程度;具有潜在价值;新奇的。后者基于挖掘出模式的结构或统计特征,提取一些有意义的模式或知识。例如,关联规则挖掘利用支持度—置信度的基本阈值结构,减少无意义的规则。

三、基于大数据的网络态势感知


1、态势感知定义


态势感知的概念源于军事需求,作为数据融合的一个组成部分,态势感知是决策制定过程的重要环节。态势感知之所以越来越成为一项热门研究课题,是因为在动态复杂的环境中,决策者需要借助态势感知工具显示当前环境的连续变化状况,才能准确地做出决策。目前,不同组织从不同角度给出了不同的定义。


态势感知就是在一定的时空条件下,对环境因素进行获取、理解以及对其未来状态进行预测。


态势感知是指在大规模系统环境中,对能够引起系统态势发生变化的安全要素进行获取、理解、显示以及预测未来的发展趋势。


态势感知可简单理解为“了解将要发生的事以便做好准备”。


态势感知可简单描述为“始终掌握你周边复杂、动态环境的变化”。


态势评估就是为实现态势感知而采用的方法及其相关的行为过程。

2、网络态势感知


网络态势感知(cyberspace situation awareness)源于空中交通监管(ATC,air traffic control)态势感知这一项目。1999 年,Tim Bass 首次提出网络态势感知这个概念,并对网络态势感知与ATC态势感知进行了类比,旨在把ATC态势感知的成熟理论和技术借鉴到网络态势感知中。此外,Tim Bass 也指出“基于融合的网络态势感知”必将成为网络管理的发展方向。


所谓网络态势是指由各种网络设备运行状况、网络行为以及用户行为等因素所构成的整个网络当前状态和变化趋势。其中,态势是一种状态,一种趋势,是一个整体和全局的概念,任何单一的情况或状态都不能称为态势。虽然网络态势根据不同的应用领域,可分为安全态势、拓扑态势和传输态势等,但目前关于网络态势的研究都是围绕网络的安全态势展开的。


目前,对网络态势感知还未能给出统一、全面的定义。但是,大多数学者认为网络态势感知是指在大规模网络环境中,对能够引起网络态势发生变化的安全要素进行获取、理解、显示以及预测未来的发展趋势。网络态势感知是一个完整而复杂的体系,因此可以将其分为3个阶段进行研究,即网络安全态势觉察、网络安全态势理解和网络安全态势预测。通过定性或定量的网络安全态势评价体系对底层各类安全事件进行归并、关联和整合处理,并将获取的态势感知结果以可视化图形提供给网络管理人员。


网络态势感知可以综合分析网络的安全要素,评估网络的安全状况,预测其变化趋势,以可视化的方式展现给用户。国内外学者给出过不同的网络态势感知的框架,我们采用哈尔滨工业大学赖积保教授提出了网络态势感知的概念框架(如图5所示),该框架包括多源异构数据采集、数据预处理、事件关联与目标识别、态势评估、威胁评估、响应与预警、态势可视化显示以及过程优化控制与管理7个部分。

图5  网络态势感知概念框架

网络态势感知最大的特点是不再孤立地研究网络安全事件,不同评估单一事件对网络的影响,而是综合多方的报警与流量信息,通过聚合、关联、融合、归并等方法建立定性或定量描述的指标体系,达到准确感知网络安全态势的目的。


3、基于流量数据的网络安全感知


由于网络技术的迅速发展,网络传输速率大大加快,入侵检测系统(IDS)对攻击活动检测的可靠性不高。在应对外部攻击时,IDS 对其他传输的检测也会被抑制。同时,由于模式识别技术的不完善,IDS 的高虚警率也是一大问题。因此,IDS 目前多部署于中小规模的分支网络中。目前,监控带宽主干网往往采用网络流量分析技术,以发现流量的变化趋势和突变。网络流量突变是指网络业务流量突然出现不正常的重大变化,及时发现网络流量的突变对于快速定位异常、采取后续相应措施具有重要意义。主干网络反映的大规模网络状态和趋势也需要从流量中分析,因而这是网络态势感知的重要组成部分。


目前的网络流量研究基本都是基于流量采样的分析,主流采样方式是NetFlow。该技术是由 Cisco 公司的 Darren Kerr 和 Barry Bruins 在 1996 年开发完成的,已成为业界主流的流量计费方法。NetFlow 工作时,通过交换设备采集所有经过的流数据,并将其存放到自身的缓存中,然后按预设的格式发送给指定的服务器。流缓存技术相比传统的流量采集模式有分组丢失率低的特点,保证了能够提供比传统SNMP更加丰富的流量信息,可以回答更精细的问题。因此,NetFlow被广泛用于高端网络流量测量技术的支撑,以提供网络监控、流量分析、应用业务定位、网络规划、快速排错、安全分析、域间记账等高级分析功能。


在获得网络数据之后,由于网络数据的体量巨大、内容复杂,网络管理人员从原始数据中很难得到有用的信息。这些网络流量数据必须经过分析形成简明的、能够理解的网络状态,即通过网络流量判断网络的状态正常与否,异常情况在什么时间和位置发生。目前,对网络造成重大影响的异常流量主要有以下几种。


(1)拒绝服务攻击


DoS攻击的目的是使计算机或网络无法提供正常的服务,最常见的DoS攻击有计算机网络带宽攻击和连通性攻击。入侵者使用非正常的数据流量攻击网络设备或其接入的服务器,致使网络设备或服务器的性能下降,或占用网络带宽影响其他相关用户流量的正常通信,最终可能导致网络服务的不可用。


(2)分布式拒绝服务攻击


DDoS指借助于客户/服务器技术,将多个计算机联合起来作为攻击平台,对一个或多个目标发动DoS攻击,从而成倍地提高拒绝服务攻击的威力。这种攻击行为可以协调多台计算机上的进程,利用合理的服务请求来占用过多的服务资源,从而使合法用户无法得到服务的响应。在这种情况下,会有一股拒绝服务洪流冲击网络,使被攻击目标因过载而崩溃。


(3)网络蠕虫病毒流量


网络蠕虫病毒是指包含的程序或一套程序,能传播它自身功能的拷贝或它的某些部分到其他的计算机系统中,其传播会对网络产生影响。近年来,Red Code、SQL Slammer、冲击波、振荡波等病毒的相继爆发,不但对用户主机造成影响,而且对网络的正常运行也构成危害,因为这些病毒具有扫描网络、主动传播病毒的能力,会大量占用网络带宽或网络设备系统资源。


(4)其他异常流量


其他能够影响网络正常运行的流量都归为异常流量的范畴,例如:一些网络扫描工具产生的大量TCP连接请求,很容易使一个性能不高的网络设备瘫痪。


针对上述几种实际应用中的流量异常,其检测方法主要有:分类过滤、统计分析、TOPN 排序、模式匹配等方法。由于网络流量本身具有突发性和快速变化的特点,因此,在实际使用时需要结合网络拓扑、流量特点、采集协议、监控目的等情况,适当选择相应方法。


● 分类过滤:网络流量包含非常丰富的内容,出于不同的目的,一般会按不同标准将流量分类,并过滤出需要的部分重点分析。可以通过灵活的多层逻辑分析功能,将关心的流量从庞杂的流量中抽取出来,在此基础上再进一步分析。


● 统计分析:在分类的基础上,对数据流量按照设定的标准进行统计,例如:求和、求差、求平均数等。历史数据可以用于对不同属性建立正常模型,常用的方法包括绝对值模型、移动平均模型、正态分布模型等。这些模型设定不同的上下限,超过限定值则触发报警。


● TOP 排序:对流量速率、发包速率、流速率或者流量、发包数、流数进行排序。如果发现网络有问题,则排名在前的几项可能是问题所在。


● 模式匹配:根据已有的异常数据库的规则,对特定的流属性进行匹配,可以判断发生的异常类型。常见的模式匹配包括特定端口匹配、IANA保留IP地址匹配、特定IP地址匹配等。

四、视频监控数据的安全应用


1、视频监控数据的处理需求


视频监控是安全防范系统的重要组成部分,它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。在视频监控大联网及高清化推动下,视频监控业务步入数据洪水时代不可避免。


视频监控业务是一个典型的数据依赖型业务。随着视频监控系统建设的不断发展和壮大,海量的视频数据需要得到有效的处理,才能快速、低成本、精准的发现相关目标的特征和活动轨迹。而有限的人力、计算能力和持续增长的视频数据之间的矛盾日益突出,成为当下系统建设的重点和难点。


视频监控数据具有典型的大数据特征:一方面,视频监控数据具备了大数据4V特性,数据量巨大、多样化、表面上无序,但暗含着无数人和物的行为,并且随着高清化、超高清化的趋势加强,视频监控数据规模将以更快的指数级别增长。另一方面,视频监控数据是真实世界的写照,这与互联网获得的大数据有很大不同,真实世界蕴含了无数难以用格式化文字表达的信息,比如通过视觉可以快速形成判断,一个地方是繁荣还是衰退,气氛是紧张还是欢快。


综合来看,大数据与数据监控业务的结合主要体现在存储、监控和应用上。在大数据技术支撑下,网络视频监控数据存储模型可转向分布式的数据存储体系,提供高效、安全、廉价的存储方式。通过大数据技术还能够实现视频图像模糊查询、快速检索、精准定位等功能,进一步挖掘海量视频监控数据背后的价值信息,快速反馈内涵知识辅助决策判断。


总的来讲,视频监控业务的发展离不开新技术的支撑,随着大数据技术的应用深入,视频监控业务与大数据技术的融合显得十分必要。大数据可以有效促进视频监控业务的发展,推动视频监控业务的展开,两者之间的融合势在必行。


2、视频监控数据挖掘技术


视频数据之所以无法直接使用,是因为人与机器之间存在着语义鸿沟,即计算机理解的低层次图像特征与人类理解的高层次语义信息之间的差异。视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程。根据实际应用需求及应用方式的不同,可以将视频中挖掘的信息分为5类:事件语义信息、目标身份信息、目标图像特征信息、视频统计信息及视频质量信息。


1)事件语义信息是指从视频中获取的可用语言描述的事件信息,例如有人闯入区域、有人奔跑、发生群聚性事件等,这类信息主要以报警的方式实时呈现给用户,用户可以根据这类信息实时对异常事件进行判断并处理。


2)目标身份信息主要是指人员身份及车辆牌照信息,用户以报警的方式或者检索的方式使用这类信息,例如车辆黑名单报警或者嫌疑人照片检索。


3)目标图像特征信息是指可描述的目标图像特征,用户在刑侦工作中可以利用这类信息在海量视频数据中对目标进行快速定位


4)视频统计信息是指从视频中获取的长时间统计数据,例如商场的客流量、交通要道的车流量等,用户可以利用这类信息进行管理工作的优化。


5)视频质量信息是指对视频质量进行诊断,获取对视频质量异常进行描述的信息,例如视频被遮挡、视频失焦、视频偏色等,可利用这类信息进行监控系统维护。


在视频数据挖掘过程中,从底层视频数据中首先提取低层图像特征信息,包括图像纹理、图像色块、运动矢量、图像边缘、灰度直方图等信息,这类信息无法为人们所直接理解,它们是提取元语义信息的基础;然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,包括运动目标、运动目标轨迹、车牌图片、人脸图片等,这类信息已经可以为人们所理解,但是离最终应用还有距离;最后将元语义信息融合为高层的语义级描述信息。随着提取信息的层次越高,其包含的信息量逐步减少,其信息的抽象程度越高,也更接近人们所能应用及理解的范畴。


对视频监控数据的挖掘,需要进行大量元数据的记录,甚至是与监控目的无关的元数据,同时进行多维度的分析。海量的数据汇集存储和超大规模的数据处理,还需要基于位置和时间进行关联性分析整合。如何从海量视频数据中提取到所能应用的信息,甚至是经过归纳总结的知识,无疑是监控系统各个行业用户都迫切需要解决的问题。但是视频包含了非常庞大的信息量,不同行业客户对于视频信息的提取及使用方式有很大的差异性。这就要求监控技术的供应商能够针对不同行业客户的需求提供不同的视频数据挖掘解决方案。目前,主要使用视频浓缩与检索、视频图像信息数据库等技术来实现数据挖掘


● 视频浓缩检索技术主要是利用图像处理、模式识别、海量数据分类存储以及搜索等技术,对海量的存储录像等原始信息进行分析和挖掘,对于目标特征、目标行为、目标间关联关系这3大类信息内容,形成各种分类的特征信息库、元数据和索引等,并提供统一接口供外部应用进行搜索,以期实现快速关联和定位


● 视频图像信息库建设和海量数据的处理、分析、检索,是提高效率的有力手段。通过视频智能分析技术,把海量的视频数据进行浓缩,提取特征摘要,减少了存储空间。同时,视频图像信息库有别于传统的关系数据库模型,针对结构化、半结构化和非结构化数据,通过数据的多个副本分布式保存方式,可以有效节约存储空间,关键数据的二次备份,使系统架构更加稳定和可扩展,并且提供安全的负载均衡和容错机制。


无论采用何种视频数据挖掘技术,其实现方式通常可以分为前端设备实现方式和后端设备实现方式两种。前者是指在各种前端监控设备中集成智能视频分析技术,以实现视频信息的实时挖掘;后者是指利用后端服务器集群,对前端监控设备采集的视频信息进行数据挖掘一般而言,前端设备实现方式的优点是可以对视频数据进行实时分析,并具有根据视频分析算法的需要对前端设备进行成像控制的能力,对信息实时性或者视频成像特性有特定要求的数据挖掘技术更适合用前端设备实现方式。


由于视频数据分组含的信息非常庞大且各行业对于信息的需求不同,不同的视频数据挖掘技术的成熟度有所不同,有些已经可以成熟应用,而有些还处于起步阶段,需要监控技术供应商及集成商付出长期的努力来完善该类技术。


五、结语


大数据信息安全领域的应用广泛而复杂,本文从4个方面介绍了其中的相关技术。首先,介绍了安全检测与大数据融合技术,通过大数据过滤与筛选、威胁模型的构建,在传统信息安全检测技术中增添大数据处理技术,达到安全检测和趋势预测的目标。其次,介绍了面向安全大数据的挖掘技术,阐述了安全大数据概念,并对挖掘方法和挖掘目标及评估进行了介绍。接着,介绍了基于大数据的网络态势感知技术,并给出了基于流量数据的网络安全感知分析。最后,介绍了视频监控数据的安全应用,并分析了其中的大数据挖掘与分析技术。

微信公众号:计算机与网络安全

ID:Computer-network

【推荐书籍】

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存