一种新的基于数据挖掘技术的异常入侵检测系统研

作者：时间：2010-10-18 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

入侵 检测系统IDS(intrusion detection system)是用户计算机主动安全防护的一种措施，它用于检测未经用户授权直接进行计算机信息访问的行为，它从系统内部和各种网络资源中主动采集信息，从中分析可能的异常入侵。根据入侵检测方法，IDS分为异常 检测系统和误用检测系统两大类。误用检测系统只能检测出已知特征模式的攻击，对未知特征模式的攻击无法检测。而异常检测系统采用将系统当前的活动与过去行为模型进行比较的方法,能够有效地对新的、未知的攻击进行检测[1-3]。参考文献[4] 提出了基于强规则和弱规则的关联规则挖掘方法来检测异常操作较少和分布时间长等不易的网络攻击。同时建立以各属性为节点的贝叶斯网络作为异常判别器，进一步判别关联规则挖掘中发现的可疑行为，提高了系统检测的准确率。但是在数据训练阶段，根据数据挖掘的要求，需要对原始的无攻击的纯净数据信息进行数据预处理，训练成适合数据挖掘的数据记录，而数据信息抓取过程中受到网络实时更新等因素的影响无法避免数据噪音，进而影响数据信息本身的安全性，依此数据信息训练的数据项集本身也就存在了安全隐患。参考文献[5]采用变长序列模式匹配算法对程序历史行为和当前行为进行比较，联合使用多个窗长度和判决门限对程序行为进行判决，提高了检测的准确率和灵活性。但由于网络数据信息量不断膨胀，多窗口长度和判决门限会增加计算机的运算量，造成数据拥塞，网络负载加大。参考文献[6]提出了一种基于时态知识模型和可变滑动窗口的实时模式提取算法，并在此基础上，实现了基于规则的、层次化的智能入侵检测原型系统。但在匹配算法中需要逐一遍历，对于复杂数据信息实时性难以体现。参考文献[7]提出了一种具有自主学习、自主完善功能的入侵监测模型,可发现已知和未知的异常入侵活动。但该模型中评估指标不具备完善性，对短时间内正常进程记录监管有限，从而更新的规则库存在安全隐患。基于以上问题,本文提出了一种新的基于数据挖掘技术的异常入侵检测系统ANEIDSDM(A New Exception Intrusion Detection System based on Data Mining)。
1 ANEIDSDM模型概述
在ANEIDSDM模型中，数据信息E是否异常，由数据评估W决定。只有当数据评估通过数据信息异常检测，满足相似度、支持度和置信区阈值时，数据信息E才被认为是正常的数据信息，否则为异常。
　数据信息是分散地存储于计算机和传播于网络中的，对于数据的采集是基于一定条件的，有基于主机的信息采集，也有基于网络的信息采集和混合型的数据信息采集等[8]。当数据信息采集完成后，会经过数据预处理，形成数据项集S，对S分类产生高频繁集和低频繁集。对于高频繁数据项集进行模式分析，形成数据模式集O。每一种模式集都对应一种数据规则，对数据模式集的数据分析处理过程就是数据挖掘规则过程，数据规则集Q形成后，为了便于检测，对其进行分类分析二次数据挖掘，形成分类规则集，最终形成规则库K。经过多次训练后，数据采集的规则库具有一定的记忆，当数据进行抓取时结合记忆库和规则库的双重考核，数据信息更加安全可信。
　数据挖掘过程中对数据项集分析产生的数据模式可能有用，也可能是无关的。所以为了节约计算机存储空间和数据挖掘速度，采取以某一主属性为特征属性的方式对数据信息E进行挖掘。当待测数据信息E进行攻击时，启动检测系统，快速对其数据信息进行分析，形成数据规则集V，对规则集V实行分类匹配，对比相似度，搜索与之相对应或相类似的规则库对其规则集进行检验。若异常，则实行预警，否则以正常信息对待。当数据信息庞杂时，根据分类规则库，可快捷对数据规则集实行查找匹配，快速对数据信息进行检测。
　数据检测时结合在线滑动窗口T，不仅对原始获取数据信息进行实时检测，而且对当前由用户操作所引起的原始数据部分信息丢失、更改等现象具有一定的处理应变能力。当数据评估W完成后，评估结果存入决策列表L中，以供用户决策。
　其思想有以下特点：(1)数据信息的采集结合主属性产生高频和低频数据项集,减少了无关信息的处理过程。(2)采取关联分析和分类分析二次挖掘，数据处理速度和数据挖掘质量有明显的提高。(3)在线检测数据记录匹配，实时性更高。(4)引入相似度匹配检测思想，实现快速数据评估。
2 相关知识与定义
2.1数据挖掘
　数据挖掘(Data Mining)是指从大量数据信息中发现数据间的潜在规律，进而提取人们感兴趣的和有用的知识的方法和技术，这些知识具有隐含性、未知性、异常性，但又是潜在的对系统安全检测有用的信息[9]。数据挖掘过程一般由三个阶段组成:数据准备阶段(包括数据清理与集成、数据选择与变换)、数据挖掘阶段、评估与表示阶段(结果表达与解释)。数据挖掘的模式有关联模式、分类模式、回归模式、时间序列模式、聚类模式和序列模式六种[10]。与数据挖掘的模式相对应的数据挖掘算法有：关联分析算法、数据分类算法、序列分析算法和聚类分析算法等。目前，应用于入侵检测领域的数据挖掘算法主要是关联分析算法、数据分类算法和序列分析算法。
(1)数据预处理
　数据预处理模块处理原始数据包，抽取对应的主特征属性组成数据信息集，提供给数据挖掘模块。由于数据连接过程需要传送许多数据包，而这些数据包的基本属性很多是重复的，所以对于TCP连接，从连接建立到连接终止过程中所有数据包的传送抽象为一个连接事件，而对每一个连接事件建立一个与之相对应的数据项集。对无连接的UDP，可简单地将每一个数据包抽象成一个连接事件。
(2)关联规则挖掘
　关联规则是指对数据项集中各种数据模式的有代表性的数据之间知识规律的规则描述。在入侵检测系统中，设定一个最小支持度和一个最小置信度来度量关联规则的相关性，从已知的数据信息中产生关联规则，保证其支持度和置信度大于用户预先设定的最小支持度和最小置信度阈值。其过程为：①特征抽取与数据预处理。数据信息被采集后形成数据项集，每一个数据项集以一个主属性为参考，对无关数据项集进行处理。②关联规则挖掘分析。对数据模式中关联规则的数据进行规则挖掘。③检测入侵。将新产生的关联规则添加到关联规则库中去，然后将用户行为与关联规则库中的规则匹配来判断是否入侵。常见的算法有Apriori算法和AprioriTid算法。
　(3)频度分析
　频度分析是指在一定时间窗口事件发生的频度，它有高频和低频繁两种[11]。①高频挖掘：即数据项集的属性集大于一定支持度和置信度，如DDOS攻击，在高频繁挖掘时就能检测出这类攻击。②低频繁挖掘：即数据项集的属性集支持度低于一定阈值而置信度大于一定阈值，如慢扫描过程在单位时间内异常扫描较少，假如只检查高频数据项集，就会漏掉这类模式的攻击。
　(4)数据分类分析
　数据分类的目的是提取数据库中数据项的特征属性，生成分类模型，把数据库中的数据项映射到预先定义的类别中的一个，异常入侵检测时它可以用数据规则集的形式表示[12]。数据分类的步骤如下：①训练数据项集，将待测数据信息训练成数据规则集。②分析数据规则集，提取主特征属性。③根据标准数据规则库中数据规则集对待测数据规则集进行分类。常用的分类算法有RIPPER、m3、C4.5、Near-neighbor和神经网络等。
2.2 基础定义
　定义1 滑动窗口。在t时间内，数据匹配检测的范围。设开始时间为t=nt0，则滑动窗口T的检测范围为t=T+nt0。其中,t0为步长，T为窗口大小，t为时间。一般T是固定值[13]，为用户默认，专家可根据系统安全等级设置其值大小。
　定义2 相似度。数据挖掘规则库与系统检测匹配规则库的相似性度量值。

定义3 数据评估。对数据规则是否符合系统安全的衡量。
设数据评估为W，则W=[正常，异常]，其评估过程为在滑动窗口T内对规则库Ki的相似匹配和检测匹配。
2.3 ANEIDSDM定义
本模型由一个10元组{E，S，O，Q，P，K，W，T，M，L}来表示。其中E表示数据信息，包含基于网络流量，基于主机和混合型的数据信息。当获取数据信息E后，对其形成主属性为采集标准的数据项集S，如在时间、方向、端口号、主机IP地址等属性中，以目的主机IP地址为主属性，采集的所有数据记录经过数据去噪、预处理后形成数据项集。数据项集S经过数据模式分析后形成数据模式集，用O来表示。每种数据模式都对应一种数据规则算法，经过数据挖掘，形成数据规则集，用Q来表示。对数据挖掘的规则集进行分类分析，形成数据分类集，用P来表示。数据挖掘的结果最终形成规则库K。数据挖掘完成后需要对数据挖掘结果进行数据评估，用W来表示。在数据评估过程中引入滑动窗口T和相似度M,数据评估结束后结果添加在决策列表L，提供给用户。用户响应后，规则库K自动更新。

新闻中心

一种新的基于数据挖掘技术的异常入侵检测系统研

评论

相关推荐

技术专区