详解IDS入侵特征库样本数据如何建立
详解IDS入侵特征库样本数据如何建立
什么是IDS?
IDS是英文“Intrusion Detection Systems”的缩写,中文意思是“入侵检测系统”。专业上讲就是依照一定的安全策略,通过软、硬件,对网络、系统的运行状况进行监视,尽可能发现各种攻击企图、攻击行为或者攻击结果,以保证网络系统资源的机密性、完整性和可用性。做一个形象的比喻:假如防火墙是一幢大楼的门锁,那么IDS就是这幢大楼里的监视系统。一旦小偷爬窗进入大楼,或内部人员有越界行为,只有实时监视系统才能发现情况并发出警告。
IDS要有效地捕捉入侵行为,必须拥有一个强大的入侵特征数据库,这就如同一款强大的杀毒软件必须拥有强大且完善的病毒库一样。但是,IDS一般所带的特征数据库都比较滞后于新的攻击手段,入侵行为稍微改变往往便会相逢不相识。因此,管理员有必要学会如何创建满足实际需要的特征数据样板!本文将对入侵特征的概念、种类以及如何创建特征进行介绍,希望能帮助读者尽快掌握对付入侵行为的方法。
特征(Signature)的基本概念
IDS中的特征一般指用于判别通讯信息种类的特征数据,以下是一些典型情况及识别方法:
来自保留IP地址的连接企图:可通过检查IP报头(IP header)的来源地址轻易地识别。
带有非法TCP 标识的数据包:可通过对比TCP报头中的标志集与已知正确和错误标记的不同点来识别。
含有特殊病毒信息的Email:可通过对比每封Email的主题信息和病态Email的主题信息来识别,或者通过搜索特定名字的附件来识别。
查询负载中的DNS缓冲区溢出企图:可通过解析DNS域及检查每个域的长度来识别利用DNS域的缓冲区溢出企图;还有另外一个识别方法是,在负载中搜索“壳代码利用”(Exploit Shellcode)的序列代码组合。
针对POP3服务器的DoS攻击:通过跟踪记录某个命令连续发出的次数,看看是否超过了预设上限,而发出报警信息。
未登录情况下使用文件和目录命令对FTP服务器的文件访问攻击:通过创建具备状态跟踪的特征数据以监视成功登录的FTP对话、发现未经验证却发命令的入侵企图。
从以上分类可以看出特征的涵盖范围很广,有简单的报头域数值、有高度复杂的连接状态跟踪、有扩展的协议分析。笔者将从最简单的特征入手,详细讨论其功能及开发、定制方法。
但用户需要知道的是,不同的IDS产品具有的特征功能也有所差异。如有些网络IDS系统只允许很少地定制存在的特征数据或者编写需要的特征数据,另外一些则允许在很宽的范围内定制或编写用户需求的特征数据,甚至可以是任意特征;再则一些IDS系统只能检查确定的报头或负载数值,另外一些则可以获取任何信息包的任何位置的数据。
特征有什么作用?
这似乎是一个答案很明显的问题:特征是检测数据包中的可疑内容是否存在攻击行为的对照物。IDS系统本身已经拥有了特征库,为什么还需要定制或编写特征呢?笔者以为,也许你经常看到一些熟悉的通讯信息流在网络上游荡,由于IDS系统的特征数据库滞后或者这些通讯信息本身就不是攻击或探测数据,IDS系统并不会十分关注这样的信息,但身为网络的管理员,我们必须对这样的可疑数据提高警惕,因此我们需要指定一些特征样本,捕捉它们、仔细分析它们从何而来,目的又是什么。因此唯一的办法就是对现有特征数据库进行一些定制配置或者编写新的特征数据。
特征的定制或编写程度可粗可细,完全取决于实际需求。或者是只判断是否发生了异常行为而不确定具体是什么攻击,从而节省资源和时间;或者是判断出具体的攻击手段或漏洞利用方式,从而获取更多的信息。
报头值(Header Values)
报头值的结构比较简单,而且可以很清楚地识别出异常报头信息,因此在编写特征数据时,首先想到的就是它。一个经典的例子是:明显违背RFC793中规定的TCP标准、设置了SYN和FIN标记的TCP数据包。这种数据包被许多入侵软件采用,向防火墙、路由器以及IDS系统发起攻击。异常报头值的来源有以下几种:
因为大多数操作系统和应用软件都是在假定RFC被严格遵守的情况下编写的,没有添加针对异常数据的错误处理程序,所以许多包含报头值的漏洞利用都会故意违反RFC的标准定义。许多包含错误代码的不完善软件也会产生违反RFC定义的报头值数据。并非所有的操作系统和应用程序都能全面拥护RFC定义,至少会存在一个方面与RFC不协调。当然随着时间推移,技术的不断创新,执行新功能的协议可能不被包含于现有RFC中。
由于以上几种情况,严格基于RFC的IDS特征数据就有可能产生漏报或误报效果。对此,RFC也随着新出现的违反信息而不断进行着更新,这就需要我们有必要定期地回顾或更新存在的特征数据定义,及时发现不足。
非法报头值是特征数据的一个非常基础的部分,合法但可疑的报头值也同等重要。例如,如果存在到端口31337或27374的可疑连接,就可能存在木马活动;再附加上其他更详细地探测信息,就能够进一步地判断是否真的存在木马。
确定特征数据的候选对象
为了更好地理解如何开发基于报头值的特殊数据,下面通过分析一个实例的进行详细阐述。
Synscan是一个流行的用于扫描和探测系统的工具,由于它的代码被用于创建蠕虫Ramen的头部片断而在2001年早期大出风头。Synscan的执行行为很具典型性,它发出的信息包具有多种可分辨的特性,包括:
不同的来源IP地址信息
TCP来源端口21,目标端口21
服务类型0
IP鉴定号码39426(IP identification number)
设置SYN和FIN标志位
不同的序列号集合(sequence numbers set)
不同的确认号码集合(acknowledgment numbers set)
TCP窗口尺寸1028
下面我们对以上这些数据进行筛选,看看哪个比较合适做特征数据。我们要寻找的是非法、异常或可疑数据,大多数情况下,这都反映出攻击者利用的漏洞或者他们使用的特殊技术。以下是特征数据的候选对象:
只具有SYN和FIN标志集的数据包,这是公认的恶意行为迹象。
没有设置ACK标志,但却具有不同确认号码数值的数据包,而正常情况应该是0。
来源端口和目标端口都被设置为21的数据包,经常与FTP服务器关联。这种端口相同的情况一般被称为reflexive,除了个别时候如进行一些特别NetBIOS通讯外,正常情况下不应该出现这种现象。reflexive端口本身并不违反TCP标准,但大多数情况下它们并非预期数值。例如在一个正常的FTP对话中,目标端口一般是21,而来源端口通常都高于1023。
TCP窗口尺寸为1028,IP鉴定号码在所有数据包中为39426。根据IP RFC的定义,这2类数值应在数据包间有所不同,因此,如果持续不变,就表明可疑。
如何正确使用特征
从以上4个候选特征对象中,我们可以单独选出一项作为基于报头的特征数据,也可以选出多项组合作为特征数据。
选择一项数据作为特征有很大的局限性。例如一个简单的特征可以是只具有SYN和FIN标志的数据包,虽然这可以很好地提示我们可能有一个可疑的行为发生,但却不能给出为什么会发生的更多信息。SYN和FIN通常联合在一起攻击防护墙和其他设备,只要有它们出现,就预示着扫描正在发生、信息正在收集、攻击将要开始。但仅仅这些而已,我们需要的是更多的细节资料。
选择以上4项数据联合作为特征也不现实,因为这显得有些太特殊了,而且可能占有太多的系统资源。尽管能够精确地提供行为信息,但是比仅仅使用一个数据作为特征而言,会显得远远缺乏效率。实际上,特征定义永远要在效率和精确度间取得折中。大多数情况下,简单特征比复杂特征更倾向于误报(false positives),因为前者很普遍;复杂特征比简单特征更倾向于漏报(false negatives),因为前者太过全面,攻击软件的某个特征会随着时间的推进而变化。
多也不行,少亦不可,完全应由实际情况决定。例如,我们想判断攻击可能采用的工具是什么,那么除了SYN和FIN标志以外,还需要什么其他属性?“反身”端口虽然可疑,但是许多工具都使用到它,而且一些正常通讯也有此现象,因此不适宜选为特征。TCP窗口尺寸1028尽管有一点可疑,但也会自然的发生。IP鉴定号码39426也一样。没有ACK标志的ACK数值很明显是非法的,因此非常适于选为特征数据。当然,根据环境的不同,及时地调整或组合特征数据,才是达到最优效果的不二法门。
接下来我们创建一个特征,用于寻找并确定synscan发出的每个TCP信息包中的以下属性:
只设置了SYN和FIN标志
IP鉴定号码为39426
TCP窗口尺寸为1028
第一个项目已经十分普遍,第二个和第三个项目联合出现在同一数据包的情况不很多,因此,将这三个项目组合起来就可以定义一个详细的特征了。再加上其他的synscan属性不会显著地提高特征的精确度,只能增加资源的耗费。到此,判别synscan软件的特征如此就创建完毕了。
扩展,创建识别更多异常通讯的特征
以上创建的特征可以满足对标准synscan软件的探测了。但synscan可能存在多种变化,而其它工具也可能是随时改变的,这样上述建立的特征必然不能将它们一一识别。这时就需要结合使用特殊特征和通用特征,才能创建一个更好、更全面的解决方案。如果一个入侵检测特征既能揭示已知威胁,还能预测潜在威胁,这样会大大提供IDS的性能。
首先看一个“变脸”synscan所发出的数据信息特征:
只设置了SYN标志,纯属正常的TCP数据包特征。
TCP窗口尺寸总是40而不是1028。40是初始SYN信息包中一个罕见的小窗口尺寸,比正常的数值1028少见得多。
“反身”端口数值为53而不是21。老版本的BIND使用“反身”端口用于特殊操作,新版本BIND则不再使用它,因此,经常看到这个信息会让我们睁大怀疑的眼睛。
以上3种数据与标准synscan产生的数据有很多相似出,因此可以初步推断产生它的工具或者是synscan的不同版本,或者是其他基于synscan代码的工具。显然,前面定义的特征已经不能将这个“变脸”识别出来,因为3个特征子项已经面目全非。这时,我们可以采取三种方法:
再单独创建一个匹配这些内容的特殊特征。
调整我们的探测目标,只关注普通的异常行为,而不是特殊的异常行为,创建识别普通异常行为的通用特征。
1和2都创建,既全面撒网,也重点垂钓,真实的罪犯必抓,可疑的分子也别跑。
通用特征可以创建如下:
没有设置确认标志,但是确认数值却非0的TCP数据包。
只设置了SYN和FIN标志的TCP数据包。
初始TCP窗口尺寸低于一定数值的TCP数据包。
使用以上的通用特征,上面提到过的两种异常数据包都可以有效地识别出来。看来,网大好捞鱼啊。
当然,如果需要更加详细地探测,再在这些通用特征的基础上添加一些个性数据就可以创建出一个特殊特征来。还是那个观点,创建什么样的特征、创建哪些特征,取决于实际需求,实践是检测创建何种特征的唯一标准吗!
报头值关键元素小结,信息包种类检查分析
从上面讨论的例子中,我们看到了可用于创建IDS特征的多种报头值信息。通常,最有可能用于生成报头相关特征的元素为以下几种:
IP地址,特别保留地址、非路由地址、广播地址。
不应被使用的端口号,特别是众所周知的协议端口号和木马端口号。
异常信息包片断。
特殊TCP标志组合值。
不应该经常出现的ICMP字节或代码。
知道了如何使用基于报头的特征数据,接下来要确定的是检查何种信息包。确定的标准依然是根据实际需求而定。因为ICMP和UDP信息包是无状态的,所以大多数情况下,需要对它们的每一个属性都进行检查。而TCP信息包是有连接状态的,因此有时候可以只检查连接中的第一个信息包。例如,象IP地址和端口这样的特征将在连接的所有数据包中保持不变,只对它们检查一次就可放心。其他特征如TCP标志会在对话过程的不同数据包中有所不同,如果要查找特殊的标志组合值,就需要对每一个数据包进行检查。检查的数量越多,消耗的资源和时间也就越多。
另外我们还要了解一点:关注TCP、UDP或者ICMP的报头信息要比关注DNS报头信息更方便。因为TCP、UDP以及ICMP都属于IP协议,它们的报头信息和载荷信息都位于IP数据包的payload部分,比如要获取TCP报头数值,首先解析IP报头,然后就可以判断出这个载荷的父类是TCP。而象DNS这样的协议,它又包含在UDP和TCP数据包的载荷中,如果要获取DNS的信息,就必须深入2层才能看到真面目。而且,解析此类协议还需要更多更复杂的编程代码,完全不如TCP等简单。实际上,这个解析操作也正是区分不同协议的关键所在,评价IDS系统的好坏也体现在是否能够很好地分析更多的协议。