病毒与引擎的变迁
简单特征码 80年代末期,基于个人电脑病毒的诞生,随即就有了清除病毒的工具──反病毒软件。这一时期,病毒所使用的技术还比较简单,从而检测相对容易,最广泛使用的就是特征码匹配的方法。 特征码是什么呢?比如说,“如果在第1034字节处是下面的内容:0xec , 0x99, 0x80,0x99,就表示是大麻病毒。”这就是特征码,一串表明病毒自身特征的十六进制的字串。特征码一般都选得很长,有时可达数十字节,一般也会选取多个,以保证正确判断。杀毒软件通过利用特征串,可以非常容易的查出病毒。 广谱特征
为了躲避杀毒软件的查杀,电脑病毒开始进化。病毒为了躲避杀毒软件的查杀,逐渐演变为变形的形式,每感染一次,就对自身变一次形,通过对自身的变形来躲避查杀。这样一来,同一种病毒的变种病毒大量增加,甚至可以到达天文数字的量级。大量的变形病毒不同形态之间甚至可以做到没有超过三个连续字节是相同的。 为了对付这种情况,首先特征码的获取不可能再是简单的取出一段代码来,而是分段的,中间可以包含任意的内容(也就是增加了一些不参加比较的“掩码字节”,在出现“掩码字节”的地方,出现什么内容都不参加比较)。这就是曾经提出的广谱特征码的概念。这个技术在一段时间内,对于处理某些变形的病毒提供了一种方法,但是也使误报率大大增加,所以采用广谱特征码的技术目前已不能有效的对新病毒进行查杀,并且还可能把正规程序当作病毒误报给用户。 启发式扫描 为了对付病毒的不断变化和对未知病毒的研究,启发式扫描方式出现了。启发式扫描是通过分析指令出现的顺序,或特定组合情况等常见病毒的标准特征来决定文件是否感染未知病毒。因为病毒要达到感染和破坏的目的,通常的行为都会有一定的特征,例如非常规读写文件,终结自身,非常规切入零环等等。所以可以根据扫描特定的行为或多种行为的组合来判断一个程序是否是病毒。 这种启发式扫描比起静态的特征码扫描要先进的多,可以达到一定的未知病毒处理能力,但还是会有不准确的时候。特别是因为无法确定一定是病毒,而不可能做未知病毒杀毒。 行为判定 针对变形病毒、未知病毒等复杂的病毒情况,极少数杀毒软件采用了虚拟机技术,达到了对未知病毒良好的查杀效果。它实际上是一种可控的,由软件模拟出来的程序虚拟运行环境,就像我们看的电影《黑客帝国》一样。在这一环境中虚拟执行的程序,就像生活在母体(Matrix)中的人,不论好坏,其一切行为都是受到建筑师(architect)控制的。虽然病毒通过各种方式来躲避杀毒软件,但是当它运行在虚拟机中时,它并不知道自己的一切行为都在被虚拟机所监控,所以当它在虚拟机中脱去伪装进行传染时,就会被虚拟机所发现,如此一来,利用虚拟机技术就可以发现大部分的变形病毒和大量的未知病毒。 更多内容请看常用软件加密宝典 软件插件 杀毒软件专栏专题,或 引擎技术对比 各种引擎技术相比,虚拟机就像是一个侦探,可以根据对人的行为识别犯罪活动;启发式扫描就像是警察,看你身上携带了枪支而怀疑你;广谱特征是拿着照片追查已知的罪犯,但是会注意是否带了假发或者墨镜来逃避检查;而特征码识别就只是通过对人的外貌来判断。
[1] [2] [3] [4]
简单总结一下各种引擎技术的优缺点:
特征码的选取
在进入程序的详细讲解之前,先来讲一下对于病毒程序的特征码通常是如何选取出来的,以及特征码的结构是什么样子的。
通常选择特征码是按照以下思路。 1. 获取一个病毒程序的长度,根据长度可以将文件分为几份,份数根据样本长度而定,可以是3~5份,也可以更多。分成几段获取特征码的方法可以很大程度上避免采用单一特征码误报病毒现象的发生,也可以避免特征码过于集中造成的误报。 2. 每份中选取通常为16或32个字节长的特征串。 在选取时,应该采取如下的原则: 1. 如果选出来的信息是通用信息,即很多文件该位置都是一样的信息,那么舍弃,调整偏移量后重新选取。 2. 如果选取出来的信息是全零的字节。那么也要调整偏移后重新选取。 当然调整的偏移量多少可以人为事先规定,也可以自动随机调节。最后,将选取出来的几段特征码及它们的偏移量存入病毒库,标示出病毒的名称即可。为了方便选取特征码,通常根据以上的思路编写出特征码提取程序,自动提取特征码并作为病毒记录存入病毒库。 关键数据结构 下面我们来介绍一下整个引擎中关于特征码扫描部分的代码,整个引擎框架的结构由于篇幅有限,放在下期文章中进行介绍。 首先介绍程序中的两个重要结构VSIGNATURE和VRECORD。一个VSIGNATURE是一个特征,很多个特征组成了一条病毒记录,也就是一个VRECORD。 typedef strUCt tagVSIGNATURE { BAV_SIGN_TYPE eType; DWORD dwOffset; DWORD dwSize; BYTE Signature[MAX_SIGNATURE_LEN]; }VSIGNATURE,*PVSIGNATURE; typedef struct tagVRECORD { int nSize; DWORD dwVirusID; DWORD dwSignCount; PVSIGNATURE pVSing[8]; DWORD dwTreatCount; PVTREATMENT pVTreat[8]; }VRECORD,*PVRECORD; VSIGNATURE结构是用于存放单一特征码的,其中的eType成员变量是一个枚举结构,用来定义特征码的类型,这里演示工程里目前我们只定义了一种简单文件特征。dwOffset成员存储该特征码的偏移量。dwSize成员存储特征码的长度。字节型的Signature数组成员存放特征码串,最大长度由 MAX_SIGNATURE_LEN宏控制,目前为32字节。 VRECORD结构用于存放病毒库中每个病毒记录的内容。其中nSize用于控制结构的版本,目前我们不用过多关心。dwVirusID成员指定病毒的ID编号。dwSignCount成员存放特征码(VSIGNATURE)的段数,也就是对于该病毒取了多少段特征码。pVSing数组成员存放每段特征码的内容,这里用数组是为了演示方便,以后我们会改为可变长度的数据结构。dwTreatCount成员存放处理该病毒的方法数量。pVTreat数组成员存放处理该病毒的每种方法的内容。这两个成员要到我们增加杀毒方法的时候才会用到。 为了演示程序的简单,这一版的病毒库没有从文件加载,而是直接在CVirusDB::Load()中编码进去的。比如第一个eicar测试病毒的第一条特征是这样的: { BS_PHY_FILE, 0, 32, 0x58, 0x35, 0x4F, 0x21, 0x50, 0x25, 0x40, 0x41, 0x50, 0x5B, 0x34, 0x5C, 0x50, 0x5A, 0x58, 0x35, 0x34, 0x28, 0x50, 0x5E, 0x29, 0x37, 0x43, 0x43, 0x29, 0x37, 0x7D, 0x24, 0x45, 0x49, 0x43, 0x41,
[1] [2] [3] [4]
}
它表明这是一个简单文件特征,特征起始地址0,特征长度32,后面32个字节是具体特征值。
更多内容请看常用软件加密宝典 软件插件 杀毒软件专栏专题,或 与引擎类 清楚了这两个结构,接下来我们看一下具体的扫描代码。特征串的匹配其实就是memcmp,没有什么特别的,关键讲解一下引擎、库与被扫描对象之间的基本关系和分工。 引擎(CEngine)负责被扫描对象的遍历,病毒数据库对象(CVirusDB)负责在自己管理的库中搜索。对应到目前版本的代码上,引擎遍历目录,将找到的文件生成被扫描对象(CScanObj)交给当前病毒库对象的Search()方法。 CEngine类中DFS()函数是负责文件系统深度优先搜索的函数,其中以下一段就是产生一个对象,然后传递给CVirusDB::Search()方法来查毒: { m_cScanResults.dwObjCount++; CFileObject cScanObj; cScanObj.m_eObjType = BO_PHY_FILE; cScanObj.m_strObjName = lpszPathName; if( !cScanObj.Open() ) { // TODO: show error here. return; } DWORD dwVID = m_pcVDB->Search(&cScanObj); if( dwVID ) { PSCAN_RECORD pScanRecord = new SCAN_RECORD; if(pScanRecord) { CFileObject* pScanObj = new CFileObject(cScanObj); pScanRecord->dwVirusID = dwVID; pScanRecord->eResult = BR_WITH_VIRUS; pScanRecord->pScanObject= pScanObj; pScanRecord->pNext = m_cScanResults.pScanRecords; m_cScanResults.pScanRecords = pScanRecord; m_cScanResults.dwRecCount++; } } cScanObj.Close(); } CVirusDB类中的Search函数是用于在病毒库中匹配特征的成员函数,内容如下: DWORD CVirusDB::Search(CScanObject* pScanObj) { list::iterator iter = m_listVRecords.begin(); while(iter!=m_listVRecords.end()) { PVRECORD pVRec = *iter; ASSERT(pVRec); if(pVRec) { bool bVirus = true; for(unsigned int i=0; i
dwSignCount; i++) { bVirus &= pScanObj->Compare(pVRec->pVSing[i]->dwOffset, pVRec->pVSing[i]->dwSize, pVRec->pVSing[i]->Signature); if(!bVirus) break; } // match all signatures if(bVirus) { return pVRec->dwVirusID; } } else { // error return 0xFFFFFFFF; } iter++; } // no match record in VirusDB return 0;
}
While循环是遍历本病毒库中所有的记录。在For循环中,根据指向VRECORD结构的指针pVRec中dwSignCount的内容可知特征码的数量。然后循环用pScanObj->Compare()函数比较每段特征码与文件中指定偏移处的内容是否一致,如果全部一致,则说明该文件是病毒。
本次主要为大家介绍了根据特征码查病毒的方法,源代码可以在网站http://bav.netsv.org下载。(出处:http://www.sheup.com)
While循环是遍历本病毒库中所有的记录。在For循环中,根据指向VRECORD结构的指针pVRec中dwSignCount的内容可知特征码的数量。然后循环用pScanObj->Compare()函数比较每段特征码与文件中指定偏移处的内容是否一致,如果全部一致,则说明该文件是病毒。
本次主要为大家介绍了根据特征码查病毒的方法,源代码可以在网站http://bav.netsv.org下载。在真实的环境中,查毒引擎的设计要比这个例子复杂上很多,利用了诸如脱壳,解压,虚拟机等等技术,这些我们将在日后的文章中逐渐介绍。 更多内容请看常用软件加密宝典 软件插件 杀毒软件专栏专题,或(出处:http://www.sheup.com/)