主题:【原创】it科普二 蛋疼向研究之GFW -- 浩瀚星辰
华为这个玩意应该还是应用于网管,用在GFW上似乎差点意思
主要是大数据量的问题
1.特征字是最简单的,但是在大数据量的情况下应该是跟不上的,比方说GFW的要过滤的关键字有10万条,而且关键字还在不断增加中,每秒过交换机有100万个包(实际应该远远大于这个数字),平均每个包的长度如果按500个字节算,可以想象在对每个包进行过滤时候的运算量。除非分散到若干台机器中,但这个数字也是很恐怖的,比较现实的做法是限定某些范围的IP包的比较(比如只对GoogleIP地址进行过滤,先用IP地址过滤一次,由于IP地址是直接比较,这样运算量能降下几百倍,在数据量降下几万倍之后(Google的数据估计只占整个网络数据的几万分之一,甚至更低)然后对来自这些IP地址的数据进行过滤。
2.应用层网关识别耗的是内存,因为需要根据控制流来建立Session,每秒维持上百份甚至更多的Session,而且需要考虑到异常情况,也就是某个Session没有正常结束,挂在哪儿了,怎么办?而且这种识别是死编码,增加一个业务,就需要重新对这种业务进行编码,对于复杂的控制流,CPU运算量也是很大的。
3.3同2一样,太耗CPU和内存,只能用于特定场合,而且识别率有问题。
1,2我都用过,在运营商那里实时分析一个省的全部数据(用于网管的业务分析),小的省还可以,大点的地方根本不敢去,做到最后,不是死在了CPU上,就是死在了内存上。海量数据处理才是这个技术的核心,协议分析都是浮云。能做的几家,硬件上投资都很大,而且效果不佳。
- 相关回复 上下关系8
🙂GFW的脚步一直没有停下来 晓风残月 字68 2010-01-15 08:51:04
🙂shhtp对话也能过滤? 素里太守 字0 2010-01-14 14:24:25
🙂GFW 工作原理可以去看这个 宋兵乙 字127 2010-01-14 00:24:47
🙂这个三个好像都无法用到GFW的实际中
🙂大数据量关键字匹配不用什么快速cpu 1 折耳根 字350 2010-01-16 06:00:57
🙂你们公司大概走错路了 1 宋兵乙 字524 2010-01-14 08:14:17
🙂不成吧 doom 字303 2010-01-14 08:29:56
🙂这篇文章说得比较详细 1 宋兵乙 字338 2010-01-14 09:07:00