西西河

主题:【原创】证券交易系统 -- 为什么要低延迟? -- miketan

共:💬29 🌺214
全看分页树展 · 主题 跟帖
家园 【原创】网络延迟

网络延迟

数据从自动交易主机生成,经过网卡到达线路上,在经过一个或几个交换机然后到达交易所的交易主机,这中间有三种网络有关的延迟:

主机网卡的延迟

网络交换机等设备的延迟

数据在线路上以光速传输产生的延迟

网卡的延迟

我们先给出一个网卡延迟的定义:网卡的延迟是从应用程序调用Socket的send()函数开始,到数据到达线路上的时间;或数据从线路进入网卡到应用程序接受到Socket recv()函数回调的时间。这个延迟包括了操作系统网络协议实现(比如TCP Stack)的延迟,内核的延迟,以及网卡自身的延迟。

我们这样定义网卡的延迟,将和网卡有关的延迟,包括网卡,主机,操作系统及网卡驱动全都打包进一个数字,是因为它们密切相关,相互影响,并且很容易和应用程序的延迟分开,并且容易测量。常用的测量程序是流行的Ping-Pong,就是在一台机器发出一条消息,另一台机器受到后立即送回去,原来的机器接受到后计算所用时间来计算延迟。这个延迟对网络系统来讲通常叫用户级延迟,因为他是用户看到的延迟,其中操作系统延迟的比重要大于真正网络部分的延迟。

现在主流的低延迟网卡有两大阵营:10G Ethernet和Infiniband。Infiniband出现大约在1999年,而10GE在三年后才出来。Infiniband因为不需要考虑兼容旧版本,性能很先进,尤其是延迟方面,可以达到端到端2微妙的低延迟。10GE是作为1G以太网的升级,有和过去的以太网相同的API,现有系统可以直接使用。10GE虽然传输速度有了很大提高,可以和Infiniband相比较,但在延迟方面就差得很多,因此Infiniband曾是低延迟系统的首选。好在最近推出的新的网卡,把这一差距拉平,甚至超过IB。10GE因为开发容易,从新获得人们的青睐。现在的最新的产品用户级延迟在4微秒以下。

除了上面提到的两大阵营,还有一些其他的技术,他们可能延迟更低,比如基于PCI Express的Dolphin网卡和交换机,但用户较少。

操作系统的延迟

在网卡收到一个数据包时,会产生一个硬件中断,CPU在捕获到中断后调用网卡的中断服务程序(ISR)来处理这一事件,ISR负责把受到的数据从网卡拷贝到内存,再生成一个DPC(Deffered Procedure Call)对象并放在DPC对列中。这个DPC负责后续的处理工作,包括运行操作系统的IP Stack,然后通知用户线程受到了数据。在多CPU的系统上,每个CPU都有一个DPC对列。当没有更高级的中断需要处理的时候,CPU会运行DPC对列中的任务。

在上面这个过程中,有几个产生延迟的地方:ISR转到DPC,DPC转到用户线程都会有context`switch;如果ISR和DPC还有用户线程不在同一个CPU上,还需要Inter-Processor Interrupt来启动线程执行。

操作系统的网络实现,比如TCP Stack,需要很多CPU时间来运行,也会有延迟。一般来说每1bit的网卡速度就需要1hz的CPU主频来处理。对于10GE双工的网卡,需要处理20G bit,也就是说要20G HZ CPU主频来处理,或者说需要10个2G主频的CPU才能处理一个满负荷的10GE网卡的流量。CPU能力不足时会造成很多数据来不及处理,就会使缓存完全用完。如果是TCP协议,主机就会向对方发出接受窗口尺寸为零,对方会停止发送数据。对UDP协议来说,来不及处理的包就会被丢掉,这都会造成很大的延迟。如果TCP数据发生了从新传递申请,那延迟就会大倒无法忍受,有可能会有数秒甚至更长的延迟。

高性能网卡都有针对TCP Stack的优化,尽量把一些东西放到网卡上让专用硬件来处理,就是TCP Stack Offload Engine(TOE)。比如建立连接,计算数据包的完整性(Checksum),计算接受窗口大小,发送ACK消息,中断连接等。

另外,因该把每一个网卡安排在不同的CPU上,让CPU分担任务。一般行情数据的网络流量会很大,比如在每秒十万条到一百万条数据的样子,而下单的通道不会有太大的流量,把他们分开在不同的网卡上可以改善下单的通道的延迟,不会因为行情数据出现超大流量是而影响下单。

网络交换机等设备的延迟

你需要低延迟的网络交换机,普通的网络交换机延迟都很高,如果网络中有路由器,那延迟就太高了,这就是为什么我没有把路由器列在上面。现在的低延迟交换机延迟都远远低于一微妙,一般在几十纳秒,而且每隔几个月就有很大进步,因此不会有太大的问题。

但这些低延迟的交换机都没有NAT功能,在低延迟的网络里不应该出现NAT。不经过NAT的意思就是,我们的机器和交易所的机器使用同一个网段的IP地址,形象点说就是从交易所的交换机直接拉条网线到我们的机器上。我们一般在和交易所连接的机器上装多块网卡,每一块连接不同的交易所,还有面向内网的网卡。这样的网络环境会比较复杂。

数据在线路上以光速传输产生的延迟

光传输得很快,每秒钟300000公里。但它也走得很慢,每一微秒只能走0.3公里,不过一个街口。因此在低延迟网络环境里要考虑数据中心的位置。

通宝推:博客南,镐梓,一目十行,李根,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河