西西河

主题:【原创】寻找小强 -- 数据传输故障调查实例 一 -- 萨苏

共:💬99 🌺346
分页树展主题 · 全看首页 上页
/ 7
下页 末页
    • 家园 老萨对大公司IT的描述一针见血啊

      兄弟我就是混迹IT,这种感觉由来已久,IT就是挨踢,此言不虚。

      • 家园 俺们罗刹国的ISP最差劲...

        俺们罗刹国的ISP最差劲...网络也是传输速率极慢...这俩月我天天跑他们公司,天天打电话...也没结果...技术部门还让我写申请,派人来看看...写了2份了也没动静...罗刹朋友说 他们国家就这样~公司都是开了今天,就不知道明儿的...

    • 家园 老萨加入贴图党了?

      到SC卧底过?

    • 家园 谢谢:

      作者意外获得【西西河通宝】一枚

      推荐成功!

    • 家园 【原创】寻找小强 -- 数据传输故障调查实例 二

      为什么不着急呢?

      因为大多数网络问题,往往都是无疾而终。

      这当然不是说网络是和人一样有再生功能的,肚皮上切两道口子,不理它过几天就好了,网络可没有这个功能。虽然也有太阳黑子活动剧烈导致网络中断,不管它也会恢复的例子,但大多数的网络问题,还是“没病死不了人”,没有人去解决,不会自己消失。

      点看全图
      外链图片需谨慎,可能会被源头改

      查!看是不是铁道游击队改行了?

      但是,IT行里心知肚明的一个潜规则就是,ISP很少承认自己网络存在故障。这在我国十分典型。您公司要是有专线可能会体会到,要是线路断掉,给电信的八路打电话去问,八路的回答往往是 – “我们查一下阿。”

      然后,没动静了。

      再打,人家会说 – “没问题阿,你再试一下。”

      聪明人一试,通了,什么话也别说,打枪的不要,乖乖接着干活儿就完了。

      笨的呢,通了,还给人家八路打电话 – “长官,你们干了什么了?怎么就通了?”

      点看全图
      外链图片需谨慎,可能会被源头改

      人家回答 – “我们什么也没干阿。”

      浪费电话钱。。。

      你又不是电信的领导,人家就发现混线了或者哪个Shaping做得不对有必要跟你汇报么?

      国外的ISP要客气得多,五分钟一次地跟你汇报进展,就是每次都没找着毛病之前自然病愈。

      你只能相信他也不明白是怎么回事。。。

      这次,我们组的工程师上来一测,线路两端通畅,六脉吉祥,心里大体就有数了 – 多半是哪家服务商的线路出了故障,可没抓住人家的手。公司内部有监控系统,但监控的对象是点对点,中间这段儿的炮楼是好几家负责的,究竟哪里出了问题,刁世贵说是汤司令通八路,汤司令说是易先生脚踩两条船,易先生说刁世贵是地下党,那可是个打不清的官司。

      现在,虽然慢,接到报告时数据传送的事情已经干完了,而且网上测了测,所有指标都正常,看不出不正常的地方来。工程师只能发个公函给各个服务商,要每家给份报告说明自己那段有没有看见过八路,结果自然可想而知。

      点看全图
      外链图片需谨慎,可能会被源头改

      太君,俺们这疙瘩肯定没来过八路

      这种事,通常拖过一段大家就会忘记。

      然而,这一次不行了,第二天业务部门又半夜鸡叫起来 – 还是慢。

      不敢怠慢,工程师登录上去看的时候,数据还在传,果然是慢悠悠的样子。一面冒火一面首先联系各炮楼。

      结果还是 – 太君,八路的没有。

      点看全图
      外链图片需谨慎,可能会被源头改

      不信我们的话,有种你自己上炮楼瞧去

      还真说不出什么来。

      为什么呢?

      线路测试确实表明,依然是两端通畅,六脉吉祥,传输时限要求是200MS,结果只有127MS,这供应商是个有心的,专门提供给我们一个网页可以随时看他们的网络状况,真的假的不说,显得满有诚意。

      点看全图

      上面这张图是个例子,并不是当天的实际情况,可以看到作为ISP,提供的资料还是很详细的。

      特别是我们一直担心的数据传输出错率,这里可以看到是0.00%,说明出错很低,按说不应该有问题啊。

      还有一种可能,双方负责传输的网络设备负荷过高,无法承担工作。

      检查了双方路由器的工作状况,CPU和内存的使用率都不高,显得富富有余。

      可数据传输还是慢。

      一线不行,就得叫二线了,半夜把老萨叫醒。

      点看全图

      老大,快出来看看,弟兄们顶不住啦!

      半夜里爬起来,就算不是冬天也不舒服,不过,对于解决问题,老萨比这哥们儿还自信。

      因为网络上的故障,说穿了复杂的并不多,多半是土八路用汽油桶放炮仗,红灯照作法,只要找到症结,不难解决。

      于是,听了听这位的汇报 –

      两端路由器之间没有丢包,两端对着测一下,速度值令人满意。看来,至少广域网上不该有问题。

      为什么不从两端的服务器做一个简单的点对点Ping对测呢?

      这比较困难,主要是防火墙上对Ping这种简单的测试手段进行了屏蔽。这还要归功于当年中国红客攻打白宫造成的震慑。为了报复美机轰炸中国驻南斯拉夫大使馆,2001年5月4日,八万名大多不懂网络技术为何物的中国网民,在某些“别有用心的人”指挥下,于固定时间一二三同时对白宫网站的地址发出了Ping测试的数据包。百川归海,这些每一个都不起眼的数据流汇集到白宫就成了超强的“数据炸弹”,白宫网站因而一时瘫痪。

      从那儿以后,各国乃至各大公司,普遍在防火墙上设置拒绝Ping所使用的ICMP数据包。由于这是一条国际线路,双方合作精神不够,都没有为对方的Ping测试解禁,这下子给寻找问题带来了意外的困难。

      一方面联系双方的防火墙负责人紧急解禁,一方面我们也不能干等着吧。萨调出Sky-X上的数据传输记录来,想看出问题何在。

      几分钟以后,还真让我看出点儿东西来。

      初看,传输的速度很高,最高的时候几乎把10M的带宽占满,似乎网络传输的效率颇高。但是,老萨把传输记录每秒取一值,问题就露出来了 。。。

      在我的眼前出现了一排锯齿。

      而正常的数据传输,应该是一条平滑曲线阿。

      曙光,好像就在前面。

      好像。。。

      [待续]

      通宝推匿名:1
      • 家园 瞎猜

        原因:本地或对端内部服务器的task负荷过大(被哪位大拿加了几个同时定时启动的辅助软件),或者更大的大拿对task进行了源码改善(确实是达到了改善目标,不过改得恰到好处,正好带来task启动时内存临界leak状态)。

        对策:1.服务器加内存

        2.......

        3.......

        结果:(IT向业务发行的事故处理报告书中记载)我们没有做什么特别的啊。好像可能也许一定是ISP那边出了问题。不过经过我们24xN小时的连续监测,已经没有类似问题再次发生。以上。

        (瞎猜的,谁也别当真。呵呵。)

      • 家园 花 别是双工不匹配吧
分页树展主题 · 全看首页 上页
/ 7
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河