主题:【半原创】Flickr 网站架构研究(1) -- 西电鲁丁
1. 50%的说法确实不太准确,已改为“每个数据中心的设计容量是能够处理整个"Pair"100%的访问”。事实上由于东西海岸的数据中心服务于不同地域的客户,时差不同,不会同时处于峰值,这样系统的冗余应该没有50%这么大,考虑到突发事件和“灾备”的作用,这部分冗余应该是可以接受的。
一个小故事是:2005年7月,Yahoo收购Flickr后刚刚把Flickr网站从温哥华移到德州的Yahoo数据中心,在修改DNS指向新的数据中心后才一小时,伦敦地铁发生爆炸案,当地人将不少照片上载到Flickr,随后是大量的互联网报道链接指向这些照片,Flickr的访问量激增,远超以前的峰值,如果不是新数据中心有足够的容量,Flickr恐怕就"挂"掉了。
云计算,看起来很美,实际还有很多细节没有解决,比如很多云服务提供商的SLA条款不够完善,对于租用者来说很难量化并监督以保证对最终用户的服务质量;由于对于租用者来说是个”黑盒子“,所以很难把握系统的实际性能及运行情况,给系统监控和容量规划带来困难;应用架构可能需要调整以适应云计算等等。另外,从费用来讲,云计算并不一定便宜,实际上不同企业情况不同,不能一概而论。
2。关于Squid的问题,其实可以细分为以下几个问题
1)Squid是否支持复制功能(replication)?
这个我不是Squid专家,好象没看到,看到的功能都是如何防止duplicate.道理上讲在Layer 7的Load Balancer的规则上做点手脚,比如哈希后”模2" 等,让Load Balancer将特定的URL指向两台Squid服务器中的任意一台,好象是可以实现的。
2)一台Squid失效,对Farm或者整个网站有多大的影响?根据2007年的数据,Flickr每秒处理4万个文件访问请求,而图中一台Squid的每秒峰值是620,平均值不到500个,粗略计算得知,Flickr应该有大约80台Squid服务器,每个数据中心大约10台左右,那么损失一台总体上对于一个数据中心的影响仅10%,对整个网站则几乎可以忽略不计了。
3)一台Squid需要多少时间Warm up? 不知道。 哪位河友能提供一下数据?
- 相关回复 上下关系8
压缩 2 层
🙂谢谢鼓励。 西电鲁丁 字0 2009-12-31 18:30:12
🙂看一遍不够 1 邓侃 字191 2009-12-22 02:11:43
🙂先送花再学习 2 羽羊 字1235 2009-12-20 21:55:51
🙂【讨论】好问题,送花并试着回答一下
🙂Squid是用BerkeleyDB 6 yueyu 字708 2009-12-21 23:28:18
🙂谢谢yueyu兄参与讨论,花谢 2 西电鲁丁 字350 2009-12-22 07:30:22
🙂这个,要看用途啊 2 yueyu 字576 2009-12-22 20:11:40
🙂谢谢,那memcache的hash table效率如何? 西电鲁丁 字0 2009-12-22 20:37:28