西西河

主题:请教:关于大流量网站的架构问题 -- kingcu

共:💬21 🌺33
全看分页树展 · 主题 跟帖
家园 除非你的计算量很大,否则没有必要用gfs架构

google之所以用自己的分布式文件系统GFS,以及建立在GFS之上的big table分布式数据库,都是因为它自己的应用特性决定的。反过来,GFS和big table也是针对google的应用特性来设计和优化的。

首先,google在后台对crawler扒来的网页数据进行处理,进行大规模的矩阵运算,来得出page rank,这本身就是要消耗大量的CPU cycles,所以server farm对它来说是最便宜的CPU资源了:400块一个白盒子,简直就是白菜。同时得到的还有更加廉价的硬盘空间。

而google big table分布式数据库,从google发表的论文里面可以看出一鳞一爪,那就是:big table是面向添加优化,而非面向修改优化,另外big table是面向文本内容而非面向二进制内容优化的。这些都是为了google搜索服务的。

你的朋友的网站,其实一开始不必考虑那么多,用不同的二级域名做一下负载均衡,设计的时候考虑一下,对可能的负载瓶颈,比如mysql服务器,做一下均衡,就可以了。等真的流量上去了,再重新设计不迟。

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河