西西河

主题:【原创】家用硬盘阵列RAID实例-壹 -- 梦回唐朝

共:💬83 🌺127
分页树展主题 · 全看首页 上页
/ 6
下页 末页
            • 家园 RAID5+x 系列太高端了

              只能适用于大企业级的服务器,对于家庭用户来说未免有点高不可攀。

            • 家园 RAID5其实有严重的性能问题

              我曾经和正管理和使用着从2个到133个盘的各种盘阵好几个,根据实际经验,RAID5盘阵除可靠性与容量的折中这一点外,其读写性能有严重问题,特别是在低端芯片上的RAID5盘阵更是如此,远不是理论上那样的。

              以4个盘的主板集成RAID5盘阵为例,其读性能峰值可能在100-200MB/s,但这个峰值只能持续几秒钟,持续的传输速度也就50多,只比一个盘稍快。而写性能更糟糕。如果是有很多任务并行写,其速度也和单个盘差不多。单个任务顺序写的话,也是有几秒的高突发速度,然后迅速下降到比单个盘稍快的地步。总之4盘的RAID5在实际使用中感觉不出比单盘的明显优势。这些现象是因为文件系统和RAID5本身数据组织相互干扰的结果。现在的文件系统并没有专门考虑RAID5这种复杂的数据组织方式,导致最终性能劣化的结果。

              在我们133个盘的盘阵上,用的是4D+1的RAID5,其性能也很一般,持续写带宽也就100MB/s左右。我们用的已经是最高端的企业级控制器了。这个可能是多方因素导致的,厂家优化了很久也无法提高这个性能。可能这个企业控制器对并发控制得好,但对持续读写控制得不好。所以小文件读写可能有优势。不过我们不关心这个,所以没有测试过。

              对应目前的硬件技术来说,建议家用和小型办公都使用RAID1+0。比如机器装4个1.5TB的盘,则两两先配成RAID1,再把两个RAID1配成RAID0。这样的配置可以达到3TB容量,但读写速度基本上可以达到单盘的2倍。如果配成RAID5,虽然有4.5TB的容量,但性能却差不少。何况以目前硬盘的容量,那1.5TB的空间可能也没有多少意义。

              如果只安装两个盘,也建议RAID1。RAID0太危险,即使做家用也无法接受。

              • 家园 写的太好了,很实用

                用大硬盘那一定是有大量的数据(对家庭而言就是相片,录像和影片等),而这些数据的重要性(高清影片下载不易、相片和录像的不可再生性)决定了必须要有百分百的安全。个人认同RAID1是最低成本和最安全的家庭存储方案。

                我现在的存储方式是,相片和录像是RAID1,影片是单碟(这是受预算的限制),下来的方向是就RAID1+0

                RAID5家用不太合适,商用更好,就我的经验,运行全公司共享的ERP系统时,RAID5可以在硬盘出问题时提供最低限度的使用可能(但也就是勉强支撑)。

              • 家园 瓶颈不在硬盘

                硬盘读写速度再快也没用,因为盘柜的光纤传输速度决定了瓶颈。

                并且,就算做多路径,业界的标准也很复杂,兼容不兼容很难说。

                • 家园 光纤应当不是瓶颈

                  如果HP设计有这样的问题的话就太不像话了。

                  我们的设备,133个硬盘分9个盘柜,都是双路光纤连接到两个冗余控制器。每个控制器和服务器是4路(还是8路?记不清楚了)4G光纤连接。多径肯定是成功的,设备都是HP一家的。任何一个地方的带宽都比达到的峰值高至少1个数量级。

                  • 家园 不知你们用的HP的那种控制器

                    我们组用的HP MSA20,我觉得瓶颈是MSA20里的控制器,RAID6,12硬盘阵列,持续的速度,读35MB/s,写22MB/s。

                    看过一篇文章,谈到TB时代是RAID技术的终结,基本观点是对的。我个人觉也得RAID是过时的技术了,分布式冗余文件系统应该是以后的方向,速度、灵活性、健壮性都好得多。

                    • 家园 RAID 6没那么慢阿

                      我们组的RAID6,12硬盘,持续读写速度都在240MB/s左右,RAID阵列内大文件拷贝在100MB/s出头。几年以前的产品了,3ware 9650卡,400G硬盘,最后容量4T。

                      你们的速度也太慢了吧,应该查一下是不是什么地方有问题。

                      对了,最有可能出问题的地方是cache没有打开-一般需要加装电池模块以后cache才默认打开,如果你们有UPS,可以手动打开cache。

                    • 家园 你的RAID6是瓶颈

                      RAID6比RAID5性能还要差,只是更增加了一层容错,两个盘坏都可以保证数据不损失。但为了这个容错能力,要使用更多的数据进行交织校验,所以小写的性能就更差了。如果换成RAID5的话,应当可以达到50左右的速度。我们有一个12盘的集成NAS服务器,差不多就有这个速度。所以除非十分必要,我们一般不使用RAID6,即使用RAID5+spare也比RAID6好。

                      我们的控制器是EVA8100,那个是最高端的,RAID组织和磁盘管理方式都不一样的,控制器不应当成为瓶颈。

                      另外,分布式文件系统的读写性能是针对某些独特的操作优化的,所以如果你的操作不是这少数几个优化过的操作,其性能将极低,远低于单盘的性能。而通常的家用和工作组使用,那几个操作都是基本上用不上的,只有大型数据分析处理才用得上。而且现在的产品都不太成熟。所以使用这个要慎之又慎。

                      • 家园 RAID6是比较慢,但RAID5也快不了多少

                        感觉是MSA20里的控制器速度不够快。我们的数据比较重要,服务器里是唯一的备份,所以选择了安全性最高的RAID6模式。看过一篇Google的人写的文章,讨论硬盘阵列的出错率,说是3、4年后,硬盘的失效概率还是很大的,远比想象中的高,所以我们用了RAID6。

                        开始时也试用过RAID5,速度也比想象中的底。其实我个人觉得,用NAS+NFS还快些。虽然没有容错功能,但真出大问题的时候,也不会丢掉全部数据。

                        • 家园 好像是RAID5 10个左右2T盘

                          大概10个2T盘组RAID5,在重建整列的时候就可能会遇到不可恢复错误。也就是说如果坏了一个盘,重建的时候可能整列还是恢复不了。 所以RAID6才有了出头之日。

                          • 家园 有这个问题

                            不过大家刚发现这个问题的时候,硬盘的不可纠正错误率(non-recoverable errors) 是 平均10^14次出错一次。现在基本所有硬盘的出错率降低到10^15的水平了。

                            很容易计算:

                            10^15 ~= 2^50。换算成字节的话,2^50 bits = 1024Tb / 8 = 128TB

                            也就是说,如果硬盘阵列达到128TB的话,全阵列重建应该是注定要失败的。RAID6当然就好些,而且RAID6在对付硬盘硬件失效时,比RIAD5就安全多了。

                    • 家园 云存储?

                      是否就是您所提的分布式冗余文件系统的一种?

                      • 家园 云存储可以算,不过云存储比较高层次、海量的架构

                        还有其它一些系统,比如AFS,ZFS文件系统,也是分布式的文件系统。

                  • 家园 瓶颈

                    133个硬盘,分别在9个盘柜,不知道RAID是如何划分的,要是分别跨不同盘柜的话读写速度能快点,要是只局限在同一个盘柜的话,速度可能受影响。

                    盘柜虽然是双路光纤连接到两个冗余控制器,但是工作的只有1条,其余的都是备份路径。按4G来算,最快速度也就280mb/s。

                    每个控制器和服务器是4路,有可能同时工作,速度应该是280×4mb/s。

                    再加上跑的应用,有可能不能给到控制器足够的读写命令和队列深度,用专门的多线程读写软件测试应该能快一点。不过我估计能达到200mb/s就不错了。毕竟实际跟理论是有差距的。

                    • 瓶颈
                      家园 你这个说法是中端控制器的问题

                      我们用的是最高端的,HP EVA8100。这个不可能有这样的问题。每个控制器单独的cache就是4GB。盘柜并不自己组织RAID,只是硬盘的接口而已。所有硬盘都在控制器统一调度,用4D+1的方式组织成多个RAID5,再类似RAID0拼接成需要的容量,并预留5%左右空间作为热备。9个盘柜的硬盘是可以被控制器同时访问的,两个冗余控制器事实上也是同时工作的,不是stand by spare。这里可能想象得到的瓶颈,如果HP这样的专业大厂都想不到、在最高端控制器里面还解决不了的话,那它早就倒闭多少回了。

                      至于多线程读写,我们是用的16-32路同时大读/写测试的,应当是可以发挥到硬件的极致了。

分页树展主题 · 全看首页 上页
/ 6
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河