说在前面的话:本文无意对“BT是否伤硬盘”这个问题下最终的结论。因为如果要下结论的话,从严谨的角度,我们至少要进行一定数量的对比测试,即对一批硬盘,在其他条件如电压、散热等相同或同样波动(在产品规格的要求范围内)的前提下,以一半运行BT另一半不运行来进行测试。为取得较准确的测试结论,即排除个体性差异可能对结果造成的影响,样本数必须要达到可接受的程度,同时,也必须保证足够时间的测试周期,而这是我们目前所无力承担的。本文谨从理论与技术角度,对在这个问题的争论中常常被误解或曲解的几个方面,谈一下个人的理解。
一、关于企业级与桌面级硬盘
在关于“BT是否伤硬盘”的争论中,常见到有人有意无意地拿服务器7X24运行,其SCSI硬盘长时间不间断地工作,进而由“SCSI硬盘与ATA(IDE&SATA)硬盘在内部使用相同的技术,二者之间的区别仅在于外部接口与价格的不同”得出“在PC机上BT,不会对硬盘有什么影响”之类的结论。这样看问题不能不说偏颇,针对服务器应用的SCSI硬盘与针对桌面级应用的ATA(IDE&SATA)硬盘的区别绝不仅仅在于外部接口的不同,相反地,SCSI硬盘与ATA(IDE&SATA)硬盘的区别体现在硬盘接口问题的仅仅是很小的一方面,其他方面的差异更大,如稳定性、可扩充性及硬盘级容错上。
需要特别指出的是,把SCSI硬盘等同于企业级硬盘或把ATA硬盘等同于桌面级是不准确的。严格意义上的所谓企业级与桌面级的区别并不在于接口,而是由其他诸多因素如制造工艺方面的机械设计、原料选择、电路设计、固件以及应用方面的易扩充性、易维护性、容灾能力等诸多因素决定的。比如SCSI硬盘也配置于很多高端的桌面机,再如西数的SATA 硬盘Caviar RE II也号称企业级硬盘,而企业级也有其他更高端的如FC(Fiber Channel)、SAS(Serial Attached SCSI)硬盘等。本文为讨论方便,姑且以SCSI代表企业级,ATA(IDE&SATA)代表桌面级,(在大多数情况下这是成立的,而拿SCSI硬盘的某些特征来论证ATA硬盘也如何如何也是在“BT是否伤硬盘”的讨论中最常见的。)不严谨之处敬请海涵。
不同的目标市场决定了从产品的最初设计规范到制造、测试过程中侧重点的不同,企业级硬盘的设计目标着力于提高硬盘IO性能、针对大密度的随机存取(多体现在数据库应用中)的优化、多硬盘协同、以及高强度负载下长期工作和多硬盘紧密相邻的使用环境下对振动与高温的容忍等。虽然企业级产品在设计与生产时也必须要考虑价格的压力,但性能与可靠性则是更优先的因素。而桌面级市场则为价格敏感度极高的市场,厂商在研制桌面级硬盘首先考虑的一个因素便是性价比。在激烈的市场竞争下,价格永远是决定性的因素,而在很大程度上,所谓的“性价比”往往是一种价格主导性的折衷,在目标价格的范围内实现必要的性能,达到相应的设计要求,如容量、缓存、寻道时间、噪音控制等;另一点,容量是仅次于价格的因素,这也是市场的需求,故而在家用级产品中往往使用比企业级产品更多的碟片。——对发热量的提升与运行故障的增加所起的作用是不言自明的,而这很难从根本上解决。
所谓的“SCSI硬盘与ATA(IDE&SATA)硬盘在内部使用相同的技术”只是指其工作原理上的一致,SCSI硬盘的许多旨在为提高稳定性及容错能力上的设计在ATA(IDE&SATA)硬盘或根本没有或只有其廉价的简化版本、替代版本。
另一方面,对企业级ATA(IDE&SATA)硬盘的高可靠性也须有清醒的认识:其立足点在于以相对低廉的价格实现大容量,这个前提决定了它是在现有的大容量ATA(IDE&SATA)硬盘的基础上加以优化、强化,而不是改变ATA硬盘的整体架构与生产工艺,因此其高可靠性更多的是相对于桌面级产品而言的。
二、几个概念的澄清
首先要明确的是,单纯地讨论开机时间(Power-On Hours:POH)是没有意义的,企业级硬盘规格中7X24的要求也绝非仅仅指24小时开机,——对硬盘而言,“开机”与“工作”是两个不同的概念:硬盘在没有访问数据的任务的时候,基本上就处于盘片空转、磁头悬浮在某一位置不动的空闲(Idle)状态,这时无论硬盘的发热量还是开机对硬盘造成的损耗都是很小的,长时间不工作硬盘还会进入更深度的待机(Standby)状态。——而是指在一定的负荷压力下能够支持24小时连续工作。
负载循环(Duty Cycle)便是衡量这种工作压力的一项参数,其定义为特定时间段内硬盘寻道、读、写操作所用时间占总时间的百分比。当硬盘接收到数据请求指令时,与Idle状态相比,无论磁头寻道还是读写都会产生热量都会有损耗。Duty Cycle值越高,故障概率便越大。由图一可看出随Duty Clcle的增大,年故障率(Annual Failure Rate:AFR)放大指数的变化情况。
在给定的Duty Cycle下,POH与AFR放大指数的关系如图1。
图2中揭示的另一个规律则是多碟片硬盘受Duty Cycle的影响更明显。(图中黑线为4碟盘,兰线为单碟盘)。
从图1中可清楚地看出,即使在其他条件给定(如盘体材料、电路、温度、Duty Cycle等)的情况下,把设计目标为2400小时/年的桌面级硬盘拿到企业级应用(8760小时/年),故障率会有成倍的提高。(注:针对企业级应用,其年运行时间为24X365[天]=8760小时,而桌面级的年运行时间一般为8X300[天]=2400小时,依厂商不同,也有以8X5X52[周]=2080小时来计算的,近年来也有些高端的桌面硬盘设计要求为12X5X52=3120小时。另一点需要说明的是,与企业级相比,桌面级硬盘的设计目标不仅在时间的缩水上,还体现在企业级的8760小时是在Duty Cycle大于80%甚至到100%的情况下,而桌面级的设计要求中Duty Cycle往往只有20%或更低。)
[1] [2]
对Duty Cycle,除了表面上的数字外,也要认识到,良好的设计及优秀的寻道时序安排会大大提高寻道效率,因此相同的数据请求对不同的硬盘而言所产生的Duty Cycle是不同的,以容量、价格为优先而设计的桌面级硬盘与企业级相比,先天上便有不足,有着较高的Duty Cycle,例如测试数据表明,同一台机器分别使用SCSI硬盘与ATA硬盘,对应SCSI硬盘的Duty Cycle为40%的某一任务,而ATA硬盘则为75%才能回应相同的数据请求。
BT是一款磁盘操作相关度极高的软件,同一时间内多线程的读、写请求使硬盘的Duty Cycle长期保持较高的状态,这个问题是先天性的,仅靠购买大物理缓存的硬盘或加大BT设置中的软件缓存只是在一定程度上有影响,无法从根本上解决。而且,在ATA(IDE&SATA)硬盘上表现得更为明显。这样,当长时间运行BT时,故障概率便不可避免地大大增加。
三、温度、振动与电源
理论上说,硬盘适宜的工作温度在20℃-50℃,机箱温度:0℃-60℃(环境温度变化在20℃/小时内)短期超过温度限制不会有太大影响,连续、长时间地超过温度上限,则会降低硬盘稳定性,缩短硬盘寿命。而在BT或类BT应用的长时间工作下,硬盘温度的上升是不可避免的,一方面,硬盘本身进行大数据量的频繁操作产生热量,另一方面,机箱内其他部件如CPU、显卡等也会产生大量的热量。如果机箱散热做得不够理想的话,硬盘的故障也就在所难免了。图3直观地表现出为随机箱内温度的上升AFR放大指数急剧升高的情况。
其他象硬盘工作应避免振动、选一款输出稳定纯静的电源之类则更是常识了。但在日常中却屡见选用廉价的劣质机箱,平时一碰就颤颤悠悠的,使用输出电压波动不停的机箱电源,还有的朋友为给硬盘散热特意加了散热风扇,却因电扇品质的低劣或机箱强度不够引起共振,等等,这种情况下硬盘的损坏,某种意义上应该说与BT无关亦与硬盘无关,但要BT或硬盘承担“恶名”。
四、MTBF
“一般硬盘的MTBF至少在30000或40000小时,这是连续无故障时间,大家可以自己除一下,看看是多少年。然而大家自己想想,自己的硬盘平时连续工作最久是多长时间。”类似这样的说法在“BT是否伤硬盘”的争论中常被认为BT不会伤硬盘的一方拿出佐证本方的观点。如果说上文所言之关于企业级与桌面级的混淆还多少有点似是而非的道理的话,这种把MTBF等同或近似于硬盘寿命的说法则是完全错误的。
MTBF(Mean time between failure)常被翻译为不间断工作时间、平均无故障时间、连续工作时间之类,其实这都有些不确。这种翻译上的歧义加上厂家有意无意的误导,(如前段时间某国产PC厂家在其商用PC的MTBF突破X万小时的宣传稿中,便屡屡暗寓其PC寿命几万小时之长。)是造成这种错误理解的根源。
MTBF严格意义上应表示为总运行时间/每错误,为简单地说明这个问题,在此借用一下很早以前IBM网站曾举的一个例子,假定某年美国人的死亡率为每一千人(一千块硬盘X1小时)1.1(硬盘故障率),则相应当年美国人的MTBF为910年(1000÷1.1=910小时/故障),这样就清楚地看出MTBF与寿命之间的关系:即使最长寿的人,也不可能活900年。
由上可见,MTBF是一项群体特征,而不是某个个体的一项参数,更与产品的使用寿命无关。比如对于一家有1000台PC运行的企业,当其为可能损坏的硬盘准备替换备件时,MTBF是一个有用的参数,而对于其中单独的某一台,这个参数没什么意义。
当然,厂家给出的MTBF并非简单地指(测试硬盘数量X运行时间)/(故障数),其结果的给出依据一套十分复杂的数学模型,在确保达到要求的温度范围内,以大样本数、长时间运行,在规定的容许故障率基础上,得出(总运行时间/故障硬盘数)的原始值,在此基础上加各种参数修正(所谓的修正以将该值放大为多,比如说硬盘理想的工作温度为25℃,而测试是在42℃下做的,而理论表明25℃时故障率比42℃时要低一倍,则相应地MTBF值便翻了番。其他如Duty Cycle、年POH等等皆为如此),最终得出了一个无比巨大的官方公布数字。
所以,MTBF只是一个参考数字,不同厂家之间的MTBF没有可比性,因为它们采用不同的数学模型来计算;即便同一厂家,其桌面级产品与企业级产品相比也无意义:企业级产品测试时的样本数、测试周期远远多于桌面级,(几)千块运行半年到九个月甚至更长,而桌面级多为(几)百块运行1个月至多不超过1000小时,二者最终数值的修正因子与修正方法也差别甚大,在某种意义上说,企业级产品的MTBF值的得出还算严谨,而桌面级则往往竞争的压力下变了味:大家可以看一下桌面级硬盘的参数,简直在进行数字竞赛,从几年前的几万小时一跃到如今的百万小时量级,难道大家真以为硬盘制造技术在短短几年内有如此突飞猛进的变化?
五、结论
通过以上的讨论,相信大家对“BT是否伤硬盘”的问题有了自己的答案,也清楚了在BT使用中如何更好的保护硬盘,比如说除改善BT的设置如加大软件缓存外,还要保证PC的电源工作良好,加强散热,避免硬盘的振动,在BT运行时尽量少运行有大量磁盘请求的任务,当然,还有尽可能缩短连续运行时间,等等。 更多内容请看BT 硬盘知识专题,或
(出处:http://www.sheup.com)
[1] [2]
当然,厂家给出的MTBF并非简单地指(测试硬盘数量X运行时间)/(故障数),其结果的给出依据一套十分复杂的数学模型,在确保达到要求的温度范围内,以大样本数、长时间运行,在规定的容许故障率基础上,得出(总运行时间/故障硬盘数)的原始值,在此基础上加各种参数修正(所谓的修正以将该值放大为多,比如说硬盘理想的工作温度为25℃,而测试是在42℃下做的,而理论表明25℃时故障率比42℃时要低一倍,则相应地MTBF值便翻了番。其他如Duty Cycle、年POH等等皆为如此),最终得出了一个无比巨大的官方公布数字。
所以,MTBF只是一个参考数字,不同厂家之间的MTBF没有可比性,因为它们采用不同的数学模型来计算;即便同一厂家,其桌面级产品与企业级产品相比也无意义:企业级产品测试时的样本数、测试周期远远多于桌面级,(几)千块运行半年到九个月甚至更长,而桌面级多为(几)百块运行1个月至多不超过1000小时,二者最终数值的修正因子与修正方法也差别甚大,在某种意义上说,企业级产品的MTBF值的得出还算严谨,而桌面级则往往竞争的压力下变了味:大家可以看一下桌面级硬盘的参数,简直在进行数字竞赛,从几年前的几万小时一跃到如今的百万小时量级,难道大家真以为硬盘制造技术在短短几年内有如此突飞猛进的变化?
五、结论
通过以上的讨论,相信大家对“BT是否伤硬盘”的问题有了自己的答案,也清楚了在BT使用中如何更好的保护硬盘,比如说除改善BT的设置如加大软件缓存外,还要保证PC的电源工作良好,加强散热,避免硬盘的振动,在BT运行时尽量少运行有大量磁盘请求的任务,当然,还有尽可能缩短连续运行时间,等等。 更多内容请看BT 硬盘知识专题,或
(出处:http://www.sheup.com)
[1] [2] [3]