龙听期货论坛's Archiver

C
+
+


 微信: QQ:

龙听 发表于 2023-1-2 16:16

Backblaze Drive Stats for Q2 2022

2022年第二季度Backblaze驱动器统计表

[img]http://p.algo2.net/2023/0102/a3c981374ab98.png[/img]


截至2022年第二季度末,Backblaze在世界各地的数据中心监测了219,444个硬盘和SSD。其中,4020个是启动驱动器,2558个是SSD,1462个是HDD。本季度晚些时候,我们将回顾我们的SSD系列。今天,我们将重点关注管理下的215,424个数据驱动器,因为我们回顾了它们截至2022年第二季度末的季度和寿命故障率。在此过程中,我们将分享我们对数据的观察和见解,并一如既往地期待您在文章末尾的评论区做同样的事情。

硬盘终生故障率

这份报告,我们将改变一下,从终身故障率开始。我们将在本篇文章的后面介绍第二季度的数据。截至2022年6月30日,Backblaze正在监测用于存储数据的215424个硬盘。在我们的评估中,我们从考虑中删除了413个驱动器,因为它们被用于测试目的或没有至少60个驱动器的驱动器型号。这使得我们有215,011个硬盘,分为27个不同的型号,为寿命报告进行分析。

[img]http://p.algo2.net/2022/0808/a76f255149846.png[/img]

关于寿命统计的说明和观察

上述所有硬盘的终身年化故障率为1.39%。这与上一季度相同,比一年前(6/30/2021)的1.45%有所下降。

快速浏览一下年化故障率(AFR)一栏,可以发现故障率最高的三款硬盘。

8TB的HGST(型号:HUH728080ALE604)为6.26%。
希捷14TB(型号:ST14000NM0138)为4.86%。
东芝16TB(型号:MG08ACA16TA为3.57%。

这三种型号之间有什么共同点?样本量,在我们的案例中,驱动器天数太小,在这三种情况下,导致低和高置信区间值之间有很大的差距。差距越大,首先我们对AFR的信心就越小。

在上表中,为了完整起见,我们列出了所有的模型,但这确实使图表更加复杂。我们喜欢让事情变得简单,所以让我们去掉那些置信区间很大的驱动模型,只包括普遍存在的驱动模型。我们将设置我们的参数如下:95%的置信区间差距为0.5%或更小,最小的硬盘天数值为100万,以确保我们有足够大的样本量,以及8TB或以上的硬盘型号。简化后的图表如下。

[img]http://p.algo2.net/2023/0102/ae9e4308edc5a.png[/img]

总而言之,在我们的环境中,我们有95%的信心,为每个驱动器模型列出的AFR在低和高的置信区间值之间。

计算年化故障率
我们在整个Drive Stats报告中使用了年化故障率(或AFR)这一术语。让我们花一分钟解释一下我们如何计算AFR值,以及为什么我们要这样做。一个给定的硬盘群的公式是。
AFR = ( drive_failures / ( drive_days / 365 )) * 100
让我们定义一下所用的术语。

驱动器群组。在给定的时间段内(季度、年度、寿命),选定的一组硬盘(通常按型号)。
AFR:年化故障率,适用于选定的驱动器群。
drive_failures。所选驱动器群的故障驱动器的数量。
drive_days。所选群组中的所有驱动器在群组定义的时间段内(即季度、年度、寿命)运行的天数。
例如,对于上表中的16TB希捷硬盘,我们计算出在这个特定的硬盘群的生命周期中,有117次硬盘故障和4117553个硬盘日。AFR的计算方法如下。
AFR = ( 117 / ( 4,117,553 / 365 )) * 100 = 1.04%
为什么我们不使用驱动器计数?
当涉及到驱动器进入和离开系统时,我们的环境是非常动态的;一个12TB的HGST驱动器发生故障,被一个12TB的希捷取代,一个新的Backblaze Vault被添加,1200个新的14TB东芝驱动器被添加,一个4TB驱动器的Backblaze Vault退役,等等。使用驱动器数量是有问题的,因为它假定在观察期内队列中的驱动器数量是稳定的。是的,我们承认,只要有足够的数学知识,你就可以做到这一点,但与其回到大学,不如保持简单,使用驱动器天数,因为它考虑了观察期间驱动器数量的潜在变化,并相应地分配每个驱动器的贡献。

为了完整起见,让我们使用基于驱动器数量的公式来计算16TB希捷驱动器的AFR,因为有16,860个驱动器和117次故障。

驱动器计数AFR = ( 117 / 16,860 ) * 100 = 0.69%。
虽然驱动器计数AFR要低得多,但假设所有16,860个驱动器在整个观察期(寿命)都存在,这是错误的。在上个季度,我们增加了3601个新硬盘,而在去年,我们增加了12003个新硬盘。然而,所有这些都被计算在内,就好像它们是在第一天安装的。换句话说,在我们的案例中,使用驱动器计数AFR会错误地反映我们环境中的驱动器故障率。

我们是如何确定硬盘故障的
今天,我们把硬盘故障分为两类:反应性和主动性。反应性故障是指硬盘已经发生故障,不会或不能与我们的系统通信。主动性故障是指根据硬盘报告的错误,故障即将发生,这些错误通过检查硬盘的SMART统计资料得到确认。在这种情况下,硬盘会在完全失效之前被移除。

在过去的几年里,数据科学家利用我们收集的SMART统计数据,看看他们是否能够利用各种统计方法预测硬盘故障,最近还利用人工智能和机器学习技术。准确预测硬盘故障的能力,以及最小的误报率,将在我们扩展存储平台时优化我们的运营能力。

SMART统计资料
SMART是自我监测、分析和报告技术的缩写,是一个包含在硬盘中的监测系统,报告特定硬盘状态的各种属性。每天,Backblaze都会记录并存储我们数据中心的硬盘所报告的SMART统计信息。请看这篇文章,了解更多关于SMART统计数据和我们如何使用它们。

2022年第二季度硬盘故障率
对于2022年第二季度的季度报告,我们跟踪了215,011个硬盘,按硬盘型号分为27个不同的群组,只使用第二季度的数据。下表列出了这些硬盘型号中每一个的数据。

[img]http://p.algo2.net/2023/0102/4b74c16178e05.png[/img]

关于2022年第二季度统计数字的说明和观察
爆炸性新闻,OG的绊脚石。6TB希捷硬盘(型号:ST6000DX000)在本季度终于出现了故障,实际上是两次故障。鉴于这是我们车队中最老的硬盘型号,平均使用年限为86.7个月,出现一两次故障是意料之中的。然而,这是自去年第三季度以来,该驱动模型的第一次故障。在未来的某个时间点,我们可以预期这些驱动器将被淘汰,但他们的寿命AFR只有0.87%,他们并不是排在第一位。

下一个OG的另一个零:我们收集的下一个最老的硬盘群,4TB东芝硬盘(型号:MD04ABA400V),85.3个月,第二季度有零故障。最后一次故障记录是在一年前的2021年第二季度。他们的终生AFR只有0.79%,尽管他们的终生置信区间差距为1.3%,正如我们所看到的,这意味着我们缺乏足够的数据来真正相信AFR的数字。尽管如此,如果每年发生一次故障,它们可能会再持续97年--可能不会。

第二季度更多的零:本季度还有三款硬盘的故障率为零:8TB HGST(型号:HUH728080ALE604),14TB东芝(型号:MG07ACA14TEY),以及16TB东芝(型号:MG08ACA16TA)。与上面提到的4TB东芝一样,这些硬盘在有限的数据点的驱动下有非常大的置信区间差距。例如,在这些硬盘型号中,16TB东芝的驱动天数最多,为32,064天。我们需要在一个季度内有至少500,000个驱动日才能达到95%的置信区间。尽管如此,这些硬盘中的任何一款或所有一款都完全有可能在未来几个季度中继续发布出色的数据,只是我们还没有95%的信心。

奔跑在烟雾中。4TB的希捷硬盘(型号:ST4000DM000)开始显示出它们的年龄,平均80.3个月。他们的季度故障率在过去四个季度中逐年增加,本季度达到3.42%。我们已经为这些硬盘部署了硬盘克隆程序,作为我们数据耐久性计划的一部分,在接下来的几个月里,这些硬盘将被循环淘汰。它们为我们提供了很好的服务,但经过近七年的不断旋转,它们似乎已经累了。

AFR再次增加。在第二季度,所有型号的硬盘的AFR都增加到1.46%。这比2022年第一季度的1.22%高,比一年前2021年第二季度的1.01%高。老化的4TB希捷硬盘是增加的一部分,但东芝和HGST硬盘的故障率在过去一年中也有所增加。这似乎与整个硬盘机群的老化有关,我们预计这个数字会随着明年旧硬盘的退役而下降。

四千台存储服务器
在开头一段,我们注意到有4020个启动驱动器。可能不明显的是,这相当于4,020台存储服务器。这些是4U服务器,每台有45或60个驱动器,驱动器大小从4TB到16TB不等。最小的是180TB的原始存储空间(45*4TB驱动器),最大的是960TB的原始存储(60*16TB驱动器)。这些服务器是Backblaze Storage Pods和第三方存储服务器的混合体。距离我们上次更新Storage Pod已经有一段时间了,所以请在第三季度末或第四季度初寻找一些东西。

DEFCON上的驱动器统计信息
如果你将参加拉斯维加斯的DEFCON 30,我将于8月12日星期五下午1点在数据复制村(DDV)现场演讲。全部由志愿者组成的DDV位于弗拉明戈酒店的行政会议中心的下层。我们将讨论驱动器统计、固态硬盘、驱动器预期寿命、SMART统计等问题。我希望能在那里见到你。

永不错过Drive Stats报告
注册Drive Stats Insiders新闻通讯,率先获得每季度的Drive Stats数据,以及新的Drive Stats SSD版本。

➔注册

硬盘统计数据
用于创建本评论中使用的信息的完整数据集可在我们的硬盘测试数据页面上找到。你可以为自己的目的免费下载和使用这些数据。我们所要求的是三件事。1)如果您使用这些数据,请引用Backblaze作为来源;2)您接受您对如何使用这些数据负全责;3)您不要向任何人出售这些数据;这是免费的。

如果你想要本报告中使用的表格和图表,你可以从Backblaze B2云存储中下载.zip文件,其中包含适用的.jpg和/或.xlsx文件。
祝你好运,如果你发现任何有趣的事情,请告诉我们。

想了解更多驱动器统计的见解?
请查看我们的2021年年终驱动器统计报告。

对SSD数据感兴趣?
请阅读我们第一份基于SSD的驱动器统计报告。

页: [1]