2024年のBackblazeドライブ統計が明らかに!あなたのストレージ選びに役立つデータとは?
引用元:https://news.ycombinator.com/item?id=43013431
> ”俺はこの10年間ずっとDrive Statsのレポートを書いてきたけど、これが最後になる。引退するか、Drive Statsの言葉で言えば”移行”だ。”
今までのレポートに感謝!
さようなら、そしてたくさんのディスクをありがとう!
Yevだよ→俺もそう言った!やっぱり考えることは似てるね:P
マジでそうだ。俺の購入判断に役立ったのはもちろんだけど、データから最も重要な教訓も学べた。データは最も可能性の高いパターンを示すだけで、特定の結果を保証するものじゃない。データは行動しない限り価値がないし、行動したらその結果を保証できない。10年間素晴らしい統計と教訓をありがとう!引退後も楽しんで!
この10年間ずっと読んできたなんて信じられない。
本当に素晴らしかった、基準が高かったな!
こんな情報を手軽に提供してくれてありがとう!
すごく参考になった、ありがとう!
ベストプラクティスじゃないけど、過去10年、自宅サーバーではOS用に小さくて速いドライブ、そしてBackblaze Drive Statsを使って選んだ大きなディスクを一つ使ってる。今のところどれも故障してない(指をクロス)。彼らの考え方を信頼してるし、消費者として非常に貴重なリソースだ。最近買ったドライブはWDC WUH722222ALE6L4 22TiBで、統計を見てると全体的なWDCの傾向から、これから数年大丈夫だろうと思ってる。
この統計はあまり信用しすぎない方がいいよ。ハードドライブの信頼性はモデルだけじゃなくてロットによっても変わる確信が強くなってきてる。たまに同じロットから購入したドライブが複数故障するって話を聞くからね。自分がこのリストの中の良いドライブ(ST16000NM001G)を買ったけど、1年以内に故障した。だから、ハードドライブやストレージ全般では、ソフトウェアRAIDやバックアップでダウンタイムから自分を守る方がいいし、故障した場合は保証期間内にやってくれることを祈るしかない。
同じバッチで複数のドライブが壊れるって話、よく見るよな。俺も何回かあったわ。ほとんど連番のシリアル番号のドライブだった。 CDNノード用のキャッシュドライブが亡くなった時は大変だったけど、メインのストレージアレイが RAID6+ホットスペアなのに、近いタイミングで3台壊れた時は最悪だった。ホットスペアが最初の故障で稼働し始めたけど、再構築が完了する前に次の故障が来てしまった。
この手の話は昔からずっと言われてるよね。毎世代に再発見されるものなのか? 25年以上前、個人用のハードドライブをソフトウェアRAIDで買う時は、連番にならないように違うシリアル番号のを選んでたけど、今はそんなの気にしないのか。
同じものを大量に注文するほうが楽だけど、いろいろなドライブを使うと性能のバラつきが出て、予測不可能になることもあるよね。でも、長い目で見れば学んだ経験には価値があるんだ。
俺もこれを再確認しなきゃいけなかった。誰も教えてくれなかったから。二台のドライブを注文したら、同時に壊れてしまって、同じ症状で復旧作業が大変だった。シリアルナンバーを調べてビックリしたよ。
俺はできるだけいろんなメーカーのドライブを買うようにしてるんだ。1/3をToshiba、1/3をWD、1/3をSeagateって感じで。
ほとんどのストレージ障害はRAIDカードの故障が原因だったな。だからZFSやStorageSpacesみたいなソフトウェアストレージシステムに移行してからはかなり助かった。
俺も同じことしたけど、WD Redドライブを欲しかったんだ。Amazon、Newegg、Micro Centerで買ったけど、運良くSMRドライブじゃなかった。
その通りだと思う。俺も複数のブランドから複数のベンダーでドライブを買うようにしてる。mdadm用のパーティションは少し小さめにサイズ設定するけど、最適なバラエティが得られてると思う。
このレポートはハードドライブの故障の不安定さを示すには役立つと思う。特定のメーカーやモデルの問題じゃなくて、全般的に壊れる可能性がある。新しいドライブが出た時に、良いモデルかどうかはわからないから、故障に備えた方がいいと思う。
前回のレポート見たけど、Seagateドライブの方がWDよりも信頼性が低いって結論に至った。
ハードディスクの信頼性は個別のモデルよりもバッチに依存する気がするな。長年コンポーネントテストの仕事してたけど、同じ製品ラインでもモデルによってAFRに大きな違いがあった。単純にプラッタの数が違うだけで故障率が変わることもあったりする。高いAFRのモデルについて深掘りはしなかったけど、電気的、機械的、熱的な要因が関係してるんだと思う。
うちのサーバーは何度もドライブが故障しても生き残ったよ。ZFSを使ったFreeBSDでミラーリングしてるから簡単で頑丈。古い中古ドライブを使ったけど、異なるバッチのもので、半分はクリック音で捨てたけど残ってるのはほとんど無事。S.M.A.R.T.でテストして約1週間かかった。今は生き残ったドライブの三分の一がまだ動いてる。
最近ZFSを発見したけど、2010年か2011年にHP Microserverで遊んでた時は、壊れた時にデータが取り出せない自信がなくて離れたんだ。面白いことに、去年同じMicroserverにFreeBSDをインストールして、古いドライブを使ったミラーをさせたけど、一度も故障してない。古い時代ならドライブを調達してデータをコピーする必要があった。
ZFSは魔法みたいだね。ファイルシステムで必要な機能が全部揃ってる気がする。
自分の体験からだけど、スピンドルドライブでは熱がかなり重要な要素だと思う。エンタープライズクラスのドライブを購入しても、あまり冷却が効かないケースに入れると、モーターや基板が異常に熱くなっちゃう。
そのドライブを四つ持ってて、故障したやつはSMARTデータによると最高温度が高かった。ただ、規格内だったけど6度くらい余裕があった。ドライブは空のスロットで間隔をあけて配置し、12cmのファンを常に最大に回してる。上のスロットに入れてたから、何かぶつかったのかもしれないけど、使用状況は低いし、ドライブは24/7で回ってる。Seagateとは相性が悪い気がする。
熱はフラッシュにとっても問題。データを大切にするなら、冷やして冗長性を持たせるべきだ。
さらにややこしいのは、コントローラーを冷やさないといけなくて、フラッシュは暖かく保つべきってこと。自分のサーバーのNVMeドライブには、ホットスワップ用のアルミケースがついてて、コントローラーの温度管理は導電性パッドでやってるけど、フラッシュの方はやってない。
これだね。新しいSamsung T7 SSDがオーバーヒートして大切な家族の写真4TBを失ったよ。バックブレイズのおかげでバックアップしてもらえて助かった!SSDの返品期限を逃しちゃったから、今は小さなファンを回してなんとかオーバーヒートを防いでる。
RAIDを設定する際は、異なるディーラーからドライブを買うのがベストプラクティスだよ。
10年間自宅サーバーを運営してるけど、小さい速いドライブをOS用、大きいドライブをバックブレイズのドライブスタッツで選んでる。今のところ失敗してないから信頼してるよ。ただ、他のドライブは安いのを買ってて、故障しなかったのは運が良かったのか、正しいアドバイスを守ったからか分からないな。
WDC WUH722222ALE6L4の22TiBには注意。22TBで、基数が10だから、22TBは20TiBに相当するよ。
一つのドライブで安心してるのは危険だよ。ストレージドライブは約5%、OSドライブも同じぐらいで失敗する可能性があって、結構大きいリスクだと思う。今の状況なら、3つの再生品WUH721414ALE6L4を使ったら、RAIDZ1で28TBにできて、信頼性もかなり高くなるよ。
“サイクル”ってどういう意味?
最近のドライブは数年持つから次のサイクルまで大丈夫かなって思ってる。
ドライブメーカーはAFRを公開するから、そこから冗長性必要な計算ができる。目安はAFRが1~2%の範囲だよ。BBのデータについては見てないけど、きっとそれに基づいて計算できるはず。データ損失に対してはバックアップが重要だね。
返事が変なところについてるけど、サイクルの意味を説明してただけだよ。でも、計算はしてる。”安心感”は一つのドライブでは得られないと思う。
“サイクル”はmtbf/afrのことかな。
”サイクルが繰り返す時間”は新しいドライブを購入して移行するまでのサイクルのことだと思う。5%の失敗率は多分少なめかもしれないけど。
その%は使用するドライブの台数に依存するよ。大抵のドライブでAFRは1%未満であるべきだね。
一台のドライブで約5年くらいと見込んでるよ。
最新のハードドライブの読み取りエラー率と容量を考えると、RAID5やRAIDZ1の再構築は信頼できないって理解してる。
専門家じゃないけど、聞いたことある。確かにこれは大きなドライブでの巨大アレイについてだけの話かも。自分は4TBのドライブでbtrfs RAID10を運用してて、特に問題なし。最近安いドライブが壊れたけど、NAS向けの良いドライブに交換したら、2日で再構築できたよ。
仕様書にあるビットエラーレートはよくわからないし、その分析は間違ってる。完全なドライブの書き込みと読み取りをエラーなしに行うのは無理だし、普通のRAIDならエラーがプログラムに頻繁に出る。ドライブの耐荷重をテストしてれば、再構築中の故障は少ないと思う。
RAIDの一種を入れることも考えたほうがいいと思う。データを再構築するより、RAIDのほうがずっと楽だよ。編集:”一種”っていうのはハードウェアかソフトウェアのことね。
RAIDはオフサイトバックアップの他のシナリオには対応できないよ。大規模な電力サージや火事、洪水、盗難などの何かでRAIDアレイが完全に破壊される可能性があるから。理想的には、RAIDでローカルストレージの冗長性とオフサイトのバックアップを持ちたい。
実際、家庭ユーザーにとってはRAIDよりバックアップの方がずっと重要だと思う。NASが停止してもデータ損失は永遠だし。
重要な個人データには君の言う通りだけど、家庭NASの一般的な使い方はメディアサーバーだよね。ライブラリは大抵非重要なデータだから、失うのは面倒だけど致命的じゃない。大きなサイズと合わせてオフサイトバックアップを正当化するのは難しい。RAIDは無防備でいるよりはコスト効果的な保護手段を提供してくれる。
知ってる人たちの多くは、自宅のメディアサーバーのオフサイトバックアップをやってないよ。もし映画や音楽が一晩で消えても、大きな金銭的な困難やデータ喪失にはならなそうだし。普段のセンシティブなデータはノートPCのストレージに収まるし、それはオフサイトバックアップが必要だね。が、家庭の映画は12TBのRAID-1ペアに収まるから、40TB以上の映画よりバックアップは楽だと思う。
自分も同じで、書類や家族の写真にはRAID1とオフサイトバックアップを使ってる。ダウンロードした映画やリッピングした映画はバックアップしないから、必要な時は再ダウンロードしたり、ブルーレイを探すよ。
パソコンのニーズを専門分野ごとに分けた方がいいと思うぜ。去年、PCMRのアドバイスに従って、AIやゲーム向けの高性能マシンに何千ドルも使ったけど、軽いノートパソコンやNAS、ゲーム機を買った方が良かったかも。余ったお金で必要なAI/MLのリソースをレンタルできたし。
バックアップなしでメディアサーバーを復旧するのに、12時間くらいかかるだろうな。月2ドルでrcloneのcryptバックエンドを使ってGlacierにバックアップするのは簡単に元が取れる。
Glacierから復元するコストはチェックした?バックアップする際が高いわけじゃなくて、復元が高いんだ。余計な時間を使っても良いかもしれんよ。
AWS Glacierは大抵の構成で復元料金の問題を解消したけど、帯域幅コストはまだ残ってる。1TB復元するのに90ドルかかる。
復元コストは自分の時間の1時間未満だし、必要になる確率は10%未満だと思ってる。
その価格はどうやって出してるの?S3の“Glacier Deep Archive”?通常のS3は月23ドル/1TB、Backblaze B2は月6ドル/1TB。S3 Glacierの即時やフレキシブル復元は約4ドル、Deep Archiveは約1ドル/1TBだよ。2TBほどの深いアーカイブがあるのかな?
ああ、Deep Archiveで2TB未満。8K画質には目が行かないから、大体1080pのコンテンツを保存してる。
おいおい、一般の人は毎日3時間以上テレビや動画を見てるし、1080pなら1時間に1GBは少ない方だぜ。これを考えると、1年で1TB必要だと思う。5TBの1080pは特例じゃない。
えっ、俺なんて月に映画2、3本とミニシリーズ数本しか見ない。広告やスポーツ、ニュースも含むのか?それとも平均的なアメリカ人の話?
一般の人の話だよ。リンク先の情報でも見られるように、特にインドだと56歳以上が平均3時間以上テレビを見てるらしい。広告やスポーツ、ニュースも含まれてるよ。個人的にはあまりテレビ見ないけど、YouTubeやTwitchを半分の時間は見てる。
ディスクは劣化しないとか、RAIDが完璧に復旧するって前提は危ないと思うよ。
家庭ユーザーなら、RAIDの価値は限られてる気がする。バックアップに3台使うなら、1台のローカルコピーと2台のリモートコピーの方が良いと思う。
メンテナンスには便利だね。ドライブを交換したりアップグレードしたりするのが楽になるから。
あまりアクセスしないデータならいいけど、毎日使うマシンなら、故障後に簡単に代替ディスクを繋げるのが助かると思う。クラウドに第三のコピーがあるから、マルウェアや火事には強いけど、復旧には手間がかかるね。
僕もそうしてるけど、単一のデータディスクは定期的にオフサイトバックアップしてるよ。何度もバックアップする必要はあるし、復旧方法は練習しとくべき。
前回はTLCフラッシュにしたけど、後悔はしてないよ。QLCのせいで、HDDが安い状況が少なくなってきてるね。
使い方次第だね。書き込みが多いとHDDの方がまだ使える場面が多いよ。特にフラッシュが厳しくなるから。
SSDの製造過程がかなり汚いらしいね。EUが製品のCO2e報告を要求し始めたから最近知ったよ。HDDと比べてどうかは分からないけど、SSDがノートパソコンの中で一番環境負荷が大きいなら、使用する必要があるかどうかで選ぶべきかも。
もしそれが本当に気になるなら、デバイスの寿命にわたるエネルギー消費のCO2eも考慮してる?実際のライフサイクルを考えると、HDDの方が良いとは思えない。
数字にはライフサイクル全体のエネルギー消費が含まれてて、それは比較的小さいよ。標準的な使用パターンに関する仮定をしなきゃならないけど、使用は全体の排出量の10%くらいだから、重いゲーマーでもほとんど変わらない。
いやいや、古い1TB未満のエンタープライズドライブを使ってるなら別だけど、現代のハードドライブには作業負荷制限があるんだ。18TBのExos X18は年間550TBの読み書き制限があって、5年持つとして最大150回書き換えができる。対して15TBのSolidigm D5-P5316は64Kランダム書き込みで10PB、シーケンシャルでは51PBやれるからね。
補足だけど、そのホワイトペーパーは古いんじゃないかな。ヘッドの高さが2nmの時代に作られたもので、1nm未満はヘリウム充填のドライブじゃないとダメだよ。
できればこのドライブを2台RAIDミラー構成にして、1台が故障した時にすぐ交換して再ミラーするのがいいね。これをしないのはリスクが高いよ。
大容量ドライブの問題って、再サイバリング中に残ったドライブが故障する可能性が高いってことじゃなかった?
それはスクリプトしないプールに当てはまるか、SMART統計を見てない管理者だけでしょ。DebianのZFSではデフォルトで月に1回スクリプトを行って、再サイバリングはそれほどストレスにならない。具体的に「高い確率」を定義してよ。10%で高いの?60%?自分はドライブを交換したことが10回以上あるけど、同時に故障したことはないよ。
大規模なクラスタの高可用性を計画するために統計を取るならともかく、家庭用では故障が極めて稀だからそれは必要ないよ。家庭用は全てのドライブに影響を及ぼす予期しない悪条件に対しても脆弱だし。
安いドライブを使って、異なるメーカーからのドライブで三重ミラーリングするのがいいよ。
大容量ストレージにRAID 0はなし?災害時のプランは?
RAID 1か5、6、10って言いたかったの?
大事なデータにはresticとrcloneを使ってクラウドストレージにバックアップ、必要なデータ以外は特に取り替え可能だから。
それも俺のやり方だね。
災害対策はバックアップが大事で、RAIDはバックアップじゃなくてシステムの一部として考えるべきだよ。
俺はこの2年間で17個のSeagate ST12000NM001Gを使ったけど、結構トラブルがあったよ。累計で半分近くが失敗した。やっぱり皆それぞれの経験があるんだな。
リファービッシュ品は信頼性が低いよ。保証があっても質が悪い replacements が来る。
落下とかがハードディスクに影響を与えると思う。ServerPartDealsからのは取り扱いや配送が悪かったのかも。
Backblazeはリファービッシュ品は買ってないと思うよ。
昔はこれを見てHDD選びに役立ててたけど、結局は古いモデルばっかりだね。だから今は違う店から二個買ってRAIDか定期的にオフサイトでバックアップしてるよ。
RAIDはバックアップじゃないから、どちらも必要だよ。
ミラーリングRAIDはいいけど、最近の他のRAIDレベルは疑わしいと思う。理想はデータを守るツールがあるソフトウェアRAIDかハードウェアソリューションを使うことだね。バックアップは今でも一番大事だよ。
WDCやToshibaのデータは説得力あるよね。Seagateは比較にならない。
過去3年間で中古のSeagateドライブが新品として再販売されてるの多いよ。クリプトマイニングに使われた後、SMARTパラメータがリセットされて”新品”の0時間使用になってるってさ。
Seagateはいつも”お金を払った分だけの価値がある”感じだよね。タイの洪水やST3000DM001の頃からそう。売上の面ではHGST>Toshiba>Seagateって感じかな。
クリプトマイニングってストレージIOに負荷かかるものなの?CPUやRAMに負担がかかると思ってたけど、ディスクIOはそんなに関係ないんじゃない?
例えばChiaみたいに”ディスク空間を無駄にする”効率的なプルーフ・オブ・ワークで成り立ってるコインもあるよ。Bitcoinが使ってるのは”計算資源を無駄にする”方式だし。
確かに、Seagateのせいとは言えないけど、彼らの責任でAFRは改善されるべきだよね。
Seagateの責任じゃないけど、正規の販売業者がこんな行為を取り締まるべきだと思う。新しいSeagateドライブを買ったのに、Seagateには一銭も入らないわけだし。
うん、Seagateが背後で不正な販売者を取り締まるために頑張ってないとは思えない。
Seagateは当たり外れがあるよね。
今の24ベイのNASを10年以上前に始めた時、Backblazeのドライブ統計を参考にして4TBの7200rpm HGSTドライブを選んだんだ。私のLouwrentiusの結果は10年以上でドライブの故障ゼロ。ところで、Backblaze Drive Statsの作者のAndy Kleinが引退するって聞いた。お疲れさま、ありがとう!現代の32TBドライブ2台で私のNASのデータが収まるなんて信じられない!
Blackblazeはストレージ業界で最も尊敬されるサービスの一つだと思う。自分でクラウドストレージソリューションを立ち上げた後も、ますますその評価を得続けてるよ。
BackblazeのYevです!ありがとね!
旧NVRでハードディスクが壊れた経験から、熱がディスクの最大の敵だと気づいた。新しいNVRではPOE電源を分け、CPUのハードウェアエンコーディングを使い、SSDを最初の書き込みに、ハードディスクをバックアップに使ってる。これで熱がかなり下がった。SSDの書き換えは良くないけど、MTBFは数年持つからリスクとして許容してる。
NVRメーカーの設計が悪すぎると感じる。普通の3.5インチHDDはそんなに熱を出さないし、適切な冷却ファンを使えば問題ないはず。それでも設備設計者はスペースが狭いところに詰め込んで、通気が足りないケースが多いんだよね。
POEカメラがけっこう電力を消費してて、動画のトランスコーディングもあったし、ディスクへの書き込みが常にあったから、狭いケースの中ですごく熱くなった。
毎年Backblazeのブランドプロモーションとして素晴らしいと思う。技術的な見込み客にとっていいサービスだね。他の企業でも同じような例を見たことある?オープンソースコード以外でさ。
これは『コンテンツマーケティング』と呼ばれるもので、HNのフロントページには今もこれがいくつかあるね。ただ、Backblazeのドライブ統計の記事は質が高くて手間がかかってると思う。
この手のマーケティングはページランクにも影響することを覚えておく価値があるよ。
TechEmpowerって会社が以前、定期的にウェブフレームワークのベンチマークを行い、その結果をかっこいいダッシュボードで共有してた。なぜ止めたのかはわからないけど。iFixItのテアダウンも情報価値が高いよ。
TechEmpowerは今もやってるよ。
私からの例は、データベースベンチマークとハードウェアベンチマークだね。特にClickHouseのベンチマークは面白い。
BackblazeのYevです。データをシェアするためにこの取り組みを始めたんです。ちょっとずつおもしろい反応が見られるけど、私たちにとっては楽しいことです。今後Networking Statsやインフラのデプロイに関する新しいコンテンツも出す予定で、ワクワクしています。
Benson LeungのUSBケーブルについての話を思い出す。Jim GettysがBufferbloatについて教えてくれるのもいいね。
Jepsenってデータベースのベンチマークで有名な人が有料のコンサルティングをやってるよ。
Puget Systemsもクライアントシステム構築の経験をシェアしてるけど、必ずしも詳細に書いてるわけじゃない。PugetBenchを使ってリアルワールドのアプリケーションやワークフローでのベンチマークもやってる。
Spotify Wrappedみたいな感じかな?
毎年これを見るのは嬉しいけど、ちょっとした不満も。’稼働メーター’があったらいいな。AFRだけだとHDDの使用時間や頻度がわからないから。全ドライブが99%使用だったら、そうだよね?
あまり話せないけど、これらのドライブのI/Oはずっと高いままだよ。Backblazeは小さいドライブに留まらなきゃいけないことを考えてる。再構築の時間や、密度の高いドライブは耐久性が低いから。
私はSynology NASで5台のSeagateが一年以内に全部壊れた。人からそのモデルのファームウェアが悪かったと言われたけど、WDに変えたらそれ以来故障なし。
同じタイプのドライブを使うのは危険。ドライブのファームウェアとデバイスの相性の問題が起きるかも。メカニカルHDDは色々なブランドとモデルを使ってRAIDにするのがベスト。
これ。本当にブランドやモデルにはこだわらない。インターフェースや速度の要件、価格とサイズが大事。ドライブは交換可能だからね。
運が悪くなければいいけど、安く買ったFry’sのブラックフライデーセールのドライブがあるけど、20年以上で故障したのは2つだけで、1つは洪水でダメになったやつで、もう1つは外付けのやつを蹴っちゃった。皆さんの問題が無いのはうれしい。
全部同じ店で同時に買ったの? 一回で同じバッチのSSDが故障したことがあるから、今は異なるベンダーから購入してる。今のところ当たりのドライブが来てるよ。SeagateのExosとWD Goldが好きなんだけど、ちょっと高めだね。
変なことに、RMAモデルも故障するんだよね。NASとの互換性じゃなかったから、PCで試してもやっぱりダメだった。
同じような経験がある。3年前にEXOSドライブを4つ注文して、1つは初めから死んでた。結局、動くのを手に入れるのに3回交換してもらったけど、今は全部Synologyで元気に動いてる。
どのモデル? 安いのとプロモデルじゃ大違いだからね。それに、俺の2Tb Barracudasは10年超使ってるけど、1つは壊れて交換したけどその後もいい感じ。でも過度には使ってないからかな。
8TB Ironwolf NAS ST8000VN004使ってるよ。
運が悪くて、そのドライブを12個買ったけど、2年以内に10個も壊れた。同じバッチじゃなくて数ヶ月かけて買ったから、今回は運が悪かったみたい。逆に熱くてうるさいToshibaはずっと持ってる。
Exosシリーズ? SeagateのExosもWD Redも、WD shuckedのWhite Redsも問題なかったよ。意見が全然違うのが面白いね。
Backblazeがコロナピーク時の株価のほんの一部で取引されてるのが不思議だ。しっかり運営されてる会社で、基礎が固く、成長中なのに。
それは、金が流出していて、事業を続けるために株を売らなきゃいけないからだよ。製品はクールだけど、利益が出ないものは欲しくない。
今から30年後もAWSやAzure、Google Cloudが運営されて利益を上げていることには自信があるけど、Backblazeがそうなる可能性は低いと思う。競争は厳しいし、主要なクラウドプロバイダーの規模の経済やバンドリング、ネットワーク効果には勝てないよ。
特にAWSはストレージと転送の価格を使って他の製品へのロックインを狙ってるから、コスト競争ではBackblazeには勝てないと思う。プロシューマー市場もあるし、Backblazeはなくならないはず。
GoogleはGoogle Driveで2TBを月10ドルで売ってるけど、他にデータを移したいんだ。ヨーロッパにある、似たような価格の代替サービスを誰かおすすめしてくれない?
Hetznerのストレージボックスは1TBが月4ドル、5TBが月13ドルだよ。
すごい!BorgBackupがサポートされてるんだ。ありがとう!
ただのサーバーだから注意してね。Google Driveみたいに複数のホストに複製されてないから、これがメインコピーならバックアップが必要だよ。
いいポイントありがとう。複製されてないのは逆に良いことかも。別のバックアップを用意する意識が高まるしね。
アメリカからドイツへの遅延はきついな。ヨーロッパにいる時は使ってたけど、アメリカに移ってからは離れたよ。冷ストレージやバッチジョブには問題ないけど。
bloopernovaはヨーロッパに拠点があると思うから、遅延は大丈夫だと思うよ。少なくとも、ヨーロッパベースのホスティングを問うたからね。
遅延が悪くても、帯域幅は十分に利用できるはず。
プロトコルがそれに対応してなきゃ無理だよ。たとえばSmbは酷いもんだ。
確かに、バックアップツールは低レイテンシを考慮して設計されてることが多いからね。
俺の国ではMS365のOneDriveの空き容量がめちゃ安いんだよね。EUではGDPRも守られてるだろうし。OneDriveは最近かなり進化してるし、ウェブフォトのブラウジングもGoogle Photosに匹敵するよ。
OneDriveは、特にドイツではGDPR compliantじゃないからね。法律が厳しいんだ。
Linuxの同期ってできるの?
rcloneでサポートされてるよ。
28TBのSeagate Exosドライブをリファービッシュで安く買ったんだ。28TBのドライブが存在するなんて信じられない。
最近これ見たよ:”Seagate: ‘新しい’ハードドライブは何万時間も使われていた”。FARMログは確認してみて。Chiaのために使ってた人が大容量ドライブを投げ売りしてるみたい。
テーブルの黒い格子線はやめたほうがいいよ。薄いグレーの方がいい。格子線はデータの整理を示してるけど、重要なのは値だからね。ドライブの故障は右寄せにすると、比較しやすいと思うよ。
本当のエンタープライズドライブは最高だよ。Seagateのも信頼性が高いことが多いし、少し速い傾向がある。ただ騒音を気にする人もいるけど、私は気にならないな。重さも感じるし、ほとんどはデュアルベアリングを使ってるらしい。Backblazeの統計に基づいて選べば、数年故障ゼロだよ。
このブログではエンタープライズドライブは特に良くないって言ってたよ。
2024年の統計ではエンタープライズドライブが多く使われてるから、古い情報かも。
使わない理由はないけど、非エンタープライズドライブより信頼性が高いわけじゃないってことだね。
Seagateを選んだのはBackblazeの統計に基づいてるって言ってるけど、あれは最も信頼性が低いブランドじゃなかったっけ?
ここのリンクの故障率が一番低いドライブはSeagateのエンタープライズドライブ(ST16000NM002J)に見えるよ。
今の自宅NASのドライブが5年目なんだけど、まだ故障なし。そろそろアップグレードするべきか悩んでる。WD Redsの4TBを5台RAID 6で使ってて、12TBの使える容量があって、今は7.5TB使ってる。SSDにするか、20TBのHDDにRAID 1でSSDも使うか考えてる。Seagateの信頼性が改善してきたのは良いかもと思うけど、昔の失敗からSeagateを避けるようにしてたんだよね。
データによると、管理下に4.4ペタバイトのストレージがあるみたいで、面白いね。
エクサバイトだよ、4.4エクサバイト。
16EBって64ビットの量でアドレスできるデータ量だから、これだけでかなりすごいよね。
すごい統計だね。人間が本当に一つのシステムで16EBのメモリを使う日が来るのか、64ビットで十分なんじゃないかとも思う。
2011年の記事で、nbdkitは最大2^63-1のディスクをエミュレートできるっていう話。Linuxカーネルも同じくそのサイズをサポートしている。
64ビットアーキテクチャを超える必要があるのかって考えたら、あんなサイズでは必ずしも平面アドレス空間が必要とは限らないかも。
インテルのIce Lakeサーバープロセッサーが2019年に登場するまで、x86-64は実質48ビットのアドレスアーキテクチャだったって知ってた?
48ビットの整数や浮動小数点演算をネイティブサイズにして、96ビットを拡張形式にするのが良い案だと思うんだ。
歴史的に見て、コンピュータではページングスキームが多く使われていたよね。それにより、ソフトウェアを変更せずに大きな空間へのアクセスが可能になるんだ。
確かに、完全なネイティブサポートがあれば平面アドレス空間と同じになるのは理解できる。でも、なぜそんなに大きなネイティブワードサイズが必要なのか考えているんだ。
Googleは、AndroidのバックアップやGoogle Photos、Drive、YouTubeなどがあるから、このメトリックを超えてると思うよ。
RISC-VにはRV128というバリエーションがあるから、心配しなくても大丈夫だね。
十年くらい前にGoogleでストレージの総量を追跡するダッシュボードがあって、64ビットからアップデートしなきゃいけなかったんだよね。
今や1台のマシンでペタバイトが手に入る時代だね(20TBのドライブを50台使う計算)。
Backblazeはカスタム設計のポッドを使っていて、60ユニットを収容するようになってるんだ。
興味本位で、50台のドライブを収容できるサーバーケースはどれ?
”supermicro 72 drive server”でググると、そういうのは存在する。ただし、ダブル長のトレイを使っていて、1トレイに2台のドライブを収容してるから、冗長性をしっかり考えたアーキテクチャが必要なんだよ。
ドライブを前後に配置する場合、ドライブの冷却も重要だね。前のドライブが熱くなっちゃうから。
ラックマウントサーバーはレゴみたいに組み立てるものじゃない。冷却ファンがすごいから、温度管理がバッチリなんだ。
それは特化したNASシャーシだね。4Uのサイズで、中にドライブ詰めると重くて動かせないよ。
ドライブが入ったままだと、落とさないように注意だね。
Backblazeは自社で60台のドライブを収容できるものを使ってるね。
iStarUSAは私の白箱サーバー構築に欠かせない存在で、50台のホットスワップ対応の9Uエンクロージャーを売ってるよ。
aic j4108は108台のドライブに対応してる。サーバーではないけど、1Uサーバーをいくつも連結して必要な容量を確保できるんだ。42インチのラックで1080台のディスクも収容できるよ。
ペタバイトは1,000テラバイトだから、4.4ペタバイトじゃBackblazeのストレージニーズには全然足りないよ。
データセンター以外での使用のために、これらのドライブの回転数を下げて静音化できたらいいのに。5000RPM未満で動くようになったらクールだと思う。
技術的に可能なのか疑問だね。ヘッドは回転するプラッターが作る空気の浮力で浮いてるから、現代のデータ密度もあってフロート距離の許容範囲が狭い気がしてきた。
確かにそうだね。14TBレベルで5400RPMを超えてるみたいだし。
約1年前に、あるベンダーのSSDにファームウェアの問題があって、稼働時間カウンターが閾値を超えて故障しちゃったって話を読んだよ。同じバッチのディスクを異なるサーバーに分配しても、一斉に稼働させるとバグのあるディスクが同時に壊れちゃうこともある。
これは素晴らしい研究だね。読んでる人に感謝したい。AmazonやMicrosoftも似たような研究をしてくれたらな。
BackblazeのYevだよ、どういたしまして!好きって言ってくれて嬉しいし、これが実現されればいいのにね。だからこそデータを集め始めたんだ、知りたいからね。
バスタブ曲線を考えると、この表は初めの(例えば)1週間で故障した場合、ドライブを悪いと見なすの?
Seagateがデータホーダーのサブレディットをスポンサーしていた頃を思い出すよ、もっと良いハードドライブを作るべきだったのに。
情報の出典は?
少し変だね。Backblazeの統計ではHGSTがいつも良い成績だけど、自分の環境(Synologyのフレーム)では過去に問題があったんだ。Seagateはいつもその点では良かった。使っているのは4TBのモデルかもしれない。
HGSTはどうなったの?
皮肉なことにWestern Digitalに買収されたんだ。でも『Ultrastar』という名前は今も生きているよ、もしそれが探しているものならね。『Deskstar』は消えたみたい。
『Deskstar』は消えたみたいだけど、昔はデススターと呼ばれていたし、もっと早くこのラインを廃止しなかったのは意外だね。
今でも機械的に動いてるのがいくつかあるけど、アンティークだし、稼働させる気になることは少ないね。実際、昔はかなり使い倒したけど、今のところ動いてるしね。
あの表からするとWDの16TBモデルが最も信頼性あるって理解していいのかな?
あんまり変わらないよ。最近のHDDはどこ製も信頼性高いから、特に’Enterprise’グレードのドライブを選べば問題ないと思う。ここ10年で大問題になったシリーズもないし、いいドライブに出会える確率が高いよ。
ここ10年で本当にひどいシリーズは見かけないけど、ST3000DM001は例外だね。
ST12000NM0007はちょっと心配だな。メーカーごとに結構な差があるみたいだね。