【マジか】データ保存の寿命はたった5年!? 長期保存どうすりゃいいんだ問題
引用元:https://news.ycombinator.com/item?id=43391459
マジで信じられないんだけど、AIとか量子コンピューティングとか6Kの画面とかM2 NVMEとか、ネットにつながったデバイスが何十億もあるのに、普通のデータってディスクの故障とかSSDの不安定さとかビット落ちとかで、5年くらいしか持たないってマジ?それを克服するには、JBODとかRAIDとかNASをずっとメンテしたり、M-Discのblurayに焼き込んだり、クラウドに預けたりしないといけないんだよね。3-2-1ルールでうまくいくかもしれないけど、大規模なデータだとそう簡単じゃないし。マジありえない。
めっちゃわかる。
もっと言うと、一般の消費者として、
・容量が足りなくなったら、ディスクとかUSBメモリを挿すだけじゃダメで、どのデバイスを使うか選んで、すべてのソフトにそれを教えないといけない。
・どのデバイスに何を入れたか覚えてないといけない。
・データが消えたらマジでヤバい。
・ファイルのコピーが失敗することがあるし、失敗してもACID特性がない。
・バックアップは自分でやらないといけない。
・データがいつの間にか壊れてることがある。
おまけに、誰かとファイルを共有するのも、第三者を通さないといけない。
それは、技術に詳しくない人が、信頼性よりも安さを求めるからだよ。容量が多くて速度が速いのが一番。だからQLCとかMLCのNVMeドライブが流行るんだよね。SLCキャッシュが小さいから不安定だし、小さいファイルしか高速に書き込めないけど、1テラバイトが50ドルで買えて、最新のゲームが爆速でロードできるからね!
それに、多くの人は、貴重なデータを持ってないんだよ。重要なデータはクラウドにあるから、ちゃんとバックアップされてるし。
スマホは自動バックアップ機能があるし、SDカードを挿せば容量が増えるし。PCでも、MSとかAppleがOneDriveとかiCloudを使うように勧めてるし。でも、容量が増えると有料になるから、やめちゃう人も多いんだよね。結局、みんな安さを求めるから、何とかなると思ってるんだよ。
データの破損も問題だけど、マルウェアの方が怖いよね。
詳しい人は、LVMでディスクをマウントしたり、ZFSを使ったり、バックアップを設定したり、ファイルを簡単に共有したりできるけど、理由を知ってるからね。
ITリテラシーを上げることが大事だよ。
>多くの人が信頼性を重視してないとか、重要なデータはクラウドにあるって言うけど矛盾してない?
みんなデータは大事にしてるよ。データ復旧サービスが儲かってるのが証拠。OSベンダーがユーザーを放置して、みんな困ってるから、クラウドを使うのが合理的になったんだよ。
なんでこんなに難しいんだろう?ローカルファイルシステムで、データの整合性をチェックしたり、ストレージに複製したりするのは、当たり前になるべきだよ。
>OSベンダーがユーザーを放置したのは偶然じゃないと思う。
データを全部渡させて、データマイニングしたり、依存度を高めたり、継続課金させたりしたいんだよ。データを自分で守るのを難しくするインセンティブがあるんだ。ハードドライブメーカーが、すぐに壊れるゴミみたいなドライブを売りつけるのと同じだよ。
矛盾してないよ。デスクトップとかラップトップのデータを大事にしてる人もいるけど、少数派だよ。データをちょっと大事にしてる人でも、バックアップを設定するのが面倒だから、運に任せるんだよ。
だから、自動バックアップが重要なの。みんな何か起こるまで運に任せて、何かあったときにバックアップがあることに感謝するんだよ。クラウドアプリも同じで、データの安全性とか整合性を気にしなくて済むんだ。iCloudのバックアップで、未保存のテキストまで復元できるのはマジですごい。
>ローカルファイルシステムで、データの整合性をチェックしたり、ストレージに複製したりするのは、当たり前になるべき。
それって、バグがないbtrfsに、ちょっとした自動化を加えるってことだよね。キャッシュのことも考えると難しいけど。もしバグがないbtrfsがあれば、もうとっくに実現してるはずだよ。ZFSの方が信頼性は高いけど、柔軟性がないから、普通の人が使うのは難しい。
>バグがないbtrfsに、ちょっとした自動化を加えるってことだよね
AppleはMac OS X 10.5の時に、ほぼ実現してたんだよ。Time Machineはほとんどの人にとって完璧なバックアップソリューションだよ。もしZFSを使ってたら、ブロックレベルのファイルハッシュとか検証が自動でできてたはず。APFSはHFS+より改善されてるけど、ZFSの方が良かったよね。
ZFSは、サイズの違うドライブを自由に追加したり削除したりするのは得意じゃないんだよ。ZFSは、ドライブをダース単位で買う人向けなんだ。
シングルドライブでも全然問題ないよ。他のファイルシステムより良いかもしれない。ルート/ブートドライブのファイルシステムとしては、HFS+、NTFS、EXT#、APFSよりも優れてるよ。サイズの違うドライブをプールすることはできないけど、他のファイルシステムも同じだよ。ドライブが壊れたらデータは失われるけど、他のファイルシステムも同じだよ。
いや、違うと思うな。ZFSとバックアップの自動復旧があれば、ビット腐敗の99.9%以上は解決できるっしょ。Time Machineはすでに一番使いやすい自動バックアップソフトだし。AppleがZFSに移行してたら、Time Machineのバックアップを使って自動でファイルを復元してたはず。そしたら問題は解決してたと思うんだよね。
みんなが大事にしてる写真アルバムも、本人と一緒に墓場まで行っちゃうんだよね。今の時代、本とかデータって、昔よりずっと早く消えちゃう運命にあるんだよ。昔みたいに本とか巻物とか石版とか残せないからね。Oxyrhynchus Papyriのおかげで4世紀の生活はわかるのに、21世紀のTerra Haute, Indianaのことは全然わかんないかも。
>手入れをしないと、みんなの貴重な写真アルバムは墓場まで持っていくことになるよ。
Appleの製品を使ってるなら、万が一の時に家族が写真とかにアクセスできるように、復旧キーを設定しておくといいよ。
それから、メモ帳にメールアドレス、パスワード、銀行口座とかクレカの情報とかを書いて、封筒に入れて、冷蔵庫の上とかに置いておく場所を信頼できる家族とか友達に教えておくといいかも。メールとかSMSにアクセスできれば、他のアカウントもリセットできるからね。
ブログとかで公開して、友達とか家族とかみんなにシェアするべきだね。友達が38歳で癌で亡くなったんだけど、奥さんと娘さんがアカウントにログインできなくて、家のスマートライトすら操作できなくて大変だったんだよ。ルーターは地下のサーバーにあったし。マジで大変だった。
貸金庫ってそんなに高くないし、パスワードとか個人情報のコピーを保管できるから便利だよ。
マジそれ!スマホとかいい例だよね。みんな写真撮るの好きだけど、将来のために保存することってあんまり考えないじゃん?なんでかっていうと、テーマごとに整理するのがめんどくさいから。たぶん、このサイト見てる人はそういうの好きなんだろうけど、普通の人は歯医者に行く方がマシって思うんじゃないかな。
プロの世界じゃ、テープが一番だよ。5年以上持つ技術もあるし。ただ、テープの市場はプロ向けになっちゃってて、一般の人には優しくないんだよね。クラウドストレージが流行ってるせいもあるかも。でも、JBOD/RAIDとかハードドライブも結構使えるよ。サブスクリプションモデルもクラウドストレージに合ってるしね。
LTO-6のテープドライブ持ってるけど、Linuxでセットアップするのがマジでめんどくさい。SASでしか接続できないし、謎のカーネルモジュールをたくさんロードしなきゃいけないし、ログは標準化されてないし、インターフェースはコマンドラインベースだし。コマンドラインは嫌いじゃないけど、普通の人は無理だと思う。ラップトップで使うのも大変だし。
ラップトップとLTOドライブだけで生活しようとしてるなら、それは大変だよね!LTOドライブ使う人は、ハードドライブをたくさん持ってて、デスクトップPCとかも持ってると思うよ。カメラとかスキャナーとかもUSBで繋がってて。アマチュア向けのLTOの市場は小さいからね。ソフトウェア書く人はいるけど。
ドライブを長持ちさせて、摩耗を最小限にするには、一定の速度でデータを送り続ける必要があるんだよね。そうすればテープが書き込み中に常に動けるから。LTO-9なら最大400MBpsのストリームをドライブに送り込む必要があるよ(つまり、ソースからそれを読み込む)。よくあるのは、アーカイブ用のファイルをディスクボリュームに送って、そこからテープにダンプする方法だね。LTO-9テープを満タンにするには、20~50TBくらいの高速ストレージを用意する必要があると思うよ。RAID-0の大容量HDDにSSDキャッシュを組み合わせれば大丈夫じゃないかな。個人的には、記録したいバッチのフルサイズのデータセンターグレードSSDが欲しいかな。でも、テープを満タンにする必要はないんだよね。
もしデータセットが100GBくらいなら、Blu-rayアーカイブの方がいいかも。ディスクはちゃんと保管すれば100年持つらしいし、ドライブもずっとずっと安いし。
400 MB/sだよ。Mbpsじゃなくて。 覚えておくべきことは、18TB全部書き込む必要はないってこと。だから、ステージングドライブはもっと小さくても大丈夫。でも、テープ自体の値段が大きなHDDの半額くらいすることを考えると(少なくとも地元のオフィスサプライヤーでは)、容量の50%以上を使わないなら、HDDに書き込んだ方がいいかもね(少なくともバックアップ目的では)。 そうなんだよね。実は、20世紀から25世紀の間が謎に包まれていて、ほとんど何も知られていない未来の世界を舞台にしたフィクションを構想しているんだ。この物語は、「Bit Rot Era」に取り憑かれ、その文明に何が起こったのかを突き止めようとする教授を描いているんだ。 続きが気になる!もっとシェアして。 ブログに公開して、書き続けていこうかな。読んでくれる人がいれば、一緒に未来を発見できるかも。これが初めての本格的なフィクションなんだ。まだ始まったばかりだけど。 印刷された本を買い続けたり、印刷メディアを支援したりする重要な理由だよね。 一応言っておくと、archive.orgに残ってるものもあるよ。あそこにはすごいコレクションがあるし、デジタルアーカイブに関する記事もある。CDをできるだけ長く保存する方法とか(ネタバレ:CDのブランドが大きく影響する)。 1000年前の文章が残ってるからって、今売ってる安い印刷物が同じように長持ちするとは限らないって考えるのは間違いだよ。 貧乏人向けのテープアーカイブとして、普通のカセットテープ(C90とかC120とか)を使うのはどうかな?例えば、ggwave[1]みたいなのを使うとか。データの密度は低いけど、5年以上は持つと思うんだよね。 >…(データの密度はかなり低いけどね)。 マジでがっかりだよ。俺はこう説明してるんだ。ネット市民のデータがバックアップされてるかなんて誰も気にしてないんだよ。企業は自分たちのためにそれを欲しがってて、もしそれを失ったり、違法に他の人と共有したりしても、何の責任も問われないんだ。 こういう場合、”パソコン”は祝福でもあり呪いでもあると思うんだ。コンピューティングに関わる大きな力を持ってるほとんどの大手企業は、自分たちのことしか考えてなくて、特定の機能に対して責任を負うかどうかとか、それが自分たちのサービスやプライバシーに組み込まれるかどうかとか、‘個人的’な側面に都合よく判断してるように見えるんだ。もしメディアとか、参考文献とか、財務情報とか、不動産権利証書とか、古い記録とか、そういうものがデジタル情報/資産ではなく、物理的な情報や財産だったら、他の生活分野での物理的な情報や財産を失うことに対する態度はどうなるんだろうか。 >彼らは自分たちが解決しなければならなかった課題を解決することにしか興味がなくて、その先には進もうとしないっていう狭い視野を持ってるように見えるんだ。そうなってしまう論理的な理由はわかるけど、パソコンをもっといい環境にするための可能性はまだあると思う。 すでにUNIX哲学に従った優れたツールがあるから、それらを組み合わせるLEGO組み立て屋になるだろうね。 LTOテープに正しく保存されたデータは40年持つはずだよ。 40年後にも動いてて、40年後のコンピューターに接続できるドライブを見つける必要があるんだよね。 未来のタイムカプセル計画で、何百年も残せる方法を考えてるんだけど、確実に残せるのはこれくらいかなー。 20年前に書いた5~10KB程度の情報で、技術なしで解読できる紙の方が長持ちするのは当然だよ。アーカイブって規模とか環境要因が難しいんだよね。 企業規模だとコスト計算が変わってくるよね。例えば、>https://en.wikipedia.org/wiki/Linear_Tape-Open”LTO”<はペタバイト級のデータを保存するのに手頃なメディアだけど、ドライブの値段を考えると、>https://www.bhphotovideo.com/c/product/1724762-REG/quantum_t…”<400TBのHDDが買えちゃう。個人的には、LTOテープより量産されてるHDDの方が信頼できるかな。LTOテープはベンダー間の特許紛争で市場から消えることもあるし。それに、昔TRS-80 Color Computerでテープを使った時にひどい目にあったし、NMTのコンピュータセンターでアカウントが終わった時にSuntapeが全部ゼロだったり、テープロボットから18時間かけて設定を復旧したり…(その前に手動で再構築したけど)。 前の仕事(数週間前に会社は潰れちゃったけど)では、10万本以上のLTOテープを使ってたよ。2002年から今までアーカイブしたデータがあって、頻繁にリストアしてたんだ。一番忙しい時は、1日に平均177回もリストアしてたよ(365日)。物理的に壊れたテープはほとんどなかったな。 Vfxだよ。 テープは信頼性が高くて長期保存に向いてるけど、ちゃんと管理しないとね。 テープストレージには、温度と湿度の問題っていう大きな注意点があるんだよね。紙みたいに屋根裏に100年放置して読めるってわけじゃないんだ。 似たような話だけど、僕が以前いた会社では、システムアップグレードがうまくいかなくて、金属製の金庫に保管されていたバックアップテープを取り出すことになったんだけど、金庫の温度が露点以下だったんだ。テープケースも金庫も密閉されてなかったから、湿気が入っちゃって。5年間保管が必要なデータのバックアップが全部ダメになったんだって。もちろん、アップグレードを試みた人は辞めちゃったけど。 この記事にも書いてあるよ。 記事の途中にあった「1969年の夏にSvalbard群島で地質調査をした」って記述を見て、この作者についてもっと知りたくなっちゃったんだよねー。そしたら、マジですごい経歴の持ち主だった! 俺、一度カンファレンスで彼に会ったことあるんだけど、めっちゃ面白い人でさ、ユーモアもあって最高だったよ。 バックアップにクラウドストレージを使うなら、Object Lockをオンにするの忘れちゃダメだよ。オフラインストレージほどじゃないけど、R/Wメディアよりは全然マシ。 テープアーカイブって、もっと手軽に始められたらいいのになー。でもニッチだし、主にエンタープライズ向けだから、ドライブが数千ドルからってのがザラ。SSDより容量が少ないものを選ばない限りね。 いやいや、IBMの独占のせいだって。エンタープライズ向けかどうかは関係ないよ。 それって区別できるのかな? テープメーカーは2、3社しかないでしょ。製品をリバッジしてる会社がどれだけあってもね。 俺が言ってるのは、テープを手動で交換するシングルドライブユニットのことだよ。週に1回テープを交換する必要があったとしても、長期的なコールドバックアップとしては優れてると思うんだよね。でも、4000ドル以上するんだよなー。LTO-5テープまで下げれば1.5TBくらいだけど、クリティカルなデータには十分でも、全部バックアップするにはちょっと足りない。 そう、みんなロイヤリティを払ってるし、すべてのドライブが読み取りヘッドのライセンス料を払ってる。 基本は3-2-1バックアップ戦略を使ってるよ。3-2-1データ保護戦略はデータのコピーを3つ、異なるメディアに2つ、オフサイトに1つ置くことを推奨してるんだって。重要なデータはSSDにミラーリングしてる。スピニングディスクは信用できないからね。静的なデータ(写真とか動画)はBlu-rayに複数コピーしてる。全部、家族の家に分散して保管してるんだ。Blu-rayの理由は1859年のCarrington Eventみたいな地磁気嵐から守るため。[追記]2012年7月23日にもCarringtonクラスの太陽嵐が観測されたけど、地球は間一髪で逃れたんだ。 Veeamのマーケティングのおかげで、3-2-1は少なくとも3-2-1-1-0にアップデートされたみたい。 データは3つ以上の場所に分散されてるし、SSDとBlu-ray(イミュータブル)の両方にあるよ。SSDはRcloneを信用してるからテストしないけど、Blu-rayは書き込み後にだけテストしてる。SSDにはBit rotのリスクがあるけど、まあ気にしない。 Blu-rayバックアップをしばらく検討してるんだけど、ファイルを複数のバックアップディスクに分割するための良いガイドってある?ディスクを整理して管理する方法も知りたいな。20年くらい前に友達がメディア(アニメ)のディスクを大量に持ってて、ファイルがどのディスクにあるか管理するアプリを使ってたのを思い出したんだ。そういうソフトって進化してるのかな? 分割方法についてはわからないけど(僕はトピックごとに分けてる、例えばウェブサイトのバックアップは別のディスクに)、hashdeepはディスクに書き込まれたすべてのファイルのチェックサムを生成したり、チェックサムファイルを監査したりするのに便利なツールだよ。 >Blu-rayの理由は1859年のCarrington Eventみたいな地磁気嵐から守るため。 SSDの電源を入れても意味ないよ。NANDフラッシュメモリセルを充電する仕組みはないんだ。データを実際に読み込んで、SSDのエラー訂正パイプラインを通過させる必要がある。そうすれば、訂正可能なエラーが訂正不可能なエラーに劣化する前に気付くチャンスがある。ドライブがバックグラウンドでデータスクラビングを自動的に行うことは期待できない。SSDのファームウェアのブラックボックスの中にあるからね。ドライブがデータスクラビングをしてるかもしれないけど、いつから始めるのか、いつ終わるのか、すべてのデータをチェックするのかもわからない。 補足すると、Spinriteはビットを書き換えて、電荷が時間とともに減少するのを防ぐことができるよ。Security NowとGRCの記事が参考になると思う。 ホストシステムからデータを書き換えるのは、ドライブの書き込み耐久性の無駄遣いだよ。年に1回以上はやるべきじゃない。データを読み込んで、ドライブが書き換える必要があるかどうか判断させる方が頻繁にやるべき。 週に一度、diff -br copyX copyYをcronでバックグラウンド実行して、ホット/コールドアクセスできるかどうか確認するのはどうかな?でも、俺の場合はオリジナルが進化してて、フォルダやファイルのちょっとした名前変更でdiffがうまくいかなくなって、手動で修正する必要があるんだよね。コンテンツベースの名前付けが必要かも。ln -f x123 /all/sha256-of-x123として、/allを比較するとか。 eMMCのデータシートをたくさん読んでたら、”static data refresh”っていう言葉をよく見かけるんだよね。確かにこのプロセスは見えないけど、S.M.A.R.T.標準を管理してるSFF Committeeに話を持ちかけるべきかも。 SFF/SNIAじゃなくて、NVMe consortiumを通す必要があるかも。最近のコンシューマ向けドライブはSFF標準に準拠してないけど、最新のNVMe仕様に準拠するために、必須のNVMe機能は実装してるからね。 バックグラウンドでbit rot scrubbingができるファイルシステムが一番良いよね。 1991年からファイルを持ってるよ。フロッピーから始まって、ハードドライブ、QIC-80テープ、PD光メディア、CD-R、DVD-R、そして今はまたハードドライブに戻ってきた。テープみたいに、メディアフォーマットが永遠に使えるとは思ってない。新しいLTOテープドライブは高いし、中古は小さいテープしかサポートしてないから、ハードドライブにしてる。3-2-1バックアップ戦略、3つコピー、1つオフサイト。年に2回、全てのファイルのchecksumを検証。スクリプト化すれば、週に一度いくつかのコマンドを実行するだけ。 俺も1997年くらいからコンピューター使ってるけど、残ってるのは完全に運だよ。それから失ったファイルの方がずっと多いし。でも、全然気にしてない。だからみんなアーカイブストレージを求めてないんじゃないかな。失うことは人生の一部だし。昔の写真とかがあるのは嬉しいけど、珍しいから嬉しいのかも。もし50年前の人が日常を送ってる写真が簡単に見れたら、どれくらい見るかな?昔好きだった映画もDVDにしたら見なくなるしね。希少性がないと価値を感じられないのかも。食べ物は希少じゃないから価値がないわけじゃない。食事を楽しめるから価値がある。 年に2回のchecksum自動化プロセスは何?checksumに失敗したファイルの絶対パスをテキストファイルで出力して、検査できるようにしてる?どれくらいの頻度で失敗する? snapraidを一晩に一度実行してて、scrub機能で全てのファイルを読み込んで、保存されたchecksumと比較してるよ。 >年に2回のchecksum自動化プロセスは何? この記事は色々なトピックに触れてて、一貫した内容を掴むのが難しいけど、指摘したいのは:1. BackblazeのCTOの”失敗を想定して、一番安い部品を買え”という言葉で終わってる。これは従業員やシステムがストレージの状態を常に監視してる大企業には理にかなってる。2. 個人や中小企業には意味がないと思う。データを書き込んで、常に監視しなくても、何年もそこにデータがあることを保証したいんでしょ?個人的にはアーカイブしたい動画がたくさんある。一番楽なのは、バックアップとして安価な外付け20TB Western Digitalハードドライブに保存して、アーカイブストレージとしてM-DISC Blueraysに書き込むこと。これは1000年の寿命があると言われてる。 個人的にはアーカイブストレージって、少なくとも個人用にはいらないんじゃないかなって思うんだよね。データは生きてるうちに活かさないと。だから、データにすぐアクセスできるようにして、定期的に新しいメディアに移し替えたり、コピーをたくさん作っておくのが一番いいと思う。一度アーカイブしちゃうと、データを取り出せる可能性がどんどん低くなる気がするんだ。 >一度アーカイブしちゃうと、データを取り出せる可能性がどんどん低くなる気がするんだよね” ポータブルメディアにアーカイブするのは絶対に嫌だな。Cloudとか、それの仲間ならいいけど。俺はバックアップとアーカイブにrsync.net使ってる。 thumb driveに手動でバックアップとかありえないし、ディスク(HDDとか光学ディスク)が意外と長持ちするって言っても、いざって時にデータを取り出せる自信がない。結局、技術的な問題じゃなくて、経済的な問題なんだよね。アーカイブシステムは社会的な問題でもあるし。ちゃんとアーカイブが必要な組織には専門のアーキビストがいるのは当然。 オンラインデータこそ生き残るデータだよね。だから、RAID5アレイでストレージを組んでる。これまで4x1TBから始まって、2TB、4TB、8TB、今は4x16TBディスクになったけど。RAIDアレイは毎月テストしてる。たまに外付けHDDにオフラインバックアップもするけど、これは誤ってデータを消しちゃった時用で、bitrotとかドライブ故障対策じゃないんだよね。テープは遅くて高いし、光学ドライブは容量が少なすぎる。 ディスクをたくさん用意すれば、常に監視する必要はないよ。予算が10万円以上あるなら、データディスク4台とパリティディスク4台を組めば、かなりの故障にも耐えられる。中小企業なら余裕で手が届く範囲だと思う。 Cloud一択ってわけでもないと思うよ。暗号化して、さらにバックアップを取っておけば安心だけど。他にも、NASでRAID 5/6を組んで、それを別の場所(友達とか親戚の家とか)にある別のNASに自動バックアップするのも、簡単でメンテナンスも少なくて済むからおすすめ。 この記事はデジタルアーカイブ、つまりデータを100年以上完璧な状態で保存することについてだけど、普通の人がそこまでする必要はないと思う。テキストとか写真、動画を保存したいなら、アナログ形式の方が向いてる。アナログは劣化しても完全には壊れないし、場所を取るから本当に大切なものだけをアーカイブするようになる。バックアップは大変だけど、絶対に無理ってわけじゃない。それに、もしマスターコピーを失ったとしても、それで人生が終わるわけじゃないしね。もっとコメントを表示(1)
それってS-ATA III (SATA-600)の限界に近いよね。
あと、LTO-9テープは非圧縮データで最大45TB保存できるんだ(圧縮時は18TB)。だから、次のテープに書き込むときは、高速ストレージボリュームにデータを用意しておいた方がいいよ。
でも、長期アーカイブとなると話は別で、テープの方がずっと適した媒体だよ。
DOTS[1]がどこにも行ってないみたいで残念…
1-
https://group47.com/what-is-dots/
これは第一章の後半の一部だよ。
>「…トランスポートは、地上走行車で、静かに浮遊していた。ジョンは搭乗しながら、クロノメーターに目をやった。Jeg er ked af det、遅れてしまった、と彼は思った。ドアが音を立てて閉まり、車載コンピュータが「目的地:大学。到着予定時刻:25分」とアナウンスした。穏やかなハミングとともに、車両は高架のガイドウェイを滑らかに進んだ。車内の空気は涼しく、かすかに金属の香りがした。外の景色は、緑の畑、管理された森林、そして輝く白い研究施設のパッチワークのようだった。トランスポートの進行は遅かった。エンジンの穏やかな揺れとハミングは、NAUの厳格なエネルギー政策を常に思い出させた。ジョンは、近づく講義のことを考えながらため息をついた。現在、切迫したニーズに集中している人が多い中、どうすればBit Rot Eraの重要性を伝えることができるのだろうか?
大学に着くと、ジョンは教室に急ぎ込んだ。すでに3人の学生が待っていた。「Jeg er ked af det、遅れてごめん」ジョンは、わずかにデンマーク訛りのあるダングリッシュで言った。教室はこぢんまりとしていて、古代の巨大な講堂とはまったく異なる設計で、20人程度の学生を対象としており、中央のプラットフォームはリモート参加者用のホログラフィックカメラに囲まれていた。歴史的な地図や年表が、壁に沿って並んだインタラクティブディスプレイを飾っていた。
ジョンはすぐに教壇に移動し、バッグから注意深く6つのアーティファクトを取り出した。「Velkommen to Ancient North America 1」と彼は始めた。「Ancient North America 1へようこそ。このクラスでは、過去と未来について学びます」彼は教壇の上に現れたホログラフィックの年表を指さした。「大まかに言って、古代北米の歴史は4つの時代で構成されていると考えます。植民地時代以前、国家の台頭-カナダ、アメリカ合衆国、メキシコ-崩壊以前、そして崩壊後です。これらのほとんどについて、詳細なコースを受講できます。Dr. Jonesの『国家の台頭』は、アメリカ合衆国、その憲法、そしてカナダについて学ぶ価値があります。この大学は、かつてカナダのニューファンドランドと呼ばれていた場所にあり、古代の気候は非常に厳しかったです。今日私たちが持っている緑豊かな農地、森林、そして素晴らしいビーチとは大きく異なります。また、Pech博士の植民地以前の部族と帝国の歴史を学ぶこともできます。これにより、大陸に最初に住んでいた人々について多くを学び、彼らの歴史、文化、食料品について学ぶことができます。残念ながら。
「しかし」ジョンは語気を変えて続けた。「私たちがBit Rot Eraと呼んでいるものについては、受講できるクラスはありません。『ビット』…電灯のスイッチを想像してみてください。オンかオフか。それがビットです。1かゼロ。デジタル情報の基本単位です。Bit Rot Eraは、およそ20世紀から25世紀までで、完全にブラックボックスです。En sort boks。私たちが知っていることは、紙に書かれた文章の断片から来ています。何百万冊もの本が印刷されましたが、それらでさえ時間の経過とともに失われることがよくあります。すべての家庭にコンピューターがあり、情報や図書館の『デジタル化』について語る古代のテキストの断片があります。デジタル化とは、物理メディアをスキャンしてコンピューターに取り込むプロセスでした。何百万ものアーティファクト-分解されたポリカーボネート、シリカ、そしてかつてこれらのコンピューターであった希少金属のビットを回収しました。しかし、何も生き残っていません。それから何かが起こりました。本は消え去りました。およそ21世紀から25世紀までの期間は、いわば歴史から抹消されました。研究によると、彼らは完全にデジタルに移行し、データを維持するためにシステム管理者に依存していました…管理者が停止するまで…」
”
俺がこれまで消費してきたWebコンテンツのほとんどはもう失われてるし、昔大事にしてたフロッピーディスクやCD-ROMも読めなくなってる。200年後にはもっとひどくなってるだろうね。
でも、大英図書館に行けば、1000年以上前のテキストを難なく読めるんだから。
[1] https://github.com/ggerganov/ggwave
”かなり低い”っていうのは控えめな言い方だね。このおかげでちょっとした深みにハマっちゃったよ。Stack Exchangeのディスカッション[0]から、QAMエンコーディング[1]を使ってストレージ能力をマジで上げるっていうめっちゃ技術的な話にたどり着いたんだ。
wackyなQAMエンコーディングを使うと、C90カセット1本あたり20MBくらいになるみたい(で、”読み込み”に90分かかる)。
[0] https://retrocomputing.stackexchange.com/questions/9260/how-…
[1] https://redfrontdoor.org/blog/?p=795
だから、マジで俺たち次第なんだよ。俺は結構いい感じのセットアップを持ってるんだ。ローカルマシンに1つコピーがあって、クラウドに暗号化された圧縮コピーがいくつかあるんだ。完璧じゃないけど、これで2回助けられたから文句は言えない。手動だけどね…。
俺たち技術者は、この件に関してはマジで腰が重いんだよ。10年前にはこういうのを商品化しておくべきだったんだよ。企業がやりたがらないのは目に見えてるからね(無料で、俺たちができるクオリティではね)。主要3 OS用のアプリインストーラを作って、ゼロインタラクションで、無人で自動アップデートできるようにして、おばあちゃんがそこにそれがあることさえ知らなくて、それが動いてるって状態にするべきだったんだ。クラウドストレージアカウントへのアクセスだけを求めて、どこに何をどのように保存するかを自動的に判断するんだ(ディスクRAIDセットアップみたいな感じかな)。
多くのプロジェクトが(無料であれそうでなくても)自分たちを公開してくれてるのはありがたいと思うけど、彼らは自分たちが解決しなければならなかった課題を解決することにしか興味がなくて、その先には進もうとしないっていう狭い視野を持ってるように見えるんだ。そうなってしまう論理的な理由はわかるけど、パソコンをもっといい環境にするための可能性はまだあると思う。
マジでその通りだと思う。わかるよ、UNIX哲学にこだわりすぎることがあるよね。1つのツールが自分の仕事を完璧にこなすとか。でも、いくつかのものを1つのまとまりのある全体に組み立てようとさえしないんだ。
残念ながら、俺は失業してて慢性的な病気でマジで手一杯なんだけど、もっと恵まれた技術者たちが、現実世界の問題を解決するよりも、2489番目のLISPインタプリタをひねり出すことにもっと興味があるように見えるようになって、マジで苦々しく思ってるんだ。: |
- バックアップ自体の管理: borg / restic (or rustic) / duplicati / duplicacy など。最後に評価したとき、borgが一番まとまってた。resticの方がちょっと好きだけど、borgよりかなり遅いんだよね、残念ながら。rustic
はそれを修正しようとしてるけど、ボランティアの努力だから、安定したスケジュールで生産性が上がらないんだ。rusticをメインのバックアップツール(borg)のバックアップとして使ってるけど、今のところはそれだけでは使う勇気がない。
- キー/シークレット/パスワードの管理: 俺の半脆弱なセットアップは、borgリポジトリキーをLinuxサーバーにアップロードして、それを自分のプライベートTelegramチャンネルの1つに固定することなんだ。これはもっとうまくできるはずだけど、まだ調べてないんだ。gpgに近いもの(摩擦が少ない現代的な代替がたくさんあるけど、名前を忘れちゃった。ブックマークしてるけど)を使って、キーでさえちゃんと保護されてるようにする必要があるね。可能性の1つは、keepass[x]やEnpassなどのパスワード vaultだね。
- ストレージの管理: ローカルのLinuxサーバー(編集: 非常に非冗長で基本的なZFSセットアップを持ってる)と、無料枠の5つ以上のクラウドストレージサービスを使ってる。全部少なくとも5GBあって、borgリポジトリは150MBしかないと思う。過去20回くらいのバックアップを含めてね。
これらを組み合わせる方法は、主に最高級のGUIとCLI(さまざまな種類の人に対応するため)を用意して、クラウドストレージサーバーへのアクセスを許可したり、ローカルストレージサーバー(NFS, Samba, WebDAVなど)をオプションで要求したりして、あとは全部自分でやらせるってことだね。それはマジで実現可能だよ。
LTOドライブは、指定されたバージョンの1世代前のメディアしか読み込めないんだ(LTO 9はLTO 8テープを読み込めるけど、LTO-7は読み込めない)。
だから、40年前のドライブが必要になるんだよね…動くものを見つけられるといいね。
・石板とかEdison cylinders、shellac 78s、vinyl、Voyager golden record(もしかしたら)に刻印すること
・紙にインクで書く(本)か、穴をあける(カード、テープ)
・写真、マイクロフィルム(GitHub Arctic Code Vault)、リソグラフィーとか?
最近、保存用のマイクロフィルムを印刷するのを調べたんだけど、依頼できる場所がいくつかあるかも。でも、ほとんどがマイクロフィルムをスキャンしてデジタル化するサービスなんだよね。趣味レベルの話だけど、小学校2年生の時の落書きの方が、デジタルデータより長持ちしそうなのがなんか変。
ロボットの故障が問題だって記事もあるけど、重要な復旧が必要なら、人がテープをロボットに入れればいいだけのことだよ。もっとコメントを表示(2)
CMとか映画とかTV番組で使われたアセットは全部アーカイブしてたんだ。
パリティデータを記録して、テープが1本失われてもデータが消えないようにしたり、定期的にテストして故障したテープを交換したり、数年ごとに高密度メディアに移行する計画を立てたり…色々考えないといけないよ。
HDDは、個々のドライブ(やシェルフ)の故障を前提とした仕組みの上に成り立ってるから、シンプルに感じるだけなんだよね。HDDを使うなら、データが存在する限り、故障したハードウェアを交換する人が必要になるってことはみんな知ってるし。
古いテープを復元する人たちは、カビを取り除くために溶剤を使ったり、エマルジョンが剥がれないようにテープを焼いたり、色々な特殊なことをしてるんだよ。今の高密度テープだと、そんな処理をしたらデータがもっとダメになると思う。
だから、テープの寿命はHVAC次第。倉庫が暑くて湿度が高い夏を過ごしたら、終わりかもね。
Googleの昔のプレゼンで、テープがちゃんと読めるか確認するために読み返してるのは自分たちだけだって言ってた。
https://blog.dshr.org/p/blog-page.html
https://en.wikipedia.org/wiki/David_S._H._Rosenthalも見てみて!
うちの会社じゃ、resticを使ってB2にバックアップしてる。resticは毎回デデュープしてくれるから、フルバックアップとか増分バックアップとかの区別がないんだよね。
IBMだし、IBMには顧客の好みがハッキリあるし。
エンタープライズも、「誰もクビにならない」って響きが好きだしね。
それに、市場がかなり小さい(少なくともサイトの数で言えば)。競合他社にとって、アクセス可能な市場があんまりないんだよね。
ドライブメーカーも2~3社しかいないと思うよ。
テープはロボットライブラリがないと(その市場では)意味がないってことを忘れちゃダメ。中小規模のライブラリを売ってるオフブランドもあるかもしれないけど、大手はIBMが独占してると思う。
少なくとも3つのコピー、2つの異なるメディア、少なくとも1つのオフサイト、少なくとも1つのイミュータブル、バックアップへの書き込み時とテスト中に検出されたエラーは0件(定期的にバックアップをテストしてる?)ってことらしい。
>そういうイベントの危険性は、長い電線に誘起されるキロメートルあたりのボルト数だよ。
プラグを抜いたハードディスクは電圧もかからないし、超微弱な磁場しか受けない。何も起こらないよ。もっとコメントを表示(3)
https://www.snapraid.it/manual
全てのドライブはLinux ext4で、forループで全てのファイルに対してこのプログラムを実行してる。checksumを計算して、タイムスタンプと一緒に拡張属性メタデータとして保存してるんだ。もう一度実行すると、値が比較されて、何か変更があったら報告される。
https://github.com/rfjakob/cshatag
最近なら、checksumとscrubbingが組み込まれたzfsかbtrfsから始めることを勧めるよ。400TB以上のデータで、2年に1回くらいchecksumが失敗する。ファイル名が報告されるけど、全てのファイルは3つコピーがあるから、他の2つをチェックして、悪いコピーを上書きしてる。ハードドライブのSMARTデータにエラーがないことを確認した後ね。
バックアッププログラムには標準機能として搭載されてるよ。Borgとかだと、単純なchecksum検証(bitrot対策)とか、完全なリポジトリ検証(悪意のある改ざん対策)ができる。
これ、めっちゃわかる。バックアップしたデバイスのことあんまり考えずに放置してたら、いつの間にかバックアップデータだけ別のドライブに移されて、元のデバイスは壊れててどうしようもない…みたいな。昔読んだ記事で「ストレージじゃなくて、もっとシンプルな形式でファイルを少なくするのが大事」ってコメントしてる人がいて、その時はピンと来なかったけど、今ならわかる気がする。