これはすごい!真の読書好きに捧ぐ、美しすぎる無料電子書籍の世界
引用元:https://news.ycombinator.com/item?id=43599637
Project Gutenbergの intake って結構大変なんだよね。Project Gutenberg Distributed Proofreaders (PGDP)っていう、ネットでも古参のクラウドソーシングプロジェクトがあって(2000年くらいから)。[0]を見るとわかるけど、ボランティアがテキストとスキャン画像を照らし合わせて、3回も校正するんだって。そのあと、フォーマットレビューも2回あって、最終的なHTMLとかe-bookファイルを作る人が組み立てて、もう一回チェックが入ってやっと公開されるらしいよ。Standard Ebooksはそれを使ってんだね。それでもスキャンのミスが見つかるってことは、そりゃ見つけるの大変だよね。
[0] https://www.pgdp.net/c/activity_hub.php
[1] https://en.wikipedia.org/wiki/Distributed_Proofreaders
Distributed Proofreadersの活動はマジですごいと思う。月に35ページくらいだけど貢献するようにしてる。月に150冊以上のe-bookを完成させてるのに、バックログがヤバいんだよね。あれはマジで「社会貢献してる感」がハンパないオンライン趣味だよ。みんなのために、自分たちの文化的な歴史に触れられるんだから。
> The backlog there is pretty insane even while finishing upwards of 150 ebooks per month
マジでバックログがヤバいって言ってるけど、あれってポスト処理がボトルネックなんじゃないの?もう一度ページごとに校正してOCRのミスを見つけたり、フォーマットを修正したりしてるんだよね?Wikisourceでも貢献できるよ。そっちはポスト処理がないし、決まった手順も少ないから。(ページごとに「校正」と「検証」はあるけどね。)
同じようなプロジェクトでWikisourceってのもあるよ。[0] Wikisourceはwikiベースだから、元の作品にかなり近いフォーマットにできるのが強み。ただ、プロセスはそこまで厳密じゃないかも。でも、柔軟性はマジですごくて、スキャンされた印刷物なら何でも扱えるし、古い映画とかもあるよ。興味のあるニッチな分野に集中できるのも良いよね。
[0] https://en.wikisource.org/wiki/Main_Page
> doesn’t have quite as robust processes
スキャンされたページを元にした作品は、全部ダブルチェックしてるから結構すごいよ。緑色は二回チェックが終わったって意味。[https://en.m.wikisource.org/wiki/Index:Sophocles%27_King_Oed…] 誰でも自由に飛び入り参加できるのもwikiっぽいよね。
この作業、自動化できる部分がめっちゃあるじゃん!って思うとイライラする。せめてよくあるミスを自動で検出するだけでも、ボランティアの時間をめっちゃ節約できるのに。
自動化が時間短縮になるかは微妙じゃない? ある程度時間を使うと、後期の校正者になれるんだけど、ほとんどスキャンミスが見つからないから、すごい大変なんだよね。オートパイロットになってないか不安になるし。初期段階は、エラーが次々に出てくるから、集中できるし、やりがいを感じやすいんだよね。それに、めっちゃ早くて真面目なら、ボランティアで本を読むだけみたいな感じになるし。あと、たまに元の資料に間違いがあるんだよね。編集者によって考え方が違うから、初期の校正者が直した文法の間違いを戻さないといけないこともあった気がする…ボランティアしてたのは前だけど。
> In the 20-teens
それって2013年から2019年のこと?
多くの人が(昔の自分もそうだったけど)、PGDPみたいなプロジェクトの裏でどれだけ地道な作業が行われているかを過小評価してると思う。
ちょっと気になったんだけど、自動スペルチェックをすればOCRのエラーをすぐに見つけられるんじゃない?例えば、「tne」とか。
一番やっかいなエラーって、スペルチェックで引っかからないやつだよね。正しい単語に変わっちゃってるから。でも、そういうのこそ一番なくしたいんだよなー。
確かに100%完璧じゃないけど、もう一層の防御にはなるよね。なんでそう思ったかっていうと、前に誰かが言ってた例が、人間には見落としやすいけど、スペルチェッカーならすぐ見つかるようなやつだったから。
それに、単語が別の正しい単語に変わっちゃうのを検知する統計的な方法もあるよ。例えば、Googleドキュメントの文法チェッカーとか。これも100%じゃないけど、少しでも役に立つよね。
たぶん、誤検出もたくさん出てきて、チェックに時間がかかっちゃうんじゃない?特にフィクション作品だと、作者がわざと普通のスペルを使わないこともあるし。
もしtneが略語なら、スルーされるべきかもね。名前とかって、変なスペルにする人が多いし、スペルチェッカーがうざったく感じることがあるんだよね。俺はスペルがマジで苦手なんだけど、スペルチェックかけると、辞書に載ってない単語に引っかかるんだよね(ほとんどの場合、修正するたびにスペルチェックしてるから)。単語を辞書に追加すると、自分の辞書がそのドキュメントにしか使えない単語で汚染されて、次のドキュメントでは間違った単語になっちゃうんだ)。
LLMベースのスペルチェッカーなら絶対に見つけられるはず。今、それを作ってるんだ:https://github.com/pulkitsharma07/spelltastic.io。
もし、Project GutenbergとかStandard Ebook’sのワークフローで役に立つアイデアがあったら、ぜひ教えてほしい。
LLMは文脈とかドメインとかテーマに特有の言葉を理解するのが得意だから、スペルチェックの精度もかなり高いと思う。
参考までに、このアプローチはhttps://github.com/standardebooks/tools/issues/815でテスト済み。いくつかの本を調べたけど、エラーは見つからなかった。
スペルチェックは、校正作業のすべてのページで標準的なステップだよ。校正UIには「wordcheck」ボタンがあるし。
分散型校正者のプロセスには、必須のスペルチェックが含まれてるよ。
編集長です。いつでも質問に答えますよ。先日、著作権保護期間が終了した作品が公開された日を祝って、特に注目すべき作品を公開しました。
The Sound and the Fury
、
All Quiet on the Western Front
、John Steinbeckの最初の小説、Hemingway、Gandhi、2つのDashiell Hammettの小説など:https://standardebooks.org/blog/public-domain-day-2025
もう1つ質問。
>https://standardebooks.org/contribute/producing-an-ebook-ste…
>の中で、”some one”を”someone”に変えるようなスペルの「現代化」について話してるけど、これは一般読者にとって読みやすくするという暗黙の目標には反するかもしれないけど、私は元々書かれたものを読みたいし、これはオリジナルの雰囲気をそのままにするというより、編集作業に入り込んでいるように感じるんだ。(もちろん、これらのテキストはすでに元の編集者によって「編集」されているんだけどね!)明らかに多大な努力が払われていることを考えると、最終的にはあなたの決定だけど、その決定の根拠を読んでみたい。
高校とかで本読んだことある人ならわかると思うけど、古典ですら出版社が結構いじってるんだよね。昔からそう。夏休みの宿題とかで違う出版社の本持ってきて、変更点見つけたりしたもん。オリジナルテキストだって明記されてない限り、編集されてるのが普通。でも、電子書籍ならオリジナル版と編集版を両方入れられるはず。フォーマットだけ変えるなら簡単だし。 Standard Ebooksは、どの本も元になったスキャンデータとか、テキストデータへのリンクがあるし、変更履歴も全部ちゃんと書いてあるんだよね。他の電子書籍サイトより全然頑張ってると思う。これ以上、複数のバージョンを管理するのは、ボランティアの人が大変だし、そこまでやる必要ないんじゃないかなー。完璧な初版を保存するのを目指してるわけじゃないんだし。 翻訳された作品には全く関係ない話だよね。ほとんどの本は翻訳されてるんだし。”原文のまま”っていうのは、最近の自分の国の言葉で書かれたもの以外は無理だよ。 >I also think some alterations are plain mistakes. For instance in the same book: Standard Ebooksの選択は尊重するけど、僕もあなたと同じで、最終的なものが信用できないんだよね。Alexが”to-morrow -> tomorrowみたいな音の似た変更しかしない”って言ってたけど、それはギリギリ許せる。でも、Mahomet -> Muhammadは全然違うじゃん。Alexが言うように、他の版もあるのはいいけど、すごい丁寧に作られてるのに使いたくないっていうのは残念だ。 全然OKだよ!うちのバージョンは、ネットとか本で読める他のバージョンを消したわけじゃないから。好きなのを選んでね。 批判っぽく聞こえたらごめんね。ただ、理由を知りたかっただけで、文句を言いたいわけじゃないんだ! 出版された時代によってスペルが違うから、現代の読者になじみやすいように標準化してるんだ。音の似た単語(to-morrow -> tomorrow)を変えるくらいだよ。これは昔から編集者とか出版社がやってることなんだ。例えば、今私たちが読んでるShakespeareは、最初の印刷の時のスペルとは違うんだよ。 マジ最高なプロジェクトじゃん! epub専用のhtmlマークアップで、変更された単語に元のスペルを示すの追加できたりする?画像のaltテキストみたいに、単語をspanで囲む感じで。htmlの“title”属性はもちろん使えるけど(マウスオーバーでtitle属性の値が表示される)、意味的に合ってない気がする。 いや、追跡するものが多すぎるから無理だな。でも全部gitの履歴にある。[Editorial]ってプレフィックスが付いたコミットメッセージが編集内容だよ。 >例えば、今みんなが読んでるShakespeareは最初の印刷時のスペルとは違うんだよね。 著作権がまだ切れてない本をコレクションに入れる意味って何?実際に読める本を探すのがマジ大変になるんだけど。最初にクリックした3つのシリーズ全部に“not P.D.”って書いてあったし(最初はP.D.が何なのか分かんなかった。“P.D.”の説明のツールチップがあったら助かるかも)。この本は2050年にパブリックドメインになるって書いてあるし…。このプロジェクトはマジですごいと思うけど、利用者の立場からすると、利用可能な本だけに絞れるフィルターがあったら最高。 Robinが下で言ってることの他に、これらのプレースホルダーの中にはWantedリストにある本もあるんだよね。特定の書籍の制作にボランティアを求めていることとか、読みたい本が何十年も著作権でロックされてる可能性があることを示すのも有益だと思う。ある意味、政治的なメッセージでもあるんだ。 2025年でStandard Ebooksと相性の良い電子書籍リーダーって何? 俺は古いKoboで読んでるよ。Kepubファイル使ってね。Kepubのレンダラーはマジ優秀。Kindleのレンダラーは長年変わってないと思うし、昔からクソだった。Kindleは本嫌いの人が作ったんじゃないかっていつも思うわ。最高のレンダラーはiPadのiBooksで、最新のWebkitを使ってるっぽい。 KOReaderがいろんなデバイスで最高のレンダラーでありインターフェースだと思うよ。 ありがとう!バックライトの画面で読むのは目が痛くなるからiPadはちょっと…でもKoboなら多分大丈夫そう! Koboは良い選択だと思うよ。Kobo Libra 2を使ってて、盗まれたKindle Paperwhiteよりずっと気に入ってるんだ。Kobo Sageも8インチスクリーンで良いよね。Standard eBooksはKoboデバイス向けのkepubフォーマットを提供してて、高度なWebkitベースのレンダラーを使ってるんだって。 Kindleで買った本はどうしたの?買い直した?それとも「諦めた」?オススメありがとう! 便乗させて!パソコンでおすすめのepubビューアーってある?探してるのはLinuxかOS X対応、インポート不要(ビューアーであってコレクションマネージャーじゃない)、シングルページか連続表示、アニメーション不要、フォントサイズとか余白とかの基本的な調整ができて、キーボード操作(ページ送りとか)ができるやつ。 私のKindleは8年物だけどStandard eBooksで快適に使えてるよ。好きなデバイスを選べば良いんじゃないかな。 えっ、新しいKindleを持ってるんだ!!ちなみに私の初代Kindleは16年前のものだよ。 これ良いね。でも、著者名のアルファベット順リストが見当たらなかったんだ。最初にアクセスした時はそれで探したかったんだけど。48件ずつ表示してページをめくるしかないのが面倒。著者ページ(例えばhttps://standardebooks.org/ebooks/william-makepeace-thackera…)があるんだから、できるはずだよね。著者索引があれば、何があるか理解しやすくなって、もっと利用すると思うな。 まだ著者リストはないけど、追加するのは良いアイデアだね! こんにちは、Alex。言語でフィルタリングして電子書籍をブラウズする方法はありますか?フランス語のテキストを探してみたけど、ないみたい。 Standard Ebooksは英語の本しか扱ってないんだよね。言語によって文字の配置とか違うし、うちらは英語しかわかんないからさ。 他の言語も需要あると思うよ。このプロジェクト見たけど、多言語対応のために書き換えること多すぎてヤバそうだった。ドキュメントとかワークフローを多言語に対応させるの、マジ検討してみてほしい。 他の言語でも似たようなプロジェクトあったけど、長続きしたの知らないな。誰か責任者がいて、プロジェクトの品質をチェックできるのが大事だと思う。今はStandard Ebooksだとそれが俺で、俺は英語しかわかんないんだよね。 Project Runebergは30年以上続いてるみたいだよ。 素晴らしいプロジェクトだね!ウェブサイトに、どの本を読めばいいか探せる機能が欲しいなー。Goodreadsの評価順とか(やりたくないかもしれないけど)、おすすめの本を紹介するコーナーとかあると嬉しい。 APIとか、タイトルのダウンロード可能なカタログってある?meetnewbooks.comで紹介したいから、読者がもっと見つけられるように。 各書籍を個別のリポジトリで管理してる理由をもっと詳しく知りたいな。一つのリポジトリにまとめないのはなんで? ざっくりでいいんだけど、一冊のebookを作るのにどれくらい時間かかる? 最近このプロジェクトに初めて貢献し始めたんだけど、マジやりがいあるよ。 これマジ最高。アーキビストコミュニティの多くは保存にしか興味なくて、アクセシビリティとか全然気にしてないんだよね。こういうプロジェクトがアクセシビリティを重視してるの、マジ嬉しい。 マジそれな。最近、1911年の地元の歴史本をMarkdown、ePub、HTMLに変換して、GitHubで変更履歴を追跡したんだ。この本の現物は数冊しかなくて、写真コピーされてる(これはマジでありがたい)。 アーカイブを探して、自分のやったことを知らせるのがおすすめ。アーキビストは、自分の分野で良い仕事をした人と会うのが大好きだよ。特に、技術的な知識がある人は、この分野ではマジで貴重だからね。 なるほどね。図書館ってサプライチェーンのリスクがあるから、(審査されてない)個人からの提供を避けてるのかな?長年、図書館には「重要な文学作品」を提供したいクランクからの申し出がたくさんあると思うし、それを防ぐためにそういう文化が発達したのかも。あくまで推測だけど。 図書館は普通、印刷された本やCD/DVDさえ受け取らないよ。外に寄付箱があっても、たぶん図書館のものではないし。もし図書館に届けられたとしても、結局売られて、審査済みのルートで資料を購入するためのお金になるんだって。 ありがとう。こういうイニシアチブを取る人がもっと必要だよね! 誰かが同じ本に取り組んでいないか確認するために、本を「クレーム」するの?ステップ4の一部だと思うけど、90%まで進んで、ほぼ同時期に始めた人に負けたらマジで心が折れるよね! そうだよ。編集長の承認を得て、メーリングリストで意思表示するんだ。 その通り。ステップ4にあるように、始める前に承認を得るんだ。 個人的な趣味で電子書籍の作成に興味があるんだけど、著作権の問題で、正当なプロジェクトに貢献するのは気が引けるんだよね。自分のCalibreライブラリには、Archive.orgのスキャンから編集・変換した本がたくさんあるけど、共有できないんだ。a) 正当なルートはパブリックドメインの作品しか受け付けないし、全部著作権で保護されてるし、b) 現在の主要な海賊版電子書籍チャンネルは、いかなる貢献も受け付けないし。 過去の議論で上位だったやつね。 このサイトのおかげで、Koboが独自の電子書籍フォーマット(Kepub)に変換しないと、epubのレンダリングがマジで残念なことになると知ったんだよね。Kobo端末での見え方とパフォーマンスが全然違うんだわ。 変換しなくても、拡張子を.kepub.epubに変更するだけでOKだよ。 それ、ちょっと違うんだよねー。Koboはハイライトとかページ番号を機能させるために、特殊な<span>タグが必要みたい。 俺もそれに気づいた!でも今はKoboでPlato Reader使ってて、standard ePubを表示してるんだけど、マジ最高。 kepubifyを使えばepubをkepubに変換できるよ(Calibreでもできるけどね)。 https://send.djazz.se はkepubifyで自動的に変換して、あなたのリーダーに送ってくれるよ!関係者じゃないけど、ただのハッピーユーザーだよ。 KOReaderはepubのレンダリングが良いと思うけど、stock software+kepubと比較してみる必要がありそう。今までKOReaderしか使ってないんだよね。 koreaderで唯一気になってるのは、デフォルトのマージンサイズとstandard ebooksのタイトルページの表示かな。でも、簡単なユーザーツイークcssで修正できると思う。 KOReaderのUIでデフォルトのマージンを設定できるよ。 マジか!知らなかったわ! そうそう、普通の epub をロードすると、残念ながら古いバージョンの Adobe Digital Editions がデフォルトになっちゃうんだよね。 そうなんだ。でも Kobo が epub フォーマットのこれらの問題を修正しようとしてるらしいよ。 マジで?どこで聞いたの? Standard Ebooks 大好き。もっとコメントを表示(1)
>”間違いもあると思う”ってやつだけど、これは間違いじゃないみたい。[0]によると、聖書の引用で書名([Job]じゃなくて[”Job”])を引用符で囲まないのがChicagoとかMLAとかAPAのスタイルらしいよ。
[0] https://en.wikipedia.org/wiki/Bible_citation#Common_formats
このコメント読んでたら、中世の修道士たちが古い写本を“現代”英語に書き写してる姿が目に浮かんだわ。普通はマジ感謝されない作業だから、ありがとね!
“でも、現代版のShakespeareは「要約版」って呼ばれてるじゃん”
(もっと具体的に言うと、うちのリーダーは2世代前のkindleで使い物にならないから、Standard Ebooksの高度なフォーマットを全部表示できるやつを知りたい)よろしく!もっとコメントを表示(2)
>https://github.com/stoyan/edith-wharton_the-custom-of-the-co…
HTML万歳!
手順はこちら:
>https://standardebooks.org/contribute/producing-an-ebook-ste…
要するに、Project Gutenbergのテキストを元に、高品質にクリーンアップして、ピアレビューして公開するって感じ。
でも、地元の図書館で話したら、完全に却下されちゃった。「もう写真コピーがあるから、デジタル版は要らない」って言われたんだ。機械可読形式にするメリットを説明しようとしたんだけど、聞く耳持ってくれなかった。自分のためにやったプロジェクトだから、気にしなかったけど、アーカイブに興味持ってくれるかと思ったんだけどね。
たぶん、外部の人間が自分たちの知らない形式に触れるのが嫌だったんじゃないかな。ちょっと防衛的になってた気がする。
それに、その資料がパブリックドメインなら、インターネットに公開して宣伝しちゃえばいいじゃん。図書館と関わる理由は、何か信用を得たい場合だけだよ。でも、図書館はそういうことをするところじゃないし。
もしパブリックドメインじゃないとか、自分の著作物をパブリックドメインにしてないなら、図書館を困らせることになるよ。彼らはコピー機に注意書きを貼って、取り締まるのが好きな人たちだってことを認識しといて。
ハリウッドが企画や脚本を未開封で返すのと同じ理由で、ほとんどの図書館は断るよ。忙しいし、コストに見合わないんだよね。
自称オンライン図書館は割と適当だけど、本物の図書館員は正式な倫理綱領を持ってるから、確認してみる価値あるよ。
https://www.ala.org/tools/ethics
https://www.betterworldbooks.com/go/donateもっとコメントを表示(3)
https://standardebooks.org/contribute/producing-an-ebook-ste…
俺の場合は、プロジェクトのウィッシュリストからタイトルを選んで、ほとんど始めたんだけど、メーリングリストを検索したら、誰かが始めたばかりだったんだ。それで、同じ作者の別のタイトルを見つけたよ。
https://groups.google.com/g/standardebooks/c/IP0emhSQ6Bw/m/B…
2017年、441ポイント、97コメント:https://news.ycombinator.com/item?id=14570035
2019年、820ポイント、131コメント:https://news.ycombinator.com/item?id=20594802
2022年、1578ポイント、256コメント:https://news.ycombinator.com/item?id=32215324
2024年、701ポイント、154コメント:https://news.ycombinator.com/item?id=38831219
https://standardebooks.org/help/how-to-use-our-ebooks#kobo-f…
https://github.com/kobolabs/epub-spec?tab=readme-ov-file#sid…
KoboがWebkitで普通のepubをレンダリングするのに、あと一歩なのに、なんでそれをやらないのかマジで謎!
https://pgaskin.net/kepubify/
最近 Calibre が Kobo 端末にロードする際に kepub に変換するようにアップデートされたみたいだけど - >https://www.omgubuntu.co.uk/2025/03/calibre-update-convert-k…”
Kobo 自体が何か改善に取り組んでるって話は聞いたことないな。
Global Grey ebooks もおすすめ:
https://www.globalgreyebooks.com/
一人の女性が何百冊もの ebook を自分でフォーマットしてるんだって。