驚きの2億冊!ISBNビジュアル化バウンティの受賞作品発表
引用元:https://news.ycombinator.com/item?id=43168838
受賞した作品の詳細が最近HNで話題になってたね。技術的にもグラフィックデザイン的にも素晴らしくて、2000万冊の本を本棚のように上手く可視化してるよ。
自分が3位になったのはちょっと驚きだな。シンプルさと可視化を評価されたみたい。自分の作品はこことは比較しても、bwvの方が全体的に良いと思う。
3位になったのは意外。でも、bwvの作品がすべての面で優れてるとは思わないよ。あっちは比較機能やISBN選択がないから、AAの要件を満たしてない気がする。
おめでとう!bwvの視覚的な部分は確かに改善の余地があると思う。ただ、タイルの配置はスムーズで羨ましい。自分の4096x4096のタイルは制限があって、作業が難しかった。
お互いの作品に浮いてる島の意味は何だと思う?
それはISBNの配布方法によるものだと思う。特定の国にブロックが割り当てられていて、その後は分離されてるから島のようになってるのさ。
なるほど、説明ありがとう。君の可視化がそういう特徴を示してるのはすごいね!
ありがと!ヒルベルト曲線の特性のおかげで、番号が近いものが2次元座標に近くなるのは本当にすごいよ!
確かに、bwv-1011が名誉ある言及に留まったのは意外だね。視覚化の重要性が伝わってない気がする。
君のページがヒルベルト曲線の良さを説明してるのが好き。これまで学んだことがなかったから、今後の1次元データの可視化に役立ちそう!
すごいね。でもちょっと変だと思ったことがあるよ。’Stubborn Attachments’を検索したらちゃんと出てきたけど、同じ棚には他にもStripe Pressの本があって、その中で’Shelf’にある’Zero to One Hundred’って本が、Amazonでは別の題名になってた。まだ出版されてないから分からないのも無理はないけど。一緒の棚を検索するとタイトルが違って表示されるのが面白いよね。ブログ記事はまだ読んでないから詳しい理由は分からないけど。
ツールの問題じゃなくて、本に問題があるんじゃないかな?ISBNで検索すると’Zero to One Hundred’と’Built to Grow’のカバーが出てくるし、逆も同様だよ。他にも’Experiment, Build, Scale’という本があって、これがGoogle Booksにはあるみたい。オンライン書店はこの問題が多くて、ツールのせいにはできないと思うよ。
それはちょっと不公平な見方だと思うな。GPのコメントは、ツール内のデータの問題についての好奇心を示しているように読めたよ。小さなミステリーを解くのが好きな僕には興味深い。
ごめん、ツールが悪いって思ってるわけじゃないんだ。ただ、ISBN検索か本を見つける方法によって棚のタイトルが違うのが面白いなと思っただけ。
面白いね。この地図にズームインするといろいろ観察できて。出版社のHueber Verlagがドイツ語セクションの東側にあって、ISBNが1360000単位で並んでるんだ。この並び方が無駄に見えるし、出版社にはISBNの割り当てにルールがないのかな?使わない番号を返却できるルールがあればいいのに。
大きなデータセットの視覚化って、自分で探索させるのが多いけど、あんまり本質を伝えられないことが多いと思うんだ。特にこれに関してはそう感じる。
3D化の視覚化にはそれが問題だと思う。実際に3Dボリュームをモデル化しているわけじゃなければ、無理に3D探索を強いるのは洞察を隠してしまう。
ISBNは出版社や発売順といった情報しか示してないんだ。そんな中で同じテキストが違う版でも重複している場合もあって、電子書籍にとっては関係ないことなんだよ。’Anna’s Archive’は正当な本のリポジトリじゃなくて海賊サイトだから、そこを指摘するのは面白いよね。正当な本のアクセスインターフェースを持つものと比べてもっと面白いと思う。
ISBNの情報には出版社やタイトル、出版順しかないと考えているけど、単にISBNを視覚化するわけじゃないでしょう。別のデータと参照できるはずだと想像しているよ。それに、’Anna’s Archive’の件は、対象読者はあまり気にしていないんじゃないかな。
これは政治的な立場の話じゃなくて、著作権と作者の報酬、作業に対するコントロールの基本的な問題だよ。Alexander PopeのPope_V._Curllに出てくる議論を見てごらん。
中国がデジタル時代に西洋の著作権を完全に無視することにしたら、状況が変わったと思うんだよね。 そうだけど、政治的に対処するのは道徳的な立場を持っていればずっと簡単になるよね。 実際、道徳の基盤によるからあまり関係ないよ。米国の図書館の存在がこの‘道徳’の問題を示してるんだ。著作権の問題は複雑で、99%の本は読まれないからその価値も疑わしいと思う。 そんなに読まれない本があるなら、どうしてその本を買うのがそんなに難しいんだろうね? >これは政治的な立場じゃなくて、著作権と作者への報酬の基本的な問題だよ。著作権や報酬に関する問題はすごく政治的な質問なんだ。共産主義革命が何に対して反乱を起こしたか考えてみて。 大衆をどう雇い、養い、報酬を与えるかってことだよ。 >こういうのはLoCみたいな階層的なシステムに基づいて、合法的に利用できる本にアクセスできるインターフェースがあればもっと面白いと思う。Open Libraryがまさにそれだよね。 それが実際には、’Textbooks’や’Animals’、’Children’s Books’、’Health & Wellness’がカテゴリ分けされてて、ダウンロードできない本と混ざってるから、あんまりそうじゃないんだよね。ユーザーインターフェースもあまり良くないし。普通に理解しやすい階層リストがあって、ダウンロード可能な本があって、UIが良ければもっといいのに。でも、LLMが報酬なしでトレーニングデータを持つことが他のどんなことよりも重要だと思う。 最初に上の画像を見たとき、真っ先にデフラグプログラムを呼び出したくなったよ。 Win 98のアニメーションが一番良かったのに、その後はほんとにダメだったね。 参加するのがめっちゃ楽しかった!関わった皆、おめでとう!自分のエントリーは今でも見れるから興味ある人は見てみてね: https://d199hl4t3ts6d9.cloudfront.net/ シャドーライブラリに心から愛を送る。神の仕事をしてるよ。 彼らはかなりの仕事をしてるけど、本をデジタル化するボランティアもいるからね。国の蔵書を見てると、すごく多くのタイトルが欠けてるのが悲しい。ローカルの図書館に行ってデジタル化したくなったよ。今は手に入らない古い本が多いし…知識が失われるのが本当に悲しい。 正直、著者も相当貢献してるよ。 このISBNのビジュアル化にスペインの明確な表記がないのが気になる。英語は2つ、フランス、ドイツ、日本、ソ連、中国などがあるのに、スペインに大きなものがないのは本当にそんなにスペイン語の本が少ないのか、それとも主に英語の分布なの?スペインの本に囲まれて育ったんだけど、地図上での存在感が小さすぎて不思議だ。 データセットはAnna Archiveの本からで、ISBNで識別されてる。ISBNとタイトルは、主に中国語、英語、フランス語の雑誌や本から抜き出されてる。ドイツはオランダの5倍の本を発行してるけど、ビジュアル化ではオランダと似たように見える。スペインとメキシコはほかの大きなラベルと一致しない。 >スペインの明確な表記がないことが気になる。 受賞した作品はEagle modeファイルマネージャーを思い出す。ディレクトリをズームしてファイルを見る感じで、サブディレクトリにもアクセスできる。 データベースはどこから?どのように更新されてるの?自分はISBNを持つ自費出版の本を2冊出したけど、最初の提出には詳細がなかった。古い方は入ってると思ったのに。ISBNは:9786500718836、9786501276830。 ここから: Anna’s Archiveは重複したISBNを追跡してるのかな? 初心者なんですが、これが何で大事なのか説明してもらえますか?見た目はきれいだけど。 私が引用することから始めます。 私はAnna’s Archiveが好きだけど、違法ではないと思う。 これにはいろいろな見方があるけど、私の中欧の国の法律では、教育目的での著作権侵害は良いと明記されています。自分のためにダウンロードするのも許可されている。彼らは自分たちのデータをホスティングしている国の法律を破っているのかわからない。正直、著作権法は今世紀中に生き残るとは思えない。 著作権権利がほとんど認められていない場所もある。たとえば、ソマリアや南スーダンのように、政府が運営する著作権システムがない国もあるけど、Anna’s Archiveはそういうところで運営しているとは思わない。しかし、彼らの活動には安全な避難所がある。 この可視化は、各国に割り当てられたISBNを示しているらしいけど、未表示の本はAnna’s Archiveに存在しないってこと?それから、未割り当てってどういう意味? Anna’s Archiveは実際の本も持っているし、他のデータセットも持っていて、ISBNをタイトルや著者、出版社に結びつけている。私の可視化では、彼らが持っているファイル(青)、他のソースから得たメタデータ(赤)を示している。979のプレフィックスISBNは未割り当てで、国や出版社がその本に対してISBNを割り当てる権利がないことを意味する。 公のリクエストです:ここにAnna’s Archiveが嫌いで、これについての理論的な苦情を持っている人はいませんか?私はこのアイデアが大好きですが、そう思わない人もいるのでは。 私はここでコメントしました。 あんたの意見はあまり実質的な批判とは思えない。著作権は確かに有用だけど、著作権が理由で世界の知識創造が失われるとは思わない。著作権は社会的利益のために存在し、知識やアートの創造を促進するから制限がある。でも、自分たちが支払っている著作権の利益を考えないといけない。実際、著作権の強化は社会の資本を増やさないと思う。データが少数に握られていると失われてしまうことが多いよ。 本が失われる理由は何?良い図書館なら最後の一冊は保存されてる。「図書館が無い時代を乗り越えさせてくれる」と言っている人もいるし。著作権侵害は出版業に影響を与えて、さっきも言ったけど再版計画が台無しになったことがある。著作権を持つ人を尊重するべきじゃないの?公共ドメインやコピーレフト付きの新作を作る方がいいと思う。ドクター・フーは本じゃないよ。 ダウンロード待ちがうんざりだ。お金もないし待てないから。ただ、libgenのリンクがあるのは良いね。 外部リンクのセクションが非会員でも使える唯一の部分だね。 libgenじゃないよ。 アラビア文学が見当たらないのが気になる。本がデジタル化されてないのか、PDF/EPUBのフォーマットで入手できないのか。 こういうコンペの情報をまとめているところはないの?勝者が発表されるまで気づかないことが多いから参加したかった。 誰も自分の本を見つけられないのも無理ないな。 このISBNの可視化はIPv4アドレス空間の地図を思い出させる。 トランターの言及が好き! サイトの内容がわからないんだけど、プロバイダーがロシアに対する欧州の制裁のせいでブロックしてるんだ。このサイトはRussiaTodayの一部なんだよね。 君のプロフィール見たらオランダにいるみたいだけど、Ziggoのブロックページと間違えてるんじゃないかな。サイトはAnna’s Archiveで、約1年前にブロックされたけどそのお知らせがなかったんだよ。リンクの前に”pcm.”をつければ今のところ見れると思うよ。情報を誤解無いように投稿を編集した方がいいかも。ただ、ISPの決定が悪いせいで混乱が生じてるのも事実だね。 編集できないのはマイナス評価のせいだと思うけど、ちょっと変だね。自分はサイトが見れないって言っただけなのに、みんな政治的な目線で物事を見すぎじゃないかな。情報をありがとう、ポストは見たよ。 君は間違ったことを主張したからダウン投票されたんだよ。 それは間違いだけど、親は責められないでしょ。ISPのブロックページが曖昧で、ロシアのせいみたいに思わせるからなんだよね。 証拠ある?もっとコメントを表示(1)
同じ疑問を持ってて、全く根拠のない理論がある。一つ大きな塊がアルゼンチンかペルーのように見えるけど、タイトルがあの塊の端にある。中心に名前がないから他の主要国と一緒ではないけど、もしかしたらその塊がスペインかも。
>私たちはISBNを2年前にマッピングし始めて、以降、Worldcat、Google Books、Goodreads、Libbyなどのメタデータソースをスクレイピングしてきた。今や、世界で最も大きく、簡単にダウンロードできる書籍メタデータのコレクションがある。だから、あなたの本はAnna’s Archiveがスクレイピングしたデータベースのどれかにその時点で存在していないといけない。もっとコメントを表示(2)
>“図書館は、書き込みの発明以来、全人類の知識を集めようと奮闘してきた。”
デジタル時代には、特定の基準を満たす全人類の著作物の包括的なコレクションを作ることが実現可能かもしれません。Anna’s Archiveが質問したのは、どうやって一度に1億冊以上の本を効果的に可視化するか、ということです。
> https://news.ycombinator.com/item?id=43193432
GPLソフトがあるなら、著作権も必要です。条件や期間は調整が必要だけど、それを一方的にやることはできません。もっとコメントを表示(3)