【マジか】AI企業によるFOSSインフラへの攻撃が深刻化!無慈悲なリソース食い潰しで開発者悲鳴
引用元:https://news.ycombinator.com/item?id=43422413
マジそれなー。うちの事例はここにあるよ:https://about.readthedocs.com/blog/2024/07/ai-crawlers-abuse…(記事にも引用されてる)。大規模なインターネットインフラを運営してるところはみんな似たような話を持ってると思う。この記事はそれらをまとめててすごい。
最初から言ってたけど、AI企業は自分たちの信用を地に落としてるだけだよね。
ある大手スタートアップは直接協力してくれて、費用も返してくれて、クローラーのバグも直してくれたのは評価できる。Facebookはメールに一度も返信がなくて、User Agentのリンクは404だった。会社のエンジニアがうちの記事を見て連絡くれて、正しいメールアドレスを教えてくれたんだけど、3回メールしても返信なし。
>信用を地に落としてるだけ
AI企業は、信用なんてどうでもいいって立場から動いてるように見える。1000億ドルの資金があれば、800ポンドのゴリラみたいに、やりたい放題できるって感じ。AIは、みんなが嫌がってもすべての製品に組み込まれるし、すべてのデータを吸収するだろうね。
ほんとそれ。
しかも、もっと広範囲に影響がある。AI企業が主張する主な経済的目標は、地球上の多くの仕事を不要にすること。彼らのビジョンは、世界をAI企業の所有者がすべてを所有し、完全に制約を受けない世界に変えること。すべての知的財産と労働は彼らのものになる。すべてを所有していれば、信用なんて必要ない。
“なぜオープンソースのメンテナーを気にする必要があるのか”ってのは、もっと大きな“なぜ誰かを気にする必要があるのか”って考え方の表れにすぎない。
>AI企業が主張する主な経済的目標は、地球上の多くの仕事を不要にすること。
だから、AIの学習は“フェアユース”じゃないんだよ。AI企業は、モデルを学習させて、コンテンツの作者と競争しようとしてるんだから。
AIの潜在的な欠点は、著作権侵害訴訟のリスクが消えないこと。裁判所が、AIの出力が派生作品とみなされるほど類似していると判断すれば、それは侵害になる。
この分野の人に指摘したことがあるんだけど、AIの価値は非常に大きいから、著作権法を完全になくすべきだって言うんだよね。
その価値が地球上のすべての人と公平に共有されるなら、それは素晴らしいことだよ。
もしそれが少数の人に所有されているなら、それは他のすべての人にとって、生存、自由、幸福の追求に対する脅威になる。
もし状況が変わらないなら、どう対応するかを真剣に考えるべきだ。
マジそれ。
“もしロボットが今やってる労働を全部やってくれたら最高だよね”って議論は、家賃を払うための計画がある場合にしか成り立たない。
それが資本主義の倫理の究極の失敗だよね。生き残るために働かなきゃいけないって考え方。人が生き残るために存在してるような、クソみたいな仕事がどれだけあるか見てみろよ。
これは変わるべきだ。
“機械がすべてをやって、俺たちは利益を得るだけ”ってのは、産業革命の初期からテクノミレニアム主義者が繰り返してるビジョンだけど、そんなことどこにも起きてないじゃん。
なぜか知らんけど、技術の進歩は常に労働の増加を伴ってる気がする。週5日8時間労働は過去のものになりつつあるし、状況は悪化する一方だ。
>資本主義の倫理の究極の失敗だよね。生き残るために働かなきゃいけないって考え方。人が生き残るために存在してるような、クソみたいな仕事がどれだけあるか見てみろよ。
これは資本主義のせいじゃない。奴隷制が好きじゃないなら、生き残るために働かなきゃいけないって考え方は、もっと根本的なレベルに組み込まれてる。働いてない人もたくさんいるし、資本主義が生み出した税金で運営される福祉国家からお金をもらってる。
>機械がすべてをやって、俺たちは利益を得るだけ
彼らは間違ってたけど、やるべきことはまだ残ってる。君が比較してるユートピア的な計画を思いついたわけじゃないだろ?
>技術の進歩は常に労働の増加を伴ってる気がする。
そんなことない。仕事に必要な人が減ったから、別の仕事を探しに行くだけ。世界の30%が農業労働に従事してた時代に、バリスタのいるコーヒーショップがそこら中にあったわけじゃない。
>その価値が地球上のすべての人と公平に共有されるなら、それは素晴らしいことだよ。
これは、すべての著作権ルールで尊重されるべき公理だと思う。
AIは2年以内に破綻するってマジ? 自分のアウトプットを学習データとして取り込み始めたら、現状維持がせいぜいで、最悪もっとハルシネーションだらけで使い物にならなくなるんじゃない?
>AI企業は、モデルの学習に使用されたコンテンツの作者と競争するためにモデルをトレーニングしようとしてるんだって。
>他人のエッセイを読んだら、その作者みたいなエッセイを書きたいと思うかもじゃん? 他人のコードを読んだら、その作者みたいなコードを書きたいと思うかもじゃん? AIのトレーニングも同じじゃね?
>もし裁判所が、あなたが使ったAIの出力が元の著作物の派生物とみなせるほど似てると判断したら、それは著作権侵害になるよ。
AIのトレーニングプロセスの出力(モデル)のこと? それともAIモデルの出力のこと? 前者なら、モデルがデータそのものをコピーしてたら、そりゃコピーだよ。 でも、前の作品とまったく同じ新しい作品を作る能力が、派生的だって主張には警戒すべきじゃね? 画家がGoghの絵をコピーできても、画家の脳も、Goghのスタイルで描いた絵も、Goghの作品のコピーじゃないじゃん?
もし個人が読んだエッセイをソックリそのまま吐き出したら、それは著作権侵害だよね。AIモデルが学習したエッセイをソックリそのまま吐き出したら、それは著作権侵害だよね。オリジナルのコンテンツをアルゴリズムに通したからって、”フェアユース”を理由に著作権侵害の主張から逃れられるってAI側の主張はゴマカシだよ。
俺も同じこと考えてた。もしみんな仕事がなくなって、お金もなくなったら、経営者たちはどうやって儲けるんだろ? 疑問なんだよね。何か見落としてるのかな。慈悲深い未来もあるかもしれないけど、そうじゃない未来は自滅的じゃん?
何も見落としてないと思うよ。全部焼き払って、その灰の上に君臨するのがヤツらの計画なんだよ。昔から言うじゃん? ”そんなに賢いなら、なんで金持ちじゃないんだ?”って。それは逆もまた真なり。愚かで近視眼的なことをやろうとしてるんだよ。価値がどこから生まれるのか、孫たちの生活がどうなるかなんて考えてないんだ。
資本主義は無思考で無感情な力だよ。AIが来るってことは誰の目にも明らかで、利他的に行動したところで、他者の土地略奪を止められない。連中の考えは、突撃に参加して、勝者の一人になることを願うってこと。傍観者は、何らかの形で影響を受けることになる。シャベルを持って掘り始めるヤツらが賢いのか、それとも他者が自分の墓穴を掘るのを傍観するヤツらが賢いのか?
悲観的な見方だなー。社会のためになるように、テクノロジーを取り入れるために努力する人たちはどうなるんだ?
中国は資本主義抜きで、フルスロットルで進んでて、しかも上手くいってるじゃん。
もうAIをワークフローに取り入れ始めたよ。生産性が確実に上がった。近い将来、AIを使わないと、仕事市場で競争できなくなるよ。
マジで将来、AIじゃないと仕事で勝てなくなるかもね。
50年後とかの話でしょ。今は生産性ツールじゃん。HNコミュニティは分かってないみたいだけど。 >仕事があるって言うけど ホワイトカラーとサービス業はヤバいけど、実際に働く人は大丈夫って言おうとしたけど、全員が貧乏になったら、業者とかもお金を使わないって思った。AIで電力需要が増えて地球温暖化が進んだら、この技術はマジでヤバいかも。ネオ・ラッダイト運動が必要かもね。IT業界にいた俺が言うのも変だけど。 >みんな貧乏になったら サービスを買ってくれる顧客がいないとビジネスは無理。ホワイトカラーがAIでダメになったら、顧客が減る。大勢解雇しなくても、不景気になれば業者は bankrupt するよ。みんな次の給料が心配で、リフォームとかしなくなる。 >お金なんて意味ない もしホワイトカラー(研究者、プログラマー、マネージャー、営業、翻訳者、イラストレーターなど)がAIのせいで収入や仕事を失い、肉体労働に移動したら、今のブルーカラーの収入に影響がないと思う? >ブルーカラーの収入に影響がないと思う? 需要と供給の法則でさ、供給が増えれば価値は下がるってことじゃん。 >価値が下がるって? お金は複雑な社会の会計ツールにすぎないんだよね。労働者のいない世界でオーナー階級が目指すのは、生活を向上させたり、他のオーナーと取引したりするための重要な資源の蓄積だと思う(ここでもお金は会計に使われるだろうけど)。資源持ちの金持ちは、AI兵器で守られた広大な土地を維持して、AIを介して商品やサービスを生産する様々な産業施設や農業施設を持ってるかもね。彼らは生産された商品やサービスの一部を自分で使い、他のオーナーと取引して、労働者なしで幸せな生活を送るんじゃない?オーナーじゃない人は、職のない労働者階級に不要な土地に住まわせて、気が変わるまで放置するかもね。 テクノロジーが火よりも重要になってるのに、どうやって善に基づいて行動できるんだろ?歴史は、彼らが市場の評価額を最大化するためにあらゆることをすることを期待してるんだよ。 >世界全体を、これらの企業のオーナーがすべてを所有し、完全に制約を受けない世界に変えるってこと? 俺から見れば同じこと、同じ軌道だよ。少数の人がより多くの力を持つってこと。権力者が何をするかによって良くなることも悪くなることもある。たぶん悪くなるだろうけど。征服と支配はずっと昔からあったけど、普通の人々は世界の多くの地域で比較的平和に食料を集めたり育てたりして暮らしてきたんだよ、何世代も。でも今、世界は急速にそれを支えられなくなってきてる。人間の活動によって豊かさと収容力が失われてるからね。そして最終的には、少数の人々に制御されたロボット軍が残されたすべてを奪い、貯め込むだろうね。願わくば、世界のどこかで人々や動物が生き残れるといいな。たぶんオーナーにとって役に立つと思われればね。 >あるクローラーが2024年5月に73TBのzip圧縮されたHTMLファイルをダウンロードしたってさ。 bandwidth料金が5000ドル以上かかったって。 動的に生成されたガラクタ情報を送り込んじゃえば?情報がないより面白いじゃん。 OPのリンク先のブログ記事で、bandwidth料金が大幅に跳ね上がったって言ってたよ。ガラクタ情報を送るのにもお金がかかるんだぜ。 FastlyってFOSSプロジェクト向けに無料のbot検出、CDNとかのセキュリティサービスを10年以上も提供してるんだって! へー、知らなかった。 ここ2ヶ月で少なくとも5つのサイトでbot検出に引っかかったんだけど(captchaウォールは含まず)。マジ勘弁。 それってFastlyのbot検出が原因? 結構正確だと思うけど。 Fastlyだけじゃないよ。少なくとも3つ以上の実装があるし、cloudflareはcaptchaあるから違うと思う。Akamaiはあったかも。 オープンソースプロジェクトを支援するのが大事だから、製品の宣伝みたいにはしたくないんだけど、メンテナと協力してシステムの厳しさを調整できるよ。他のサービスもできると思うけどね。 根本的な問題は、多くのサイトがブロックした人からフィードバックをもらえないってこと。だから、調整が必要だってことに気づかないんだよね。 ハイエンドのbot検出サービスは、ブロックアクションに関する証拠を提供するはずだよ(無料プランでは利用できない場合もあるけど)。 Westworldは知らないから置いといて、ハイエンドベンダーの証拠って、ログファイルが誤BANの解明にどう役立つの? え、オランダ映画で面白そうなのがあるの?! 母国語の映画を見るのは人生で2回目かも。教えてくれてありがとう:D お役に立てて嬉しいよ。オランダの映画産業はそんなに大きくないのかもね。アメリカのメディアの影響かもしれないけど、オランダを含むヨーロッパに行ったとき、ほとんどの人がネイティブレベルで英語を話してたんだ。まるでビデオゲームみたいで、難しすぎるとオフにできる没入モードがあるみたいだった(公共施設にはすべて英語の字幕がある)。 自分のプロジェクトがプレビュー画像に表示されてるのはマジでシュールだわ!ワイルド!試してみたい人はこちら:https://github.com/TecharoHQ/anubis 。今のところ、ちゃんと動いてるみたい。ブログのために、prod環境でどう失敗するか確認するためにxeiaso.netにデプロイしてみた。 これマジでいいね。インターネットがワイルド・ワイルド・ウエストみたいに機能するのは構わないけど、アカウンタビリティがないのは嫌だ。これは、自由に利用できるようにしたいサイトのために、クローラーに経済的な負担をかけるいい方法だね。データが欲しいなら、それを得るためにお金を使ってくれってこと。サイトが検索エンジンから削除される可能性があるけど、グローバルまたはP2Pインデクサーにサービスを登録できない理由はない。 “なぜグローバルまたはP2Pインデクサーにサービスを登録できないのか”って? ナイスワーク😊 >フィードバックが一つ:ページにアクセスしたときに、何をすべきか、何が起こっているのかを(人間向けに)説明を追加してくれない? JShelterを使ってる場合、Workerがデフォルトでブロックされてて、それが絶対に動作しないって表示がないから、スピナーが永遠に回り続けて何も起こらないんだよね。 了解!バグを報告したよ:https://github.com/TecharoHQ/anubis/issues/38 プログレスバーはどう? プログレスバーを意味のあるものにする方法はないんだよね。運ゲーみたいなもんだし。 もしかして、終わるにつれてどんどん遅くなる、(ちょっと誤解を招くような)プログレスバーのことかな?なんか作業してるって示すためだけに。 もっと簡単で、数が多いほど効果がある Proof of Work を導入すればいいんじゃないかな。 それって、Windows のコピーダイアログみたいじゃん。プログレスバーだね。 ちょっと手間はかかるけど、難易度とクライアントのハッシュ速度に基づいて、「90% の確率で、このウィンドウは今から xyz 秒後に消える」みたいな確率的なことを言えるんじゃない? うん、そのためにはデータが必要だ!リストに追加しとく。 いつも素晴らしいね。応援してるよ。 Anubis は有名にならないうちは使えるけど、有名になったらクローラーが GPU とか ASIC を Proof of Work に使い始めて、ゲームオーバーだよ。 ボットがアグレッシブなのは、実行コストが安いから。スクレイピングごとに GPU が必要になったら、90% 以上は大規模に実行できなくなる。 Anubis の作者です。そうなったら、俺の勝ち。 もしそうなったら、Anubisを使って大きな素数を分解したり、科学に必要なことをバックグラウンドでやるのに協力するよ。 それ、結構いいアイデアかも。@xena、Anubis v2でSETI@HOMEみたいなプロジェクトに参加させて、史上最大の分散型クラスタを作るとかどう? 自分のデータをプライベートに公開・ホストできるサービスを作って、エンドポイントが生成したトークンから分け前をもらうってのはどう? 合成数を素因数分解すべきじゃない?素数は分解しても意味ないでしょ。 あなたの記事に偶然出会えて嬉しいな。ブログでの説明の仕方が好きだし、Anubisについてもっと調べてみるよ! proof of workのすごいところは、実行するのはめっちゃ難しいけど、検証は簡単なこと。Anubisのproof of workはこうなってる: もし的外れな質問だったらごめん。proof of workって、どうやってボットやスクレイパーがウェブサイトにアクセスするのを防ぐの? ボットがこういう課題を突破できないようにする方法はいくつかあるけど、一番効果的なのは(スクレイパーのコードを変えても回避できない)、リクエストのコストをめちゃくちゃ高くすることだね。スパムと同じで、こういう大量スクレイピングが成り立つのは、送信/リクエストのコストがほぼゼロだから。どんなコストでも、普通のユーザーには小さくても、そういう規模でやってるやつらからしたら、とんでもない増加になるんだよ。 簡単に言うと、ほとんどのボットはそういう課題を解決するように作られてないんだよね。 >理想的には、サーバーにとっては簡単で、クライアントにとっては難しい処理がいいよね。 DoS防御ソフトウェアの上にbitcoinが作られて、最終的にDoS防御がbitcoinを使い始めるみたいなのが一周回ったって言うんじゃない?あるツールがあることに使われて、それが別のことに使われて、また最初のことにもどってくるのは…普通のことじゃない? AIアニメの女の子、指が6本あるじゃん。AIボットをAI女の子で退治するってわけね。たぶん修正するためにプルリク送るわ。 もっといいアセットを作ってもらうためにアーティストに依頼してるんだ。これらは、最初のrageware実装で使ったプレースホルダーなんだよね。こんなに人気が出るとは思わなかったよ! JSを使わないユーザーのためのオプションも追加してくれない?例えば、Linuxのコマンドラインで出力したものをフォームに貼り付けられるようにするとか。 FOSSインフラだけじゃなくて、匿名のインターネットアクセス全体が危機に瀕してるんじゃないかな。サイトを認証ウォールの後ろに置くことはできるけど、今のボットはキャプチャを解いたり、本物のユーザーみたいに振る舞ったりできるからね。特に、記事にあるような住宅用IPからアクセスしてきたり、Playwrightみたいなものに接続されてたりしたら、もうお手上げだよ。クレジットカードとかWorldcoinとか、そういうのを使わないとダメになるかもね。もっとコメントを表示(1)
>“多分ね。Walkmanの市場もあるけど、小さいでしょ。
目標は大規模な労働者の置き換え。AI企業のビジョンだし、損失を正当化する唯一の方法。
>“仕事はニーズとそれを満たす能力で決まる
>“仕事のニーズは経済全体で決まる。多くの国はサービス経済で、ホワイトカラーが多い。ホワイトカラーは物理的な問題がないからAIで置き換えやすい。ホワイトカラーが仕事を失うと、雇用者の価値も下がる(今のtech job markerがそう)。
>“社会主義者が権力を握って競争を禁止する
>“社会主義へのこだわりが理解できない。現実は資本主義で、独占が目的。政府の規制で抑えられてるだけ。
>“業者とかにお金を使わない?
お金は価値を交換する手段。業者が価値を生み出す能力があるなら、なぜ貧乏になるの?AIが価値を生み出す能力を邪魔しなければ、問題ないでしょ。
>“お金は交換の手段。交換するものがあるかが問題。ホワイトカラーがいなくても、交換するものはある。不景気になる理由はない。ブルーカラーが価値を生み出す能力を邪魔するものは何もない。
>“給料の数字なんてどうでもいい。ブルーカラーが買えないものは何か?ホワイトカラーをAIに置き換えても、ブルーカラーが価値を生み出す能力は変わらないから、買えないものは減る。
>“当たり前にあるよ。供給が増えて市場価値が上がれば、収入は増えるでしょ。
そりゃ消費財の価値は下がるから、ブルーカラーの労働者はもっと消費できるようになるってこと。それこそが収入の増加ってやつだよ。
それって過去1万年の人類の征服と支配と何が違うのさ?
二度見しちゃったよ。俺は毎月数百TBのトラフィックを処理するインフラ(ほとんど専用サーバーを使用)を運用してるけど、トラフィックコストはTBあたり0.50ドルから3ドル程度だよ(主に地理的な場所によるけど)。AWSのネットワーク転送料金はマジで狂ってるね。
Fastly.com/fast-forward(ちなみにFastlyで働いてて、このプログラムに関わってるよ)。
最近、新規プログラムとか既存メンバーからの問い合わせで、AIスクレイピングに関するものが増えてるんだよね。数年前はパフォーマンスとか、WAFのOWASPルール実装とかが多かったんだけど。
自分はめっちゃ人間だって自信あるのに。
3つのサイトはカスタマーサポートに連絡しろって言うし、残りの2つは完全にブロック。
Codebergだけはまともな返事くれたけど、他のサポートは「クッキー消してルーター再起動しろ」とかいう的外れなアドバイス。
サポートはマジで対応できてないし、おかげで買い物もできない店がある。
普通の人はサポートに連絡しないと思うけど、問題に気づいてほしいから連絡してるんだよね。
これ使ってる人は気を付けて。
CloudFlareとAkamaiにはしょっちゅう誤BANされるわ。もっとコメントを表示(2)
それに、システムが厳しければ厳しいほど、botとしてマークされるリクエストの割合が高くなるから、さらに厳しくしたくなるかもしれないし。
大事なのは、>多くのサイトがブロックした人からフィードバックをもらえないってこと”なんだよね。ツールがトラフィックを人間じゃないと判断しちゃってるから。
Westworldの「Doesn’t look like anything to me」の世界だよ。
ブロックページに表示されるリクエストIDはベンダーが調べられるけど、それが何の役に立つの?
ログのエントリが実際の顧客かどうかは、ページロード率に比例して商品を購入するか、役に立つコンテンツを投稿するまでわからない。
情報を見るだけで貢献しない人もいるし、それはそれでいい。
ブロックされたシステムのリストがあっても意味ないよ。自分でサーバーを運営してるからわかるけど、正当なユーザーエージェントが何十万ものリクエストを送ってきて、すべてのページを順番にクロールしてるのを見る。
もし、この非人間的なリクエストパターンがなくて、ブロックされたアクセス試行のリストの中にこのユーザーエージェントとIPアドレスとその他のメタデータがあったとしても、そのBANが正当かどうか判断できない。
保護サービスでは、その証拠にどれだけの不満が隠されているかわからないから、誰もブロックしない。システムをクロールに耐えられるようにするしかない。検索エンジンとかHNからのトラフィック急増には、どうせそうしないといけないし。
YouTubeでフルで見れるじゃん!
最終更新:マジで特別だった。10:26–10:36が一番好き^^。英語の字幕じゃ伝わらないかもだけど。
Dark Mirrorのエピソードみたい。教えてくれてありがとね:)
ネットワーク効果ってやつだよ。だから、Googleを介するのとは違うウェブのインデックス方法に取り組むべきだけど、言うは易く行うは難しってやつだよね。
フィードバックが一つ:ページにアクセスしたときに、何をすべきか、何が起こっているのかを(人間向けに)説明を追加してくれない?ローディングアニメーションのウィジェットがあるのは知ってるけど、最初にそのページを見たとき(Gnomeのissue trackerで数週間前に)、20秒くらいproof-of-workしてて、何が起こってるのかよくわかんなかったんだよね。最初はブロックされたか、captchaのロードに失敗したと思った。もちろん今は何なのか理解してるけど、“botかどうかチェック中”のページだけを見たとき、100%明確だとは思えないんだ。
了解!https://github.com/TecharoHQ/anubis/issues/25
これらはすべてプレースホルダーの文言、レイアウト、CSSなどだよ。そのうち修正するよ。これは成長痛ってやつだね。もっとコメントを表示(3)
>https://news.ycombinator.com/item?id=43422781
>好きな shitcoin のマイクロな量を計算する方法を組み込めば、暗号通貨の正当で役立つ応用例になるかも…!
SHA256ハッシュはこんな感じのバイト列:394d1cc82924c2368d4e34fa450c6b30d5d02f8ae4bb6310e2296593008ff89f
普通は16進数で書くけど、RAMにあるバイトはマジでこんな感じ。
proof of workでは、基準値(”チャレンジ”)と急速に増加する数(”nonce”)を使うから、ハッシュするのはawait sha256(${challenge}${nonce}
); になる。
”difficulty”は、生成されたハッシュに必要な先頭のゼロの数。クライアントがチャレンジをパスしたいときは、使ったnonceを含める。サーバーはsha256演算を1回だけすればいい。
保護されたウェブサイトにアクセスするのにもっとリソースがかかると思うけど、これでボットは止まる?チャレンジをパスしてデータをスクレイピングできるんじゃない?普通のスクレイピングボットは、短い時間やリソースしか使わないとタイムアウトするの?
まさにその通り(サーバーには簡単、クライアントには難しい)。クライアントがプルーフ・オブ・ワークの課題をクリアしたら、サーバーは同じ課題をクリアする必要はなくて、結果が正しいか検証するだけでいいんだ。Proof-of-Workのブロックチェーンでブロックのハッシュを見つけるのが難しいけど、検証はそれほど計算負荷が高くないのと同じようにね。この非対称な計算要件は、おそらくプルーフ・オブ・ワークの最も基本的な性質だよ。
Fun fact:Proof-of-Workは、Bitcoin/ブロックチェーンで使われる前に、DoS攻撃を防ぐ技術として使われてたみたいだよ。一周回って元に戻ったって感じかな