ヤバすぎ!ブラウザ操作をAIで自動化!?Cursor、Claude、VS Code連携で何でもできるぞ!ただし、監視とBANには要注意!
引用元:https://news.ycombinator.com/item?id=43613194
Browser MCPの作者です。
1. 拡張機能は匿名デバイスIDを使ってて、ツールが使われた時に分析イベントを送ってるよ。個人情報とかは一切送ってないから安心して。アクセス状況を知りたくて、ウェブサイトの訪問者数みたいな感じで匿名データ集めてるんだ。色んなプロジェクトやってるから、どれに集中するか決めるのに役立つんだよね。
2. 拡張機能は全部自分で書いたよ。GitHubにMCPサーバーのコードしかない理由は、複数の拡張機能で使うコードをまとめて管理してるから。個別に管理するのは大変なんだ。
誤解されちゃってるみたいだけど、怪しいことは何もしてないから!
わかるー。作った側としては、どう使われてるか知りたいよね。個人情報を集めてないなら、全然問題ないと思う。
過剰な反応は良くないよ。トラッキングは良くないけど、製品を改善したり、注力するポイントを絞ったりするには、ある程度のトラッキングは必要だよ。
「収集します」って言葉を見ただけで、もう読まなくなる人が多いんだよね。
これって致命的だよ。
どんなに理由があっても関係ない。
スパイウェアって思われちゃう。
それって現実と逆のこと言ってる気がする。
「詳細な」って、匿名デバイスIDとツールの使用回数のこと?アプリが基本的な使用状況を知りたいだけなのに、そんなに問題かな?
テレメトリーは常にオプトインであるべき。簡単に拒否できるべき。
それ以外のやり方は道徳的に破綻してる。
マジ?大げさすぎだよ。
マックで注文する時に契約書にサインしないけど、ビッグマックが何個売れたかは絶対に数えてるでしょ。それって道徳的に破綻してる?普通にビジネスとして合理的じゃない?
マクドナルドは道徳的に最も破綻してる企業の一つだと思うけど、言いたいことはわかる。
ユーザーを監視する権利があるって思い込んでるのがマジありえない。2025年だぞ!ちゃんと説明して、許可取ってくれよ。勝手にデータ集めて金儲けとかふざけんな。利用規約とかクソだし、いい加減やめろってマジで。現状維持とかマジで意味わからん。クソみたいなもん積み重ねんな。
え、匿名カウンターで人数数えるのと、データを全部集めて金儲けするのって全然違うくない?もしサイト超えて個人情報追跡して売り飛ばしてるなら、そりゃ怒るけどさ。それとは全然違うじゃん。嫌なら自分でMCP作れば?
拡張機能のサプライチェーン脆弱性はマジでヤバい。テレメトリーの問題点も多すぎるのに、なんでみんな気づかないんだろ?許可なしの監視とかありえないって。匿名化って言っても、バレバレだし。PosthogとかAmplitudeが狙われたら終わりだよ。データ集めなきゃいいんだよ。ユーザーの許可なしにデータ集めるの違法にしろ。監視データ漏洩しまくりなのに誰も責任取らないのクソ。
自分でビルドできるChrome拡張機能以外入れるな。
…そして、ちゃんとレビューして完全に理解すること。
つまり、ほぼないってことね。
拡張機能はいつでも勝手にアップデートされるからね。買収されたりしたら最悪だよ。パスワードとか盗まれるかも。ほとんどの人は気づかないだろうね。デフォルトで拡張機能を実行するな。
GitHubとかのソースリポジトリURLから簡単に拡張機能インストールできたら面白いかも。誰を信用してるか分かりやすくなるし。Chrome ストアの「インストール」ボタンを盲目的に信用するのはマジでヤバい。GoogleがChrome ストア始めた理由って安全性の確保じゃなかったっけ?
user.script/grease monkeyみたいな感じか。昔は大きなスクリプト公開したら誰かがレビューしてくれたよね。権限システムをもっと複雑にして、ユーザーにちゃんと説明すべき。あと、独立したレビュアーが署名するとか。App Storeの悪質なやつらの信頼性を疑えるように。
拡張機能はいつでも勝手にアップデートされるからね。
自分でソースからビルドできる拡張機能だけインストールしろって言ってる人がいるけど、Chromeストア経由でアップデートされる拡張機能が多いから、ソースからインストールすればアップデートされないよ。
> So … pretty much none
>”つまり、ほぼない”
意外とそうでもないよ。私が使ってる拡張機能は全部当てはまる。
ウェブサイトには「リアルなブラウザのフィンガープリントを使うから、bot検出やCAPTCHAを回避できる」って書いてあるけど、マジじゃないよ。俺も似たようなシステム(自作)を数週間前に使ったんだけど、AIにログイン済みのブラウザを操作させたら、普通のブラウザ利用時にもCaptchaが出るようになって、最終的には色んなウェブサイトでブロックされちゃったんだ。今はもうその使い方はやめたからブロックは解除されたけど、マジで警告する。同じことやると自分もアクセスできなくなるから。銀の弾丸じゃないってこと。
こういう系の注意点って、だいたい「高品質なプロキシを使えば」ってやつだよね。あと、この拡張機能もバレバレだと思うから、CFのbot検出もすぐにPlaywrightとかと同じように認識するようになるんじゃないかな。
この拡張機能ってブラウザのデバッグを有効にするんだよね(自動化について知らせるバナーが表示される)。それってJavaScriptで検出できるじゃん。だから、こういうプロジェクトがあるんだね。 ウェブサイト上の要素をクリックする速度にもよるんじゃない? マジでそう。俺が普通にクリックしてるだけでも、速すぎるとCFにBANされる。 5年くらい前かな、GoogleがやたらとCaptcha送ってくるようになったんだよね。同じような検索を繰り返してたら。間違ってるかもしれないけど、大規模プラットフォームは、かなり高度なアンチbot/scraping対策をしてる気がする。 Googleは俺にも同じことしてくるよ。なんで分かんないんだろ。検索結果がクソすぎて、欲しい情報を見つけるために30回も検索し直してるんだよ。 GitHubはよく俺をブロックするんだよね。遅くしろって言われて、数時間ブロックされる。意味不明。 GitHubがログインしてないユーザーの検索を無効にしたの覚えてる? まあ、最近は検索の閾値を0に設定したから、事実上また無効にしたんだよね。今回は騒ぎになるのを避けてる。 ログインしてるか確認して。ログインしてないと、数回検索しただけでブロックされた。 Yandexも同じことやってるよ。 Vimium(Chrome拡張機能でキーボードでブラウザ操作するやつ)使ってるんだけど、挙動が「不自然」に見えるせいで同じことになってるわ。 支援ソフト使ってる人にとってはマジで最悪だろうな。俺もCloudflareに理由もなくブロックされるし。 それってADA的に何か問題ないのかな?ってちょっと思う。 マジでそうであってほしい。支援が必要な人たちのためだけじゃなくて、他の皆のためにもね。アクセシビリティはエンドユーザーの相互運用性を守る最後の砦だから。 Cloudflare使うのやめてほしいわ。インターネットが悪くなるだけじゃん。 どういうこと? 俺もだわ。Vimiumも使ってる。 何を探してると思う?すぐ検出できるようなことって何かあるかな?マウスの動きを追跡して、マウスの動きがあまりにも綺麗すぎると判断できるんじゃないかと思ってる。だから、もっと人間らしいノイズをマウスの動きに加えて、システムを回避できるようにするとか。速すぎる操作とかも言われてるけど、操作間のタイミングはどうだろう。クリック自体は速くなくても、間隔が一定だと人間じゃないって判断されるかも。 最近のcaptchaって、言ってるような色んな方法使ってるんだよね。だからCloudFlareの「私はロボットではありません」ってチェックボックスが一瞬でチェックされて終わるのを見たことあると思う。あれって、チェックする前に色んな情報を見て、人間っぽいかどうか判断してるんだって。 キーボード操作とかショートカット、自動入力とか使ってると、botと間違われること多いんだよね。captchaってbotを見抜くのは下手なのに、人間をbotだって誤判定するのは得意だよね。 AIがサイトのトラフィックを食い荒らしてて、captchaとかその手の対策は増える一方だと思う。residential proxyを売ってる人も増えてるし、対策と対抗策はどんどん高度になっていくだろうね。 botの量を考えたら、captchaってbotを見つけるのがすごく上手いんだよね。bot検出のチームで働いてるけど、マジで効果あるよ。誤判定を減らすように頑張ってるし。 captchaはbotがよく使うパターンを検出してるんだよ。人間もたまに同じパターンを使うってだけ。昔Call of Duty 4やってた時、マウス連打が速すぎてチートだって疑われたことあるわ。良いマウスと速い指があっただけなのに。 問題は結果の重大さだよね。CoDでチーター扱いされるくらいなら、サーバーから蹴られるだけだけど、CloudFlareにbot認定されたら、医療サービスとか銀行口座にアクセスできなくなったり、フライトのチェックインができなくなったりするんだよ。だからCFにはもっと頑張ってほしい。人間がbotと誤判定されるのは大問題だよ。 最悪かって?そりゃそうだよ。CFは誤判定を減らす努力を続けるべき?もちろんだよ。CFのbotテストに引っかかったことないから、どんな気分かわからないけど。GoogleのReCaptchaでレベル8か9まで行ったことはあるけど、諦めたこともある。 誤検出は避けられないからね。誤検出(positive)を優先してるのかもね。 >I’m wondering if it is something like they can track mouse movement 小さな要素をたくさん積み重ねて判断してるんじゃないかな。ユーザーは割と直線的な動きをするけど、急に違う動きをしたら怪しいって判断されるかも。 CAPTCHAってあるじゃん?あれって結局、みんなが自動化ツールを悪用するからなんだよね。 「bot対策とかCAPTCHA回避!」とか言ってるやつ、マジ勘弁。必要なアクセスがあるならAPIくれって言えばいいのに。金払う必要があるかもだけど。ダメって言われたら、お前のやり方が嫌われてるって自覚しろってこと。 いやいや、CAPTCHAの主な原因はお前みたいなアホのせいだろ。企業間での自動化された迷惑行為が多いんだよ。競合とか、外部委託とか。お前の会社もやってるかもよ? ビジネスの種類が違うみたいだね。ユーザー追跡とか広告は考えてなかったけど、このツールがそういう目的で使われるとは思わないな。コンテンツファームとか、迷惑botとか、詐欺とか。そういうのが無くなっても困らないでしょ。 ビジネスの種類が違うみたいね。B2Bの自動化の話ね。例えば、競合店の価格を自動で収集して、自分の店の価格を調整するとか。昔の「従業員にこっそり価格をメモさせる」の現代版。 MCPは、LLMモデルが「呼び出せる」メソッドのライブラリ/APIみたいなもん。メソッド名とか、パラメータとか、出力の型とか、説明とかをLLMに教えてあげる。 AIエージェントがJSONで返事して、それをPythonコードの関数にマップするってこと?それが「呼び出し」ってこと? そうそう、その通り。MCPはそれをちょっと形式化しただけ。 モデルの信頼性が低いのに、こんな標準化を急ぐのは変な感じがする。実用レベルになるまで、まだ時間がかかるんじゃない? MCPは、最小限で定義されたアクションインターフェースを提供することで、信頼性の問題を解決しようとしてるんだと思う。LLMは、何をすべきかを考える必要がなくなるから、短いリストから選ぶだけで良くなる。 Pokemon RedのMCPを作っても、Claudeは子供向けに作られたゲームでさえ何週間も苦戦して、ありえない間違いを犯すと思うよ。マジでまだそこまでいってないって。 Pokemon RedのMCPってあるのかな? 知らないけど、それ自体は面白いプロジェクトになりそう。ClaudePlaysPokemonっていうtwitchのストリームのことなんだけど、ClaudeにGameboy Colorのエミュレーターへのツールコーリングを与えてPokemonをプレイさせようとしてるんだ。ゆっくり進歩してるけど、LLMがどれだけ計画を立てるのが苦手なのかわかると思うよ。今回のツールコーリングAPIは、同じフックとかツールを持ったMCP構成に似てると思ったんだよね。 主要なLLMモデルプロバイダーがこぞってこの流れに乗っかってるのは、マジで作為的で不自然に感じる… たぶんLLMの改善が去年はあんまり良くなかったから、何か新しい話題で盛り上げたかったんじゃない?ベンチマークのスコアは確かに上がってるけど、個人的にはLLMは前と変わらずミスが多いし、事実に基づいた正確な答えが必要な場合にはまだ使えないと思う。 これはまさにそうだと思う。みんな手当たり次第に試して、”インパクト”を見せようとしてるんだよ。 Operatorっていうのがあるけど時間の無駄だよ。エージェントとかMCPの99%と同じ。 Operatorは基本的にMCPみたいなもん… 最悪なのは、潜在的なエクスプロイトのパンドラの箱を開けてしまうこと。https://elenacross7.medium.com/%EF%B8%8F-the-s-in-mcp-stands… それはMCPのせいじゃなくて、SaaSモデルにしがみついてMCPを売り込んでるベンダーのせいだよ。MCPはLLMにあなたのマシン上で任意のコードを実行させるための方法だけど、信頼できる”エアロックのあなたの側”で使うように設計されてるんだ。信頼も制御もできないサードパーティ製のツールで使うべきじゃない。リスクを説明するのは良いことだけど、MCP自体を責めるのは筋違いだよ。 これは非難じゃないけど、常に意識しとくべき現実だよね。新しい失敗パターンが増えるし。例えば、ツール同士が干渉し合うとか、多くの人が気づかないようなこととか。外部のツールを使う時は、オープンソースでも、自社のシステムでも、めっちゃ注意して分析する必要があるんだよ。注意しても、絶対セキュリティ事故は起きると思うな。 ほとんどはリモートサーバーでOauth使ってれば問題ないよ。もしim-deffo-not-hacking-you.comからPayPal MCP MCPサーバーをインストールしたら、https://mcp.paypal.com/sse と同じセキュリティモデルだよ。この記事、皮肉にもLLMっぽいよね。 結局そうなんだよね。ユーザーが1個でもヤバいツール持ってたら、終わりじゃん!https://invariantlabs.ai/blog/mcp-security-notification-tool… NPM/left padと同じセキュリティモデルだよね。でもみんなElectronアプリ使うじゃん?新しい攻撃方法だけど、新しい攻撃対象ってわけじゃないよね。 泥棒を擁護してるみたいに聞こえるかもしれないけど、自動車ってボニーとクライドみたいな無法者を生み出したよね。FBIが州境を越える犯罪を取り締まるまではさ。自動車が生み出した進歩全体を考えたら、最初の10年が悪かっただけで諦めるべきじゃないと思うんだ。 MCPは、AIモデルが便利なツールを使えるようにするための規格だよ。普通の人は混乱すると思うけど、開発者は自分たちのツールに見えるからそうは思わないんだよね。 言いたいことはわかるよ。MCPは広く採用されてるけど、草の根的な広がり方じゃないよね。大手AI企業が開発者の心と市場を支配しようとしてるって感じ。コンセンサスが得られる前に。 LLM専用のRPCだよね。まさに今流行りのトレンドって感じ。 ショッピングサイトで「このサイドボード全部見て、155cmより大きくて100cmより小さいやつを絞り込んで。濃い色の木でできてて、高さ31.43cmのレコードが入るスペースがあるやつを優先して」ってブラウザに指示したいんだよね。そんなことできるブラウザってまだないよね?ページから情報を抽出できるの超便利じゃん! MatterRankってサービスを開発してて、似たようなことができるよ。今はウェブ検索だけど。(例えば、「Xについて話してて、Yの偏りがある結果を優先して、何かを売ろうとしてる結果は優先度を下げる」とか)。試してみてね。 わかる~、めっちゃ共感するわ。実現可能かどうかとか、儲かるかどうかは置いといて、こういうことよくあるんだよね。 >You could do that with browser-use: インテリアを考える時、めっちゃ細かい条件で合うものを探したいって気持ち、マジでわかる。 Claude Desktopで試してみたけど、マジでスムーズでPlaywrightより全然使いやすい!いい方向だね!もっとコメントを表示(1)
https://github.com/Kaliiiiiiiiii-Vinyzu/patchright
これはJavaScriptからデバッグ部分を隠すもの。
スクリーンリーダーは、わかりやすく機械可読なサイトを見る必要があるし、法律で義務付けられてる場合もあるし、一般的に良いこととされてるから、サイトはスクリーンリーダーだけでなくエンドユーザーの自動化にも優しくなる。(これがいつまで続くかわからんけど。LLMはすでに特別な機能なしでスクリーンリーダーになれるからね。UIを健常者と同じように理解できる。今はまだ信用できないけど、もっと良くなるだろう。)
>These Captchas are really bad at detecting bots and really good at falsely labelling humans as bots.
>人間からするとそう感じるよね。false-positive率は低いと思うけど。ブラウジングの仕方のせいで誤判定されてるなら最悪だね。もっとコメントを表示(2)
>Though my point was just it’s gonna boil down to a duck test, so if you walk like a duck and quack like a duck, CF might just think you’re a duck.
>結局はアヒルのテストになるってこと。アヒルみたいに歩いてアヒルみたいに鳴けば、CFはアヒルだと思うかもね。
>マウスの動きを追跡してるのかも
そう、それも重要な情報源。
>adding some more human like noise to the mouse
>マウスに人間っぽいノイズを加えてみる
それもよくある回避策。言うは易し行うは難し。新しいノイズ生成方法が出るたびに、検出方法も開発される。グローバルな使用パターンとかも見てるから、人間のワークフロー全体を真似する必要があるよ。
>もし本当にアクセスが必要ならAPIを要求しろよ。
>広告スキップとか、自動化とか、UI改善に使われたら嫌じゃん?分析データ見えなくなったり、セールスファネルから外れたりしたら困るんだろ。
>サイトオーナーに最終決定権があるみたいに言うなよ。
ユーザーエージェントって言葉もあるし、ユーザーとサーバーの領域は分かれてるんだよ。サイトオーナーは余計な口出しすんなって。
もし注文受けて商品発送するビジネスなら、APIを要求できるはず。大企業なら無料で提供してくれるかも。メールとかExcelデータとかもAPIの一種だよ。
ユーザー追跡で稼いでるサイトはAPIくれないだろうね。RedditはAPIあるけど、めちゃくちゃ高いと思うよ。
レビューを自動で書いたり読んだり、SEOコンテンツファームのためにサイトをコピーしたり…
迷惑行為をしてるせいでbot対策が必要になってるんだよ。
>もし注文を受けて発送するビジネスなら、APIを要求できるはず。
個人ユーザーはAPIもらえないことが多いよね。小さすぎて相手にされないとか。既存のサービスを便利に使いたいだけなのに。RedditのAPI変更もLLM対策だよね。ユーザーコンテンツを囲い込んで、利用料を取ろうとしてる。
例えばChatGPTに「Googleマップで自転車屋検索して電話番号教えて」って言っても無理だけど、browser MCPがあればできる。ChatGPTがブラウザに「Googleマップ開いて」「スクショ撮って」「ここクリックして」って指示できるんだ。
なんか仮想通貨の「作れば誰か来る」みたいなノリを感じる。もっとコメントを表示(3)
https://matterrank.ai
どんな使い方を考えてるか教えてくれると嬉しいな。ブラウザ拡張として使う?それともショッピングアグリゲーター?
何か買いたいものがあって、サイズとか色とか、細かい希望があるとするじゃん?で、たぶんそのサイトに条件に合うものがあるはず…でも絞り込み検索じゃ無理!例えば、置きたい場所にピッタリのサイズが欲しいのに、サイトのフィルターじゃ無理なのよ。製品ページには詳しい情報が載ってるのに、全部見るのめんどくさい!
例えば、IKEAでライトウッドのデスクを探してほしい。幅は55インチで、奥行きが一番深い順に並べて。あと、最寄りのIKEAに在庫があるか、1週間以内に配達可能かどうかも調べて。
”https://browser-use.com/”
これを使えばできるよ。
もうやってたらごめん、captchaを検知したら自動化を一時停止して、ユーザーに通知してくれると嬉しいな。Playwrightはcaptchaを無視して進もうとするから。