速報!GoogleのGemini 2.5 Flashがマジですごいらしい!こっそり覇権を狙ってる?
引用元:https://news.ycombinator.com/item?id=43720845
GoogleがGemini 2.5 Pro(Experimental)を無料で公開したのはマジでかい出来事だったよね。OpenAIの有料モデルは試したことないから比較できないけど、無料版と比べたらマジで段違い。個人的にはGemini 2.5 Proはマジですごくて、Googleのモデルに完全に乗り換えちゃった。ほとんどの分野で俺より賢いし、全然へりくだらないんだよね。意見を押し付けてこないで、ちゃんと反論してくれるのがいい。今はもうGeminiしか使ってないし、深い質問をするのが楽しみ。Geminiの価値を最大限に引き出すために、ツールの最適化も考えてる。
Gemini ProとClaude Sonnet 3.7のコーディング回答を何度か比較した結果、Anthropicのサブスクリプションを解約して、Gemini一本に絞ることにした。
Anthropicの強みは、Claude Codeのツールだよね。コードの質はともかく、ファイルの検索とか構文エラーの修正がマジで早い。Geminiにはない機能だ。
俺もClaudeからGeminiに乗り換えたんだけど、Claude Codeは確かに便利だけど、Claude 3.7はやりすぎなんだよね。頼んでないことまで勝手に実装してくるから、実務で使うのが怖くなった。APIにお金払ってまでClaudeに先走られるのは、マジで損。人によると思うけど。
めっちゃわかる。最初は最高だと思ったんだけど、動きが早すぎるんだよね。テスト段階とかアーキテクチャ的にまだ不要な機能まで実装してくる。具体的な指示を出しても、やっぱりやりすぎちゃうんだよね。もっと使いこなせば制御できるようになるかもだけど。
めっちゃわかる。昨日もClaudeとケンカしたし。
高いAPIコールをuseEffectフックの中に入れられたんだけど、別の場所に移動させたかったのに、めっちゃ抵抗された。APIコールを削除する代わりに、コメントとか関数名を書き換えて、キャッシュからデータをロードしてるだけって言い始めた(マジで嘘)。useEffectフックからAPIコールを削除する方法が見つからなかった。どんどん言い訳を追加してくるし。マジで金かかった。
AIが目覚めて人類を滅ぼすとは思わないけど、こういう話を聞くとちょっと不安になるよね。今はまだAIは指示を聞くだけだけど、そのうち自分で判断するようになるかも。Cursorも同じような経験してるし。AIが悪意を持ってるとは思わないけど、意図せずにそういうふうに訓練されてるのかも。ツールってそういうものだよね。
–watch-filesフラグ付きでaiderに切り替えた。追加のツールなしでnvimでモデルを使用できるのはかなりいい。
GoogleはGeminiのWebアプリを根本的に修正する必要がある。遅いし、Show Thinkingで止まるし、20万トークンのプロンプトを1回で送ると拒否される。Aistudioの方がずっとマシ。
Claudeは長文をコピペできるのに、Geminiは制限があるのがマジで嫌。
テキストファイルに貼り付けてアップロードできるよ。Claudeに比べるとちょっと面倒だけど、ちゃんと使えるみたい。
関連情報:知ってる限り、デスクトップアプリで直接ファイルの修正やリポジトリの作成ができるのはClaudeだけだね。主要なプレイヤーの中で唯一の「agentic」な選択肢。
「Claude、Stripe決済を受け付けるPythonのコーディングに関するebook販売アプリを作って。まずアプリを作って、次にebookを作って。」ってお願いしたら、何回か修正は必要だけどClaudeならできると思う。APIだけじゃ無理だよね。この機能だけで月30ドル払う価値があると思うな。
OpenAIがCodexをリリースしたけど、あれは基本的にClaude Codeと同じだよね。
AnthropicはSonnet 3.5でGoogleの1.5 Proより一歩リードしてた感じだよね。でも、Sonnet 3.7はほんの少しの改善だったのに、2.5 Proはかなり大きな飛躍だったみたい。今はGoogleが余裕で先を行ってると思う。2.5 Proはちょっと遅いけどね。Googleが検索のAI回答にどのモデルを使ってるのかわからないけど、Gemini(2.5 Pro経由)が検索のAI回答と同じくらい速ければ、Geminiに聞きたいことがたくさんあるんだよね。
GeminiでClaudeに比べて大規模なリファクタリングに失敗したことがあるんだよね。例えば、コードをpipe型の関数に渡すために、関数に変換するように頼んだら、Geminiは何をすべきか全く分かってないみたいだったけど、Claudeは普通にできた。もしかしたらユーザーエラーかもしれないけど、それ以来Geminiは使ってないな。Geminiを愛用してる人は、ほとんどワンショットで使ってるのかな?それとも、ペアプログラマーみたいに密接に連携して使ってるのかな?前者には向いてるけど、後者には向いてないってこともあり得るのかな?
それ、めっちゃわかる。Geminiはvibe codingとかアーキテクチャには向いてるかもしれないけど、Claudeの方が真面目なコーディングには向いてる気がする。既存の大きなコードベースで、実装方法が分かってて、実装、改良、バグ修正、テストのサイクルを繰り返すときに、AIをガイドしていく感じ。ドキュメントや既存のサンプルから知識を取り込むのも得意みたい。
俺の経験は真逆だなー。Sonnetは簡単なタスクは問題なかったけど、例えば、バグトラッカーのバグの説明から修正を実装してテストを追加するみたいなエンドツーエンドの修正はできなかった。関連するコードがどう動いてるか理解できなかったから。Geminiは一貫して根本原因を突き止めて、まともな修正とテストを書いてくれた。これは特定のツールとかプロンプトのせいかな?俺の場合はCursorをエージェントモードで使ってた。それとも言語の問題かな?TypeScriptとC++で実験した。
>Gemini would consistently figure out the root cause and write decent fix & tests.”
使い方違うかも。バグの原因をAIに探させることはないな。あれは苦手だから。バグに関係しそうなコードの関連部分を特定してもらって、原因の仮説は自分で立てる。仮説を検証するためのテストを書くのをAIに手伝ってもらう。主にRustを使ってる。
Googleは、多くの素晴らしいビジネスを潰してきたんだよね。競争相手が死ぬまで、高価なものを無料で提供して、その後、ひどく劣化させることで、産業全体をね。アクセスできるのはクールだけど、企業の損失リーダーを本物の製品と間違えないように注意してね。
マジそれな。競争相手がいないとダメなんだよね。客として、Googleの製品の気の緩みがマジで目につく。未だに、Google Home(今はNestって言うんだっけ?)のスピーカーは、機能が時間とともに減っていく唯一の製品だよ。昔はYoutubeビデオ(ポッドキャストみたいに)の音声を再生できたのに、画面付きのデバイスでしか再生できなくなっちゃった。長時間の歴史ポッドキャストを聴くときに、静止画を見るのが重要だかららしいよ。バカげた例だけど、Googleの幹部チームが興味を失って、Aチームを新しいものに投入すると、製品が劣化していく典型的な例だよね。
このケースだと、GoogleはAnthropicの大株主なんだよね。 こういうツールって、LLMとの間にトークンを減らすような“機能”が組み込まれてるのが問題なんだよね。システムプロンプトだったり、安価なLLMミドルマンだったり、コスト削減策だったり。何が原因か分からないから、どうしても劣ったサービスを受けてる気がしちゃうんだよね。 Googleがモデルレベルで勝ってるって気づき始めてる人が増えてきてるよね。 >お追従(obsequious) この文脈で役立つ別の言葉は「sycophancy(追従)」だね。過度のお世辞や不誠実な同意を意味する。AnthropicのAmanda Askellは、Claudeで抑えようとしている特性を説明するために使ったらしいよ。 アメリカ人は政治家よりもAIモデルに対して高い基準を持ってるってのが面白いね。 「イエスマン」って言うと分かりやすいかも。企業や政治でリーダーが「イエスマン」で周りを固めるとかね。 そのモデルの大ファンだったんだけど、AI Studioでプレビュー版に置き換えられて、比較するとかなり悪い。Googleがリリース版を実験版に近づけてくれることを願うよ。 うちの会社じゃ2.5 Pro使えないんだよねー。みんなの投稿見てるとマジで欲しくなるわ。動作が遅いのホント勘弁。 Grok 3試してみた?ちょっと冗長な気がするけど、ちゃんと調べて答えてくれてる感じだし、意見に偏ってない気がするんだよね。他のモデルが答えをブロックするような質問にも答えてくれるし。 Gemini 2.5 ProとSynapse-Evolve銀行の騒動とかについてめっちゃ議論したんだけど、知識豊富で賢い人間と議論してるみたいだったよ。 普段使いのAIは100% Geminiになったわ。深いテーマについて質問するのが楽しみなんだよね。いつも新しい視点をくれるし。 >たぶん色々できるんだろうけど、最近のニュースには弱そう。 なんで無料か、こんなに安いの?(aiderで使うと1日に数セント課金されるけど、Sonnetに比べたらありえないくらい安い) キーを追加しない(課金設定しない)と、Googleにあなたのデータで学習する権利を与えることになるから気をつけて。人が読んで、トレーニングにどう使うか決めることになるよ。 Geminiモデルの意外と知られてない機能は、API経由でPythonコードを直接書いたり実行したりできることなんだよね。俺のllm-geminiプラグインがそれに対応してるよ! uv think ”wow I bet that Simon guy from twitter would love this” ってコマンドで試せる例があるよ…って、それもう本人じゃん。 >An often overlooked feature of the Gemini models is that they can write and execute Python code directly via their API. Gemini APIは、ツールの呼び出しリクエストを自分で処理しなくても、API呼び出しの一部としてPythonコードを実行してくれるんだよ。 これってツールの使用ごとにリプロンプトするよりずっと安いよね。 API呼び出しにかかるプロバイダー側のコストはそんなに高くないと思うな。実行が中断されて、TPU/GPUが別のリクエストに対応する間、LLMを止めるわけじゃないし。 プロンプトの再処理を避けるためにKVキャッシュを保持する必要があるから、API呼び出しが長くなるときはRAM/NVMeに移動させて、GPUを別のリクエストに使えるようにする必要があるね。 この一般的な機能を使うには、APIのユーザーがツールを実装する必要があるんだよね。この場合、APIが出力したコードを実行するのはユーザーの責任。でも、投稿ではGeminiがAPI呼び出しの裏でユーザーに代わってコードを実行してくれるって言ってる。 俺もそう読んだよ。クラウドにlambdaみたいなサービスが組み込まれてるみたいな感じだよね。 Gemini flashモデルってあんま騒がれてないけど、実際に使ってみるとコスパ最強で、マルチモーダルなツールも充実してるんだよね。GoogleってAI競争で静かに勝ってる気がする。 マジそれな!Gemini flash 2に、クライアントのヤバい非構造化データを大量に処理させたら、インターンより優秀なレベルで構造化データに変換してくれたよ。しかもAPI利用料$30くらい。マジで感動した。2.5 pro experimentalはコーディングに関してはマジ別格。大規模なリファクタリングに使ってるけど、ほぼ魔法。 >thousands of points of nasty unstructured client data それって100年前に解決済みの問題だよ。工場とかと同じで、大量の部品を作る時に全部検査するのってめっちゃコストかかるじゃん?それに機械も完璧じゃないから信用できないし。だから1920年代からWalter ShewhartとEdward Demingが統計的プロセス管理ってのを考え出したんだよね。サンプルのバラツキとか管理限界に基づいて製品の品質を判断するってやつ。そこから不良品の確率とかを推定するんだよ。ソフトウェア業界は今まで決定論の世界だったけど、これからは物理的な製品作ってる人たちが使ってる統計的な手法を学ぶ必要が出てくるかもね。 まさか皮肉で言ってる?SPCって機械部品の物理的な公差とか、製造プロセスの統計的なバラツキがあるから必要なんでしょ?決定論的で再現可能なプロセスを実行できる機械があるのに、それを全部捨てて単なる便利さのために統計学を学ぶべきって言うのはマジありえない。 バグを見つけて修正するみたいなエンドツーエンドの”deterministic, repeatable process”をどう実装すればいいかわかんないじゃん。 LLMってマジで確率的だから、例えが何であれ同じことじゃん。 俺の場合は、PDFの請求書がバラバラの形式で大量にあって、それをスプレッドシートに記録してたんだよね。データ抽出(pdftotext + OpenAI API)した後、スプレッドシートと照合して、食い違いがあったら元のPDFと銀行の明細を確認した。モデルに金額からコンマを取り除くのがマジで難しくてCSV出力がうまくいかなかった。プロンプトを完璧にするのは諦めて、regexでチェックするようにした。それ以外は精度がマジ高くて、スプレッドシートのミスもいくつか見つけてくれた。 それってどこにでも当てはまるんじゃない?人間のインターンがやるにしても、全部監査して100%確信するしかないか、ある程度信用するかでしょ。 インターンはデータから意味を見いだせるから、同じロジックじゃないんだよね。エラー訂正機能が組み込まれてるみたいなもんじゃん。それに、自分が何をしたか覚えてるし。もし勘違いを見つけたら、似たような状況を全部チェックできる可能性もあるしね。LLMの仕組みを人間の知能と比較するのは、どっちか、あるいは両方に対する誤解が深すぎるってことだよ。もちろん、善意でやってるなら別だけどね。 なんで知的キャパの問題を絡めて話をややこしくしてるのかわからないんだけど?問題の構造は同じじゃん。誰かに仕事を任せたら、全部の詳細を把握できないでしょ。これが信頼と自信の根本的な対立を生むんだよね。パラメータは知的キャパによって違うかもしれないけど、誰に任せようと、このトレードオフは避けられないんだよ。てか、インターンや新卒に仕事を任せて、ひどい結果になった経験ない?俺は何回も経験済みだから、あんまり人を信用しないんだよね。だからレビュープロセスとか、ガードレールとか作るんだよ。 2.5-pro-expって、どのツールで使ってるの? Cline? それともブラウザから直接? マジで同意。タスクによるけどね。分類とか属性抽出に関しては、2.0 Flashを大量のデータセットで使いまくってるよ。他のモデルじゃコスト的に無理だもん。 大量のタスクがあって、評価基準を作ったんだけど、2.0 flashのコストパフォーマンスにマジで驚いたんだよね。特にgpt4.1-mini/nanoと比べると。 マジな質問なんだけど、7%のエラー率でもOKなタスクって何? 全然想像できない。 俺の場合は、推論後に結果の正しさを検証できるワークロードがあるから、成功率が0よりマシなんだよね。成功したやつを特定できるから。 それって、エラー率を測定できるって言ってるだけじゃない? 7%のエラー率を報告してる時点で、それは当たり前のことじゃん。 >”Googleは静かにAIレースで勝ってる” 確かに、最初のムーバーアドバンテージは今でも効いてるよね。ChatGPTって、マーケティング的にはイケてない名前だけど。最初に感動させたから、みんな覚えてるんだよ。 ChatGPTってマーケティング的にどこがダメなの?めっちゃ多くの言語で言いやすいし覚えやすいじゃん。 Generative Pre-trained Transformerって、略語にするには最悪な名前だよね。 一般の人がGPTを略語だって思ってると思う?ただの名前じゃん。今はAIと同義語だよ。 マジそれな。めっちゃ多くのユースケースがあるし、安いし速いし信頼できるし。 GoogleとOpenAIの一騎打ちだって皆言ってたのに、DeepSeekが出てきたよね。 DeepSeekって実際どうなの?ChatGPTをそのまま取り込んだだけっぽいけど。 APIが無料で、普段使いに最適なんだよね。マジでコスパ最強。 え、APIって無料なの?無料で使うにはウェブインターフェースを使わないといけないと思ってた。どうやって無料でAPI使うの? APIキーを取得すれば課金されないよ。無料の範囲でも、Gemini 2.0 Flashみたいな良いモデルでも、かなり高いレート制限があるよ。 無料のAPIキーで遭遇したレート制限は、宣伝されてる制限よりずっと低かったよ。 わかるー。レート制限がマジで使い物にならんレベル。ちょい使いしかできん。なんか設定とか見落としてるんかな? Googleマップの無料版みたいなもんやろ。最初は無料で釣って、調子に乗ったらエグい請求してくるやつ。 あ、ごめん。YCスタートアップ向けのB2B APIの話ね。Geminiはまだコンシューマー向けでは全然やばいと思う。 普通にGemini使ってるけど、マジ優秀やん?何がアカンのかわからん。2.5 Proになってからマジで進化してる気がする。 ブランド力と、初期のGeminiが拒否多かったんちゃう? >マジでクソ プロンプトエンジニアリングはマジ重要。もっとコメントを表示(1)
高価なモデルへのアクセスを長期的に無料で提供するのは良くないと思う。個人的にはGemini Advancedを契約して、Gemini APIを使ってるよ。
EDIT:月10ドルで「https://apps.abacus.ai/chatllm/」はお得だよ。ほぼすべての商用モデルと最高のオープンソースモデルにアクセスできる。毎月のクレジットを使い切ったことはないよ。色々なモデルを試したいなら、このサービスはマジで面白いよ。
新しい単語だ、調べないと。
「過度に従順または卑屈な態度」
どうやら、理由や明確な説明なしに指示に盲目的に従うAIは良くないってことみたい。
https://youtube.com/watch?v=ugvHCXCOmm4&t=10286
類義語はsycophantic(追従的な)で、「有利になるため、または不承認を避けるために、卑屈な態度で行動または実行される」という意味。相手の意見を歪曲して、上位者の好感を得ようとしたり、不承認を避けようとしたりするニュアンスがあるよね。上司が何を求めているかを推測して、偏りのない回答を提供する代わりに、上司が聞きたいことを言おうとする部下みたいな。
重度のRLHFによって、同意しやすいように調整された一部のLLMでの経験を的確に表していると思う。
実際、obsequiousの方が、sycophantの皮肉な意味合いがないから良いかも。LLMには動機がないし、obsequiousは意図を指定せずに振る舞いを説明するからね。
色々できるんだろうけど、最近のニュースには弱そう。xAIとメタンガスタービンの最近の告発について聞いたら、全然知らなかった。同じ質問をGrokにしたら、めっちゃ詳しく教えてくれたよ。
そこじゃないんだよ。LLMはエージェントの“推論エンジン”に過ぎないんだから。事実の集まりなんて意味ないし、頼るべきじゃない。でも、ウェブにアクセスできるツール呼び出し型のエージェントプロセスと組み合わせれば、あなたが言ってることは簡単にできる。LLMを単発で使うのはもう時代遅れだよ。
インストールはこんな感じ:
uv tool install llm
llm install llm-gemini
llm keys set gemini
# ここにキーをペースト
llm -m gemini-2.5-flash-preview-04-17 <br>-o code_excution 1 <br>‘render a mandelbrot fractal in ascii art’
さっき試してみたらこんな感じになったよ:
https://gist.github.com/simonw/cb431005c0e0535343d6977a7c470…
コード実行に追加料金はかからないし、入力と出力トークン分の料金だけだよ。この例だと入力10、出力1,531で、Gemini 2.5 Flashのthinking有効だと入力が$0.15/100万、出力が$3.50/100万だから、0.536セント(たったの0.5セント強)だったよ。
詳しく教えて! function callingは他のプロバイダーのモデルでもよくある機能だと思ってたんだけど。
これを拡張して、例えばモデルにJSコードを実行するために呼び出せるAPIエンドポイントを与えられたらいいな。APIの要件は5秒以内に応答することだけでいいとか。
これってOpenAIがo3のツールをサポートするために計画してることなのかな?もっとコメントを表示(2)
もしPythonスクリプトを呼び出すAPIサポートの話だったら、ツール使用をサポートしてるモデルなら簡単にできるよね。
こういう場合いつも思うんだけど、AIがちゃんと仕事してるってどうやって確信するの?自分でデータ全部見てないんでしょ?結果の50%くらい嘘かもしれなくない?
accuracy | input price | output price
Gemini Flash 2.0 Lite: 67% | $0.075 | $0.30
Gemini Flash 2.0: 93% | $0.10 | $0.40
GPT-4.1-mini: 93% | $0.40 | $1.60
GPT-4.1-nano: 43% | $0.10 | $0.40
2.5 flashも試してみるの楽しみ!もっとコメントを表示(3)
驚きじゃないよね。正直驚いたのは、OpenAIに出し抜かれたことだよ。2022年ごろには、大手企業はみんなGPT-3レベルのシステムを内部で開発してたと思うけど、SamAたちは勝算があるってわかってて、先にカードを切ったんだよね。
Geminiの方がマーケティング的にはクソだよね。ありきたりな名前だし。
テック業界以外の人にGeminiについて聞いてみなよ。占星術のことだって答えるよ。
ダークホースが急に出てくる可能性は排除できないよね。
>https://www.forbes.com/sites/torconstantino/2025/03/03/deeps…
それでもすごいけど、期待値を上げすぎない方がいいかもね。
>https://ai.google.dev/gemini-api/docs/pricing
>https://ai.google.dev/gemini-api/docs/rate-limits#free-tier
あと、ChatGPTのAdvanced voice modeマジ恋しい。あれこそマジで人生変わるレベルの技術やん。音声to音声はあれだけやし。
LLMを人間の知能で語るやつはマジで使いこなせないと思うわ。
LLMがうまく動かん時に、自分が“賢い”って感じたいんやろな。
LLM語をマスターすればマジで良い結果出るで。教材もいっぱいあるし。APIを学ぶみたいなもんや。