Claude 3.7 Sonnetが思考なしで60.4%を達成！新機能満載のAider 0.75.0登場

Claude 3.7 Sonnetが思考なしで60.4%を達成！新機能満載のAider 0.75.0登場

引用元：https://news.ycombinator.com/item?id=43163011

anotherpaulg 2025-02-24T20:40:21

Claude 3.7 Sonnetが思考なしでaider polyglotのリーダーボードで60.4%を獲得したんだって。o3-mini-highと3位タイで、Sonnet 3.7が非思考のスコア最高記録を持ってる。Aider 0.75.0も3.7 Sonnetをサポートしてるらしい。思考のサポートや結果は近日公開予定だよ。

nightpool 2025-02-24T23:55:17

225のExercismコーディングエクササイズについて、データの漏洩を減らす努力ってやってるのかな？この問題は2023年以前からネットにあったから、現代のモデルのトレーニングデータに含まれてるでしょう。

anotherpaulg 2025-02-25T04:34:52

完璧を追求するあまり良いものを見失わないようにしてる。ベンチマークには限界があるけど、Exercismの問題はLLMのコード修正能力を測るのに効果的だよ。多くのフィードバックから、aiderのベンチマークはモデルのコーディングスキルと強く相関してると思う。あくまでaiderを評価・改善するためのものなんだけど、LLMのコーディングスキルを測る良い方法にもなったね。

jonplackett 2025-02-25T09:14:22

自分でテストを考えるのが好きなんだ。実際に思考してるか分かるからね。興味深いのは、身体的な世界について考えるテストだと思ってる。最近の好きな問題は、コーヒーを2分間でなるべく冷やす方法についてなんだ。

danbruc 2025-02-25T09:33:14

思考は必要ないよ。その質問はネットでぐぐれば説明がたくさん出てくるから、トレーニングデータに含まれてる可能性が高い。

akoboldfrying 2025-02-25T09:28:22

その答えが面白いから、思考の良いテストじゃないかも。何年も前にネットでその説明を読んだし、思い出に残ってる。だから大規模なデータでトレーニングされたモデルにも覚えてるんじゃないかな。思考を試すもっと良い方法は、誰もが話さないようなつまらない細かい情報について質問することだと思う。

xx_ns 2025-02-25T09:31:10

興味本位で、その答えは何？君のコメントだと、もっと明らかに思える選択肢が間違ってるように思えるんだけど。

chairdoor 2025-02-25T23:00:50

答えは、ミルクを先に入れてから置いておくってことなんじゃない？制限時間が2分だから、後からミルク入れたらすでに時間をオーバーしてる気がする。

s-macke 2025-02-25T09:36:42

Simple Benchはこの方向で進めてるよ。

vintermann 2025-02-25T17:21:21

もう一つ簡単な問題を思いついたんだけど、思考モデルが間違えるんだ: ‘Ahnentafel’の数は自分が1から始まる。誰かの父親のAhnentafel番号を知りたければ倍にすれば良い。母親の場合は倍にして1を足す。

gwd 2025-02-25T09:52:41

この説明では、手助けなしに考えた場合、思考モデル以外はほぼ間違えるってことだよね。Claude 3.7を使ったら正しい答えが出た（多分2番だと思う）。コストを入れて、実際に計算もして、最終的な回答も出したんだ。

larodi 2025-02-25T11:39:02

次回は合成コンテンツ用にpastebinを使った方がいいんじゃない？

gwd 2025-02-25T13:17:52

指摘ありがとう。本当に downvote されて混乱してたから、最初の人がpastebin使えって提案してくれたら、みんなとの会話がもっと和やかになったかも。

anotherpaulg 2025-02-25T00:46:07

最大32kの思考トークンを使って、Sonnet 3.7は64.9％のスコアでSOTA達成したよ。

mikae1 2025-02-25T06:31:48

現状は進歩が段階的になってきてるね。同時に、AnthropicとOpenAIはお金を結構失ってる。どうやって価値を増やさずに利益を上げるつもりなんだろう。

khafra 2025-02-25T06:52:09

Yudkowskyが言ってたけど、もし今 LLM の進歩が止まっても、十分な経済変化があって奇妙な十年になるって。護りがなくても、ラボが自分たちが作り出した価値の一部を捕まえられれば、投資家たちに大きなリターンをもたらす可能性がある。

weatherlite 2025-02-25T12:33:47

どんな経済変化があるの？特定の分野（プログラミングとかコンサルなど）では生産性が10％上がったかもしれないけど、地震みたいな変化にはならないよね。インターネットやウェブの方が影響が大きかった。

Seanambers 2025-02-25T16:22:13

LLMは根本的に新しいパラダイムなんだ。ただ、まだ広まってないだけ。ウェブも突然現れたわけじゃなくて、最初はゆっくり、次に急に広がった。その後にお金が入ってきた。

weatherlite 2025-02-25T17:30:02

LLMはもう広く使われてるけど、あまりインパクトないよ。私の妻は大手4社で会計士をやってて、みんな使ってる（Microsoft Officeのユーザーも多いし）。でも、CEOが言うほどの大きな技術変化じゃない。信頼性や事実確認、記憶の改善が必要だし、いつそこの改善が見込めるかわからない。

KoolKat23 2025-02-25T18:47:10

必ずしもそうじゃないよ。ワークフローを適応させる必要があるんだ。それが各産業革命の過程で起きたこと。最初は電気発電機が蒸気発電機に取って代わっただけで、生産性の向上はなかった。でも、周囲のプロセスを変えたことで劇的に変わった。

もっとコメントを表示（1）

weatherlite 2025-02-26T07:53:26

なんか分からん。たまにひどい判断ミスや事実無根、自分の記憶がないとか、幻覚みたいなことが起きるワークフローって何よ？カスタマーサポートとかでは絶対無理だと思う。その大きな問題が改善されない限り、ツールは常に限界があるよ。

jacob019 2025-02-26T13:29:12

新しい時代の入り口にいると思う。LLMはストーリーの一部に過ぎない。ニューラルネットのアーキテクチャやツールが成熟して、LLMのようなものを作るのが可能になった。LLMは開発者とユーザーのインターフェースを変えるけど、始まりに過ぎない。

KoolKat23 2025-02-26T23:17:23

カスタマーサポートでは生産性が上がってるよ。回答をドラフトして、人間がそれを確認するだけ。幻覚の頻度は減ってるし、こういう作業のわずかな時間節約が大きな効果を生むんだ。

harshreality 2025-02-26T02:41:52

これって仕事を倍増させる力があるよ。秘書を持つ感覚で、普通の人より劣るけど、確認しやすいタスクには十分使える。面倒な作業を任せられるから、人間は疲弊しない。

jonplackett 2025-02-25T09:18:58

同意だな。誰が一番注目を集めるかも重要だ。今ではChatGPTが情報を確認するのに初めの場所になってる。20年以上Googleがその役割だったのに。

dragonwriter 2025-02-25T09:54:37

競争がないなら、あまり価値を確保できないよ。競争がないと価格がゼロになりがちだし、ただで作る人がいるから余計厳しい。

TeMPOraL 2025-02-25T12:46:44

市場競争は一瞬では起こらない。奪われる前にお金を集めるチャンスはたくさんある。流れ出る水を考えると、高速で水を入れられれば、シンクが空になる前にたくさん集められる。

vessenes 2025-02-25T06:56:00

Paul、claudeの思考モードを使うにはyamlの設定変更がいるって notes にあったけど、何かコツある？コミットを解析中で、openrouterを通してのアーキテクトサポート追加かどうか分からなかった。

pclmulqdq 2025-02-25T01:48:12

それに対して$36.83で、o1の$186.50に比べてどうなの？

pzo 2025-02-25T04:48:59

しかも$36.83でDeepSeek R1 + claude-3-5は$13.29で、後者の「正しい編集形式を使用するパーセント」は100%対97.8%だ。edit: DeepSeek R1 + claude-3-7がどれくらいよく機能するのか見るのも面白い。

tw1984 2025-02-25T05:23:20

DeepSeek R1とclaude-3-5の組み合わせが、単体のモデルよりも良かった理由について公に情報ありますか？

VectorLock 2025-02-25T06:07:55

Grok3と比べてどうですか？コーディングにはGrok3が良いって話を聞いたことがあります。

gwd 2025-02-24T22:13:44

Claude 3.5の正しいdiffフォーマットスコアが99.6％からClaude 3.7で93.3％に下がったのが興味深いです。claude-codeを使ったときは、正しいdiffを得るのに何度も試す必要があったので、改善されることを願っています。

Sterling9x 2025-02-25T06:02:56

それはファイルコンテキストの問題だよ。cursorやclineみたいなクソのコンテキストメーカー使うから。Cloodを試してみて。特に「anthropic high usage」は、機能が一発で決まるから、やり方が悪いんだよ。コンテキストをピンポイントに合わせてみて。必要なファイルでコンテキストを設定して。それができれば一発で成功するはず。

bearjaws 2025-02-24T20:55:17

aiderの作業に感謝！俺のお気に入りのAIツールなんだ。

bt1a 2025-02-25T00:03:17

本当に最高だね。多分gitのおかげで、ハルシネーションしやすいけど修正可能なシステムと特に相性がいいんじゃないかな。

doctoboggan 2025-02-25T03:55:33

Aiderは好きだけど、自動コミットはオフにした。AIにコードをコミットさせるのがどうしてもできないんだ。みんなはAiderにコミットさせてるの？

sejje 2025-02-25T04:17:32

俺も自動コミットはしないよ。壊れた状態でコミットするのが嫌だから、LLMはしょっちゅう壊すし。

doctoboggan 2025-02-25T03:53:26

Claude 3.7とDeepseekを使ったことある？「DeepSeek R1 + claude-3-5-sonnet-20241022」が第二位だから、「DeepSeek R1 + claude-3-7」が一番良い選択になりそうじゃない？

bcherny 2025-02-24T19:04:54

みんなこんにちは！Claude CodeチームのBorisだよ。@eschluntz、@catherinewu、@wolffiex、@bdrが今から1時間くらいいるから、質問があったらどんどん聞いてね。

もっとコメントを表示（2）

babyshake 2025-02-24T19:36:56

プロンプトを入力して、モデルが90％もしくは100％答えを出してから『システムが混雑してて答えを出せない』ってエラーが出るのが本当にイライラする。せめて、未完成でも出た返答にはアクセスできるようにしてほしい。

pookieinc 2025-02-24T19:09:33

UIで限界にひっかかるのが不満なんだ。何回もリクエストすると限度に達しちゃって。コンソールAPI使うとプロジェクトの機能が使えなくなるし、これからこの制限が増加する可能性はあるの？修正してくれてありがとう、Claudeは素晴らしいよ。

eschluntz 2025-02-24T19:25:30

これには頑張ってるって知ってるし、Web UIの改善もしてるのは分かってる。だからClaude CodeはAPI経由で動くんだ！

smallerfish 2025-02-24T19:42:24

たぶんみんな5倍の限度であれば喜んで払うと思う。そして、長いスレッドの負担を軽減するために、情報の自動要約があれば最高だな。ユーザーにストレスを与えないことも大事だよね。

justinbaker84 2025-02-24T21:45:52

モデルを作るチームに重要なポイントを伝えたい。多くの人がもっとお金を払っても性能を向上させたいと思ってる。私は10倍払ってもいいと思ってるんだ。

willsmith72 2025-02-24T23:21:12

成長企業だから、限度を一時的に設けてもユーザーが多い方がいいんだろうね。キャパの問題がある限り、両方を手に入れるのは難しいかも。

mianos 2025-02-25T03:47:55

結構お金を払ってたけど、毎日仕事中に限度にぶつかってイライラしてた。結局ChatGPTに貼り付けて続けてたから、プロとして使うのは勧められなくなった。

punkpeye 2025-02-24T19:45:34

もし代替が構わないなら、https://glama.ai/gatewayを試してみて。料金なしで約100億トークンを提供してて、OpenAIのAPIにも対応してる。日常的にLLMを使ってるから、機能追加もすぐにやってるよ。

airstrike 2025-02-24T19:49:37

問題はAPIの限界じゃなくてWeb UIの限界だと思う。Claude APIを使うとその限界を回避できるけど、別のインターフェースが必要になるね。

punkpeye 2025-02-24T20:15:17

APIには制限があるみたいだね。最高のティアにいても、コーディングアシスタント使ってるとすぐぶつかるよ。GlamaはUIとAPIを組み合わせてるのが強みで、両方を同じくらいに磨いてるんだ。機能数でAnthropicに勝てるかは微妙だけど、僕の作った部分は愛を込めて作ったから。それに、OpenAI/Anthropic間でモデルを切り替えられたり、横並びでの会話ができたり、会話の全文検索やLaTeX、Mermaid、リッチテキスト編集、画像アップロード、レスポンスのパーソナライズができるんだ。全てのアクションにはcmd+k（ctrl+k）でショートカットがあるよ。

cmdtab 2025-02-24T20:47:00

deepseek r1のサポートはあるの？今取り組んでるプロダクトに必要なんだ。

clangfan 2025-02-24T19:35:23

自分も同じ問題だな。$20のサブスクリプションでUIしか使ったことないんだけど、CLIも同じのが使えるのかな？AWSのAPI料金みたいに使いすぎてビックリするのが怖いよ。

eschluntz 2025-02-24T20:14:44

APIの料金はAWSみたいなもんで、使った分だけ払う感じだよ。セッション退出時には費用を表示して、セッション中に/costで今のコストも見られるんだ。費用をトラッキングしたり、驚かないように支出制限も設定できるよ。

danw1979 2025-02-24T22:25:01

今のPro会員として本当に欲しいのは、優先アクセスが含まれたサブスクリプションティア（約120ドル/月？）で、APIクレジットもたっぷり入ってるやつ。月の大半、つまり平均して1日4時間、15日くらいコーディングのためにClaudeと一緒に作業できるようにしたい。チャットとAPIの使用をフラットレートでまとめたいんだ。現状のProだとAPIクレジットが無いから不便だよ。実際にはビジネスアカウントが必要なのも問題だし。Claudeは本当に優秀だから、お金を払うから簡単にしてほしい！

antirez 2025-02-24T19:50:34

Claudeのコーディングでのキーポイントは、ウェブインターフェイスを使うとRAGを使わないことだ。トークンを使っちゃうけど、モデルは全てを見ているから、より良い返答ができるんだ。Claude Codeも同じで、ドキュメントレベルのRAGを使っているのかな？それなら、関連するドキュメントがあれば、全てをコンテキストに入れられるはず。コードベースを使いやすいファイルサイズに分割するのも重要だね。あと、Sonnet 3.7のコンテキストサイズは3.5と同じなのかも気になる。Claude Sonnetのおかげで最近の作業のやり方が変わって、もっとできるようになったよ。

bcherny 2025-02-24T20:03:16

そうだね、今のところClaude CodeはRAGを使ってないよ。我々のテストでは、エージェンティック検索がRAGよりも良いパフォーマンスを発揮したから。

marlott 2025-02-24T20:23:01

それは面白いね。エージェンティック検索について詳しく教えてもらえる？

simonw 2025-02-24T23:20:47

Claude CodeのドキュメントでRipgrepをインストールすることを勧めているから、検索を使って改善するためのスニペットを探すことが多いと思ったんだ。これもRAGに含まれると思う。RAGはベクトル検索だけじゃないと思っていて、Ripgrepのように情報検索を生成の拡張に使う手法もあるよ。情報検索は、ベクトル検索が人気になる前からずっと存在しているから。

jcheng 2025-02-25T06:39:17

情報検索にはいろんな形があるのは同意だけど、モデルがツールコールを使って検索を指示してるのはRAGと呼ぶべきかどうかは重要な区別だと思う。この“エージェンティック検索”って名前の方がしっくりくるよ。

simonw 2025-02-25T07:12:51

そうだね、RAGだと思うよ。Retrieval Augmented Generation、つまり生成を補強するためにコンテンツを取得するわけだ。ベクター検索を使ったからってどうだって？実際、最良のベクター検索実装はベクターとFTSのハイブリッドに切り替え始めてるし、BM25なんかがてんでいいアルゴリズムであることが分かってるから。全然あいまいな“Agentic search”って言葉の意味がわからないなんて思う。

もっとコメントを表示（3）

regularfry 2025-02-25T08:45:03

誰が「あなた」かによると思うな。従来のRAGだと、検索のメカニズムが事前に決まっていて、検索は前もって行われてその結果がモデルに渡される。俺は“agentic search”を、モデルが特定のクエリに対して最も効果的に使える検索ツールを持つってことだと思ってる。検索アルゴリズム、クエリ、検索回数が全て自分のコントロール下にあるってこと。

antirez 2025-02-24T21:13:34

時々“self RAG”って呼ばれるやつかな。つまり、エージェントが人間みたいにファイルを見て関連性のあるものを見つけるってこと。

kadushka 2025-02-24T21:54:55

ベクター検索と比べてどうなの？

fsndz 2025-02-24T19:15:05

Anthropicが戻ってきて、最高のコーディングモデルを作る地位を確立してるね。Claude Codeで、Cursorやその競合の市場シェアを奪う狙いが明確だ。これは予想してたことだ。アプリ層にはほとんど障壁がないから、収益を生む可能性のあるアプリは、成長と利益追求のために基盤モデル企業に吸収されるのが自然だ。

keithwhor 2025-02-24T19:25:49

アプリ層が唯一の防壁だって十分言える気がする。最終的にはAnthropicがCursorを買収する可能性が高いんじゃないかな。お客さんがどのブランドや商品にお金を払うかはすごく重要だしね。

fsndz 2025-02-24T19:50:30

もしClaude Codeがより良い体験を提供できれば、ユーザーはCursorからClaude Codeに素早く移るだろうね。Claudeはコードのためにある。

keithwhor 2025-02-24T19:56:31

（1）それは大きな「もし」だよ。Cursorがもう実現してることを提供できる専門チームを作る必要があるから、それは簡単なことじゃない。世界にその市場の直感を持ったエンジニアはほんの数人しかいないし、彼らはおそらく他の人がやってることを同じ給料でコピーするために自分のエネルギーを使う理由がないと思う。（2）本当にユーザー（開発者）が実際にそういう行動をするのかは不明かな。エンジニアリングはちょっとカゴ・カルトみたいだし、Cursorは良かったから人気になったけど、人気になったから人気になった部分もあるし。

neal_ 2025-02-25T03:57:47

Cursorにはモデルすらなくて、ただVSCodeがあるだけ。

swairshah 2025-02-24T20:47:15

Claude Codeをオープンソースにするのはどう？人々はミニファイされたバージョンの逆エンジニアリングを試みたみたいだし。

jiggawatts 2025-02-24T23:28:19

AIモデル使いたいけど、’Anthropicのサービスを使うには有効な電話番号が必要’っていうのがネックなんだ。ここまで電話番号要求するAIサービスは他にないから、今までの競合のセキュリティの失敗もあって、個人情報が守られるとは思えないんだよね。

AdrianEGraphene 2025-02-25T01:02:53

電話番号だし、もう何度も売買されてるじゃん。Edward Snowden並みでない限り、そこまで心配しなくてもいいと思うけど、プライバシー感覚が結果より大事なら、そりゃそれでいいんじゃない？

Ninjinka 2025-02-24T19:40:48

最大のお客さんであるCursorは、あなたたちが直接競合することを聞いてどう思っているの？

LouisSayers 2025-02-24T19:24:31

すごいよ、Claudeはプラグ&プレイなコードを書くのがめっちゃうまい。IDEとの統合の可能性について教えてくれない？Jetbrains IDEへの統合があれば超便利だと思うんだ。

throw83288 2025-02-24T22:16:58

真面目な質問なんだけど、これらのツールを考慮してコンピュータサイエンスの学生に何かアドバイスある？

danw1979 2025-02-24T22:33:24

真面目な答え：コーディングを学べ。これらのツールを使うのに、良いコードがどういうものかを知る必要がある。LLMの出力に頼りきって、評価できないスキルがないと問題が出るよ。今でもコンパイラがあっても低レベルの機械コードを書く人はいるんだ。

galaxyLogic 2025-02-24T22:49:28

自分のコードの関数をハイライトしてAIに新しいモジュールファイルに移してインポートするよう頼むのを自動化したい。毎回煩雑なプロンプトを書かなくても、簡単にできたらいいな。

Aeolun 2025-02-24T23:14:26

大抵の言語サーバーにはこんな機能があるんじゃないの？

light_triad 2025-02-24T19:09:38

これ、ありがとう！すごくワクワクするローンチだね。HNコミュニティがチェックすべきクールなアプリやデモの例がある？

eschluntz 2025-02-24T19:18:25

こんにちは！Claude Codeをサンドボックスプロジェクトで何時間も実行させているデモを作ってるよ：https://x.com/ErikSchluntz/status/1894104265817284770
簡単に言うと、Claudeにコードを速くするよう頼んだら1.8倍速になったけど、2時間かけてそれを回し続けたら500倍速になったよ！

freediver 2025-02-24T19:57:30

KagiのLLMベンチマークがSonnet 3.7用に一般的な目的と考えるモードに更新されたみたいだね。Gemini 2.0 Proには敵わないけど、試した中では二番目に能力が高いLLMだって。思考モードはイマイチで、o1-miniやo3-miniと同じくらいのレベルっぽい（8192トークンの考える予算付きで）。全体的にはとてもいいアップデートで、同じ価格で質も速さも向上してるよ。Kagi Assistantで24時間以内に使えるようになるといいね！

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。