新しいGrok3がついに登場!その全貌を動画でチェックしよう
引用元:https://news.ycombinator.com/item?id=43085957
Karpathyが最初の印象を語ってるね。>”全体的に感じたのは、これは(OpenAIの) o1-proと同じくらいの能力だってこと。”
どうやらその印象は正しいみたい。Grok 3がChatbot Arenaの全てのリーダーボードでトップに立ったらしい。数学の分野ではo1と並んで、一部誤差を考慮するとほぼ同点。クリエイティブライティングでは最新のChatGPT 4oとほぼ同点で、コーディングでは他のモデルを大きく上回る新たなSOTAを達成してるよ。
lmarenaは役に立たないね。モデルの過去のランキングと実際のデータのテストと比べて、全く信用できない。その結果は、まるでFox Newsの世論調査を使ってアメリカ全体の意見を探るようなもんだ。悪意ある人間が票を操るのも簡単だし、それが議論されてたのも知ってるよ。
つまり、A:モデルに触れたユーザーが人間の反応の良さを客観的に評価できない、B:xAiが他の会社よりもリーダーボードをうまく操作した、C:他の会社はそうしていないってこと?その基準だと、全てのテストが役に立たないってことになるね。
いや、一部の会社はやってると私は言いたいけど(少なくともOpenAIはそう)、問題のある会社はシステムを操作する能力と動機があるし、ユーザーのランキングは過去に評価データと統計的にずれてたことがあるんだ。実際のデータの精度評価では特にそうだね。私が言いたいのは、このテスト方法は基本的には意味がないってこと。
OpenAIのサブスクリプションが月200ドルで、”Premium Plus”の価格が40ドルというのは、つまり瞬時に”Elon効果”がマイナス160ドル以上、もしくは240ドル以上になるってことなのか?運用費をサブスクリプションでカバーしてないのに。
違うよ…sigmoid10は、o1(o1-proじゃない)を月20ドルで比較してたんだ。それで、あなたの計算の中ではユーザー当たり月+20ドルってことだよ。実際のところOpenAI Plusのユーザーが利益を生んでないとは考えにくいけど、o1-proを使うにはかなりの計算力が必要だからだと思うよ。
Grok 3の印象は、”o1-proの能力と同じくらいの印象を受けた。”って感じだね。Grok 3 + Thinkingは、OpenAIの最強モデル(o1-pro、月200ドル)にほぼ匹敵する境地にいるかもしれない。
私が返事していた相手はlmarenaのベンチマークリンクに返信していたかもしれないけど、その人に他の誰かへの返信を期待するのはおかしいよね。そして、Karpathyの意見は主観的だし、実際の評価とは言えないってことを彼自身も認めてたよ。
numpad0は、sigmoid10が比較が適切だと表現した後にo1-proとの比較を続けていると理解したよ。
確かにnumpad0はその点についても言ってたけど、僕が指摘してるのはその選択肢が非論理的なこと。lmarenaの結果はo1との比較しかサポートしてないし、彼らはその数値の提案を使って変な算数を始めてる。さっきも言ったけど、彼らは別の人に返信すべきだったかも?lmarenaのベンチマークに返信するってことは、その数値の正当化に使ってたってこと。Premium+がGrok 3に無制限アクセスを持ってるという証拠もない。もし無制限でないなら、ChatGPT Proとは比べられない。結局、ChatGPT Plusでも99%の価値を得られてる。numpad0はChatGPT Plusを無視してるから、ストローマンアーギュメントを作ってるだけなんだ。
Premium+が月40ドルってどこで見たの?公式は”月22ドルからまたは年間229ドル”って言ってるよ。
今日価格が上がったばかり。君が貼ったリンクはその情報が青いボックスで表示されてるよ。
この分野は動きが早いから、推論コストについて自信を持って言うのは難しいかも。もしかしたら彼は過小評価してるのかもしれないし、OpenAIが過大評価してるのかも。一方が他方より最適化されてるかもしれないけど、新しいモデルが出るスピードは早くて、実際のコストが公に知られるまでの時間よりも短い。
モデルが人間より賢くなったら、その知能をどうやって評価する?彼らが回答している質問を見た感じ、ほぼその領域に達してるように思う。
素朴な質問だけど、DeepSeekはオープンソースでo1-proと同等なはずなのに、計算能力がある人ならo1-proと競争できるのでは?
フルサイズのDeepSeek-R1はo1と同等で、o1-proは”o1の強化版”だよ。
年々、ネーミングがややこしくなってる気がする。o1-pro-maxみたいなのが待ち望まれるよ。
最近OpenAIを解雇されたばかり。モデルの名前を考える仕事をしてたんだ。
それはo1と同等ではないし、o1-proとも比べられないよ。
Deepseekはo1には及ばないね。 DeepSeekモデルはオープンソースじゃなくて、自由に配布できるけどソースはないんだ。 DeepSeek R1をローカルで動かすにはかなりの計算パワーが要るよね? もちろん、でも完全に手が出せないほどではないよ。6000ドルくらいのPCでフルモデルを動かしてる人もいるし、特に個人インスタンスの場合はね。並行ユーザーを扱うためにはもっと高価な設定が必要だけど、これは実行するための話で、訓練するわけじゃない。 私は2000ドルの中古ワークステーションを持ってて、768GBのRAMで、Q4モデルを使ってるんだけど、1.5トークン/秒で大きな文脈が扱える。家で動かせるのはすごいよ。 電気代が0.45ドル/kWhで、1kW消費だと、百万トークンあたり約80ドルになるよ。 彼らは1.5トークン/秒って言ってたよ。百万トークンは667k秒、185時間だね。1kW * 185時間 * 0.45ドル/kWh = 百万トークンあたり80ドル。1kWを仮定しているけど、これが高いか低いかは分からないね。計算にかかるコストは電気代だよ。 彼らが言うにはクソみたいなGPUらしいから、全体のコンピュータは200から250ワットくらいしか使ってないんだ。 もっといいアプローチは、MOEをCPUで、MLAをGPUで動かしてモデルを分けることだよ。ktransformersプロジェクトを見てみて:>『https://github.com/kvcache-ai/ktransformers/blob/main/doc/en…』これでMOEのスパース性とMLAの効率的なKVキャッシュを活かせる。 AMXの最適化には1つのCPUで約1万円かかるから、システム全体だと約10万円はかかることを忘れたかもね。 Granite Rapids-W(ワークステーション)は、CPUの値段が半分以下になるかもしれないよ。Xeon W-3500/2500は、1年前に609ドルから5889ドルで発売されたし、AMXも搭載されてる。 最新のワークステーションは、サーバーと同じ性能でも簡単に20万から40万はするよ。少なくとも、Dellのワークステーションを最後に見た時はね。 Supermicro X13SWA-TFマザーボード(Xeon W-3500搭載)=約1万円 ワークステーションデザインは、やっぱり高くなると思うよ。もう1つCPUを追加して、8つのメモリーチャンネルや強力な電源、対応するマザーボードも要るからね。メモリー8万円、CPU10万円、他で合計20万円を下回ることはないって。 デュアルCPUデザインじゃなくてもいいんじゃない?8チャンネルDDR5 4800で、約300GBの帯域幅が得られるし。Granite Rapids-Wは性能が50%ほど向上するかもね。元のメッセージがAMXのCPUとGPUを混ぜた話だったんだよね。それがうまくいけば、モデルの大部分は遅いメモリーに置いて、アクティブな部分はGPUの速いメモリーに置く感じ。コスト効率も良いし速いよ。 >8チャンネルのDDR5 4800で、約300GBの帯域幅が得られる。 実際のところ、リンクを読んで!中程度のSapphire Rapids CPUと4090の組み合わせだよ。デュアルCPUは速いけど、コストが倍増するから、パフォーマンスの向上は約30%だよ。 はい、デュアルソケットSkylakeだよ。何が奇妙なの?コスト合計が10万円以上で、8トークン/sのシステムと、同じトークン/sで6万円のデュアルZen4システムをどう考えるか、価格を出してみてよ。 すみません、Skylake-SPのことを言ってたんですね。具体的に何が言いたいのかわからないけど、同じようなサイズのCPUと消費者GPUを使ったデュアルソケットSapphire Rapidsの例もありますよ。少しコストが高めだけど、数千円でスピードを倍増できることが可能です。大きな(300GB以上)モデル用に必要なH100なんか集めるよりも、ずっと安いアプローチだからね。 Grokがベンチマークのトップに立ったみたいだぞ!競争が激しいLLM市場は消費者にとっていいニュースだし、一つの企業が全ての価値を吸い取らなくて済むのは嬉しいよね。 1時間使ってみて驚いたわ。毎日OpenAIやClaude製品を使ってる俺から見てもすごい。最近書いたデータベースコードを笑いものにするほどだし、これを所有してるやつに怒りを感じるわ。サービスに月40ドルも請求されたぞ! もしかしてバカな質問かもしれないけど、今どこで使えるの?https://lmarena.ai/の’ダイレクトチャット’だけ?それとも他に早期アクセスがあるの? 競争が巨大なバブルの代償で起こるのは良いニュースじゃないよ。大手が投資家から何十億も吸い込んで、ビジネスモデルもない状態は持続できない。いつか必ずバブルは弾けて、また世界的な不況が起こる。 ChatGPTは実際に何十億も収益上げてるし、Cursorは史上最も成長している企業なんだよ。このLLMにビジネスモデルがないっていう意見はもう終わりにしよう。 >ChatGPTは実際に何十億も収益上げてる。 確かにそうだけど、かなりの収益があるのはまだ良い兆しだよ。商品に対して価値を支払う人がいない問題よりは、”高コストな計算問題”の方がまだマシだから。 OpenAIは投資家の期待が支えてるだけじゃなくて、その収益の多くは下流のAPI利用者が投資家の期待に支えられてるんだ。OpenAIの収益の一部は実際にはもっとVCマネーなんだよ。 俺にとってバブルの最大の指標は、資金を失ってるスタートアップが他の資金を失ってるスタートアップに売り込むことだね。表面的には”ラインが上がる”けど、実際には閉鎖的な水域での循環だけで、やがては蒸発しちゃう。 Uberはそうは思ってないだろうな。 ”金持ちになりたい”ってのが最優先なら、他人のお金を燃やすよりは“高コスト計算”の問題を抱えてる方がマシだよね。 YouTubeの例は希望的観測が強いけど、長い間赤字だった。だけど、徐々にネット動画のコストを下げて収益化した。この戦略が必ず成功するとは限らないけど、失敗もしないこともあるよ。 YouTubeのネットワーク効果は最初から評価されてたけど、今のLLMには同じようなトリリオンドルの独占を見込めるアイデアがないと思う。ドットコムバブルの再来のように感じる。 OpenAIは月額200ドルのProプランで赤字出してるみたい。 このビジネスモデルは、AIが革命的なトリリオンドル技術になるときのための先行投資のようなもんだってこと。だからこそ投資家が資金を注いでる。 これ、あくまでビジネスモデルじゃなくて、前線にいることで実現する希望に過ぎないと思う。 MetaがVRやAR、メタバースに数百億投資したけど、革命的な変化は起こらなかったね。 もしそのシナリオが現実となったら、それ以外のビジネスモデルは成り立たないよ。みんな食われちゃう。 この前提は、全ての知的・肉体労働を置き換えるってこと。存在と同時に商品化される可能性もあるけど、投資の価値はかけられるだけか、全くないかのどちらか。 ”全ての知的・肉体労働を置き換える”ってのは価値が高そうだけど、90%の失業率になると崩壊するリスクもある。AIが政治を操作する社会になったら、選挙の意味はどうなるんだろう? 機械が本当の“価値”を生み出す労働を全てするようになったら、人間は実質的に機械の奴隷になっちゃうのは避けられないよね。 Duneのように、機械の奴隷になるんじゃなくて、機械を持ってる人の奴隷になるってことだね。 >“人間が自由になることを期待して思考を機械に委ねた結果、機械を持っている他の人間に奴隷にされただけだった。” – Frank Herbert, Dune もうすでにオープンソースのバージョンが十分にいい感じで、あまり価格の高い独占企業が残らないのは明らかだと思う。 OpenAIが300B以上の評価を受けていることに投資家は混乱してるみたい。彼らはエコシステムやモデルの統合である程度の固定化を狙ってるのかな。 IPの権利保持者は本気を出していないから、君の言ってる結果ははっきりしないと思う。過去のテクノロジー時代と同じように、最終的にはロイヤルティが以前と同じ人に支払われるようになりそう。 大多数の人はオープンソースなんて気にしないってこと。 もし俺がオープンソースのソフトでできることに200ドル払うのに、他の誰かが100ドルでサービスを提供するなら、何でその人のところに行かないんだ?それに50ドルの人も現れるだろ。 200ドルのサービスを10ドルで提供できるなら、クローズドソースも15ドルに値下げしてくるよ。オープンソースが競争を生むけど、それだからって独占がなくなるわけじゃない。 ベンチマークなんて気にしない。こいつら、妄想で無駄な時間を取られることに変わりはないんだから。 あんた、LLMを使いこなせてないだけじゃない?ちゃんと使えば時間の節約になるはずだよ。 LLMの生産性についてのNo True Scotsmanの誤謬か? 多くの人は正しくLLMを使えば生産性向上を実感してるよ。これを使いこなせないからってツールが役に立たないわけじゃない。インターネット検索の初期みたいなもんだ。 幻覚はダムの指みたいなもんだ。モデルがちゃんとした出力か分からない時に「知らない」って言えれば、仕事は奪われるだろうね。 人間も幻覚を見ることがあるよ。ベンチマークは大事だ。 消費電力は少ないんだから、その点では良いんじゃない? 最新のLLamaより人間の方がかなりエネルギー使うと思うよ。AIが環境を破壊してるとか言われるのは、トータル消費の話。推論自体は安くて環境に優しい。 そうだけど、質が大事じゃん。 業者にとってはあんまり良いニュースじゃないかもね。今のLLMは商品化されてるから、どうやって利益を上げるか分からない。政府契約もずっと続かないし。 最後にはAIのラッパーが一番お金になるとは思わなかったね。 こう言えるね、最新の技術に匹敵する能力を持つLLMが20倍のコストで作れる例を見た後、今や同じことが20倍の予算でもできるって証明があるってことだよ!もっとコメントを表示(1)
E-ATXケース=約3万円
電源=約3万円
Xeon W-3500(8チャンネルメモリー)=約1339ドル-5889ドル
メモリー=約3千円-5千円(64GB DDR5 RDIMM)
メモリーが一番のコストになるけど、他は約5万円で済むから、”10万ドル”よりずっと安いよ!
理論上はそうだけど、Sapphire Rapidsは、24〜28コア必要だよ。IntelのCPU設計は、メモリ帯域を満たせないことが多いから、改善されたかどうかは疑問だね。200GB/sは大して多くないよ。私のデュアルソケットSkylakeシステムは約140GB/sだし、大きなLLMには遅すぎる。
デュアルCPUデザインが必要な理由?大きなモデルの推論にはメモリ帯域幅が重要な要素だから、デュアルソケットだと帯域幅が倍増するからだよ。
デュアルソケットSkylakeのことを言ったの?それならCascade Lakeのことを指してるのかな?もっとコメントを表示(2)
”収益よりも多くの損失を出してるんだ。”収益は利益じゃないから。もっとコメントを表示(3)