新しいGrok3がついに登場！その全貌を動画でチェックしよう

新しいGrok3がついに登場！その全貌を動画でチェックしよう

引用元：https://news.ycombinator.com/item?id=43085957

CSMastermind 2025-02-18T06:03:07

Karpathyが最初の印象を語ってるね。＞”全体的に感じたのは、これは(OpenAIの) o1-proと同じくらいの能力だってこと。”

sigmoid10 2025-02-18T12:29:37

どうやらその印象は正しいみたい。Grok 3がChatbot Arenaの全てのリーダーボードでトップに立ったらしい。数学の分野ではo1と並んで、一部誤差を考慮するとほぼ同点。クリエイティブライティングでは最新のChatGPT 4oとほぼ同点で、コーディングでは他のモデルを大きく上回る新たなSOTAを達成してるよ。

jessfyi 2025-02-18T15:27:51

lmarenaは役に立たないね。モデルの過去のランキングと実際のデータのテストと比べて、全く信用できない。その結果は、まるでFox Newsの世論調査を使ってアメリカ全体の意見を探るようなもんだ。悪意ある人間が票を操るのも簡単だし、それが議論されてたのも知ってるよ。

sigmoid10 2025-02-21T11:11:44

つまり、A：モデルに触れたユーザーが人間の反応の良さを客観的に評価できない、B：xAiが他の会社よりもリーダーボードをうまく操作した、C：他の会社はそうしていないってこと？その基準だと、全てのテストが役に立たないってことになるね。

jessfyi 2025-02-22T05:31:48

いや、一部の会社はやってると私は言いたいけど（少なくともOpenAIはそう）、問題のある会社はシステムを操作する能力と動機があるし、ユーザーのランキングは過去に評価データと統計的にずれてたことがあるんだ。実際のデータの精度評価では特にそうだね。私が言いたいのは、このテスト方法は基本的には意味がないってこと。

numpad0 2025-02-18T13:20:56

OpenAIのサブスクリプションが月200ドルで、”Premium Plus”の価格が40ドルというのは、つまり瞬時に”Elon効果”がマイナス160ドル以上、もしくは240ドル以上になるってことなのか？運用費をサブスクリプションでカバーしてないのに。

coder543 2025-02-18T14:38:19

違うよ…sigmoid10は、o1（o1-proじゃない）を月20ドルで比較してたんだ。それで、あなたの計算の中ではユーザー当たり月+20ドルってことだよ。実際のところOpenAI Plusのユーザーが利益を生んでないとは考えにくいけど、o1-proを使うにはかなりの計算力が必要だからだと思うよ。

layer8 2025-02-18T15:24:45

Grok 3の印象は、”o1-proの能力と同じくらいの印象を受けた。”って感じだね。Grok 3 + Thinkingは、OpenAIの最強モデル（o1-pro、月200ドル）にほぼ匹敵する境地にいるかもしれない。

coder543 2025-02-18T15:28:37

私が返事していた相手はlmarenaのベンチマークリンクに返信していたかもしれないけど、その人に他の誰かへの返信を期待するのはおかしいよね。そして、Karpathyの意見は主観的だし、実際の評価とは言えないってことを彼自身も認めてたよ。

layer8 2025-02-18T15:38:43

numpad0は、sigmoid10が比較が適切だと表現した後にo1-proとの比較を続けていると理解したよ。

coder543 2025-02-18T15:46:54

確かにnumpad0はその点についても言ってたけど、僕が指摘してるのはその選択肢が非論理的なこと。lmarenaの結果はo1との比較しかサポートしてないし、彼らはその数値の提案を使って変な算数を始めてる。さっきも言ったけど、彼らは別の人に返信すべきだったかも？lmarenaのベンチマークに返信するってことは、その数値の正当化に使ってたってこと。Premium+がGrok 3に無制限アクセスを持ってるという証拠もない。もし無制限でないなら、ChatGPT Proとは比べられない。結局、ChatGPT Plusでも99％の価値を得られてる。numpad0はChatGPT Plusを無視してるから、ストローマンアーギュメントを作ってるだけなんだ。

srid 2025-02-18T14:44:11

Premium+が月４０ドルってどこで見たの？公式は”月２２ドルからまたは年間２２９ドル”って言ってるよ。

nickthegreek 2025-02-18T14:50:11

今日価格が上がったばかり。君が貼ったリンクはその情報が青いボックスで表示されてるよ。

ben_w 2025-02-18T14:11:12

この分野は動きが早いから、推論コストについて自信を持って言うのは難しいかも。もしかしたら彼は過小評価してるのかもしれないし、OpenAIが過大評価してるのかも。一方が他方より最適化されてるかもしれないけど、新しいモデルが出るスピードは早くて、実際のコストが公に知られるまでの時間よりも短い。

jimbokun 2025-02-18T18:39:32

モデルが人間より賢くなったら、その知能をどうやって評価する？彼らが回答している質問を見た感じ、ほぼその領域に達してるように思う。

yodsanklai 2025-02-18T13:05:50

素朴な質問だけど、DeepSeekはオープンソースでo1-proと同等なはずなのに、計算能力がある人ならo1-proと競争できるのでは？

dtquad 2025-02-18T13:44:13

フルサイズのDeepSeek-R1はo1と同等で、o1-proは”o1の強化版”だよ。

guax 2025-02-18T14:12:25

年々、ネーミングがややこしくなってる気がする。o1-pro-maxみたいなのが待ち望まれるよ。

polski-g 2025-02-18T18:00:13

最近OpenAIを解雇されたばかり。モデルの名前を考える仕事をしてたんだ。

ritz_labringue 2025-02-18T13:48:00

それはo1と同等ではないし、o1-proとも比べられないよ。

もっとコメントを表示（1）

golol 2025-02-18T13:18:06

Deepseekはo1には及ばないね。

kragen 2025-02-18T15:53:33

DeepSeekモデルはオープンソースじゃなくて、自由に配布できるけどソースはないんだ。

menaerus 2025-02-18T13:30:15

DeepSeek R1をローカルで動かすにはかなりの計算パワーが要るよね？

roblabla 2025-02-18T13:36:21

もちろん、でも完全に手が出せないほどではないよ。6000ドルくらいのPCでフルモデルを動かしてる人もいるし、特に個人インスタンスの場合はね。並行ユーザーを扱うためにはもっと高価な設定が必要だけど、これは実行するための話で、訓練するわけじゃない。

mechagodzilla 2025-02-18T21:20:27

私は2000ドルの中古ワークステーションを持ってて、768GBのRAMで、Q4モデルを使ってるんだけど、1.5トークン/秒で大きな文脈が扱える。家で動かせるのはすごいよ。

nomel 2025-02-19T19:25:46

電気代が0.45ドル/kWhで、1kW消費だと、百万トークンあたり約80ドルになるよ。

nomel 2025-02-20T18:08:44

彼らは1.5トークン/秒って言ってたよ。百万トークンは667k秒、185時間だね。1kW * 185時間 * 0.45ドル/kWh = 百万トークンあたり80ドル。1kWを仮定しているけど、これが高いか低いかは分からないね。計算にかかるコストは電気代だよ。

CyberDildonics 2025-02-20T18:36:52

彼らが言うにはクソみたいなGPUらしいから、全体のコンピュータは200から250ワットくらいしか使ってないんだ。

fspeech 2025-02-18T19:57:53

もっといいアプローチは、MOEをCPUで、MLAをGPUで動かしてモデルを分けることだよ。ktransformersプロジェクトを見てみて：＞『https://github.com/kvcache-ai/ktransformers/blob/main/doc/en…』これでMOEのスパース性とMLAの効率的なKVキャッシュを活かせる。

menaerus 2025-02-19T11:01:43

AMXの最適化には１つのCPUで約１万円かかるから、システム全体だと約１０万円はかかることを忘れたかもね。

phonon 2025-02-19T11:46:18

Granite Rapids-W（ワークステーション）は、CPUの値段が半分以下になるかもしれないよ。Xeon W-3500/2500は、１年前に６０９ドルから５８８９ドルで発売されたし、AMXも搭載されてる。

menaerus 2025-02-19T12:11:44

最新のワークステーションは、サーバーと同じ性能でも簡単に２０万から４０万はするよ。少なくとも、Dellのワークステーションを最後に見た時はね。

phonon 2025-02-20T00:38:23

Supermicro X13SWA-TFマザーボード（Xeon W-3500搭載）＝約１万円
E-ATXケース＝約３万円
電源＝約３万円
Xeon W-3500（８チャンネルメモリー）＝約１３３９ドル－５８８９ドル
メモリー＝約３千円－５千円（64GB DDR5 RDIMM）
メモリーが一番のコストになるけど、他は約５万円で済むから、”１０万ドル”よりずっと安いよ！

menaerus 2025-02-20T07:46:51

ワークステーションデザインは、やっぱり高くなると思うよ。もう１つCPUを追加して、８つのメモリーチャンネルや強力な電源、対応するマザーボードも要るからね。メモリー８万円、CPU１０万円、他で合計２０万円を下回ることはないって。

phonon 2025-02-20T12:56:56

デュアルCPUデザインじゃなくてもいいんじゃない？８チャンネルDDR5 4800で、約３００GBの帯域幅が得られるし。Granite Rapids-Wは性能が５０％ほど向上するかもね。元のメッセージがAMXのCPUとGPUを混ぜた話だったんだよね。それがうまくいけば、モデルの大部分は遅いメモリーに置いて、アクティブな部分はGPUの速いメモリーに置く感じ。コスト効率も良いし速いよ。

menaerus 2025-02-20T13:32:02

＞８チャンネルのDDR5 4800で、約３００GBの帯域幅が得られる。
理論上はそうだけど、Sapphire Rapidsは、２４〜２８コア必要だよ。IntelのCPU設計は、メモリ帯域を満たせないことが多いから、改善されたかどうかは疑問だね。２００GB/sは大して多くないよ。私のデュアルソケットSkylakeシステムは約１４０GB/sだし、大きなLLMには遅すぎる。
デュアルCPUデザインが必要な理由？大きなモデルの推論にはメモリ帯域幅が重要な要素だから、デュアルソケットだと帯域幅が倍増するからだよ。

phonon 2025-02-20T15:37:41

実際のところ、リンクを読んで！中程度のSapphire Rapids CPUと4090の組み合わせだよ。デュアルCPUは速いけど、コストが倍増するから、パフォーマンスの向上は約３０％だよ。
デュアルソケットSkylakeのことを言ったの？それならCascade Lakeのことを指してるのかな？

menaerus 2025-02-20T16:10:55

はい、デュアルソケットSkylakeだよ。何が奇妙なの？コスト合計が１０万円以上で、８トークン/sのシステムと、同じトークン/sで６万円のデュアルZen4システムをどう考えるか、価格を出してみてよ。

phonon 2025-02-21T00:38:10

すみません、Skylake-SPのことを言ってたんですね。具体的に何が言いたいのかわからないけど、同じようなサイズのCPUと消費者GPUを使ったデュアルソケットSapphire Rapidsの例もありますよ。少しコストが高めだけど、数千円でスピードを倍増できることが可能です。大きな（300GB以上）モデル用に必要なH100なんか集めるよりも、ずっと安いアプローチだからね。

rendang 2025-02-18T04:59:39

Grokがベンチマークのトップに立ったみたいだぞ！競争が激しいLLM市場は消費者にとっていいニュースだし、一つの企業が全ての価値を吸い取らなくて済むのは嬉しいよね。

もっとコメントを表示（2）

qingcharles 2025-02-18T06:56:25

１時間使ってみて驚いたわ。毎日OpenAIやClaude製品を使ってる俺から見てもすごい。最近書いたデータベースコードを笑いものにするほどだし、これを所有してるやつに怒りを感じるわ。サービスに月４０ドルも請求されたぞ！

RobinL 2025-02-18T08:22:28

もしかしてバカな質問かもしれないけど、今どこで使えるの？https://lmarena.ai/の’ダイレクトチャット’だけ？それとも他に早期アクセスがあるの？

crocowhile 2025-02-18T09:06:45

競争が巨大なバブルの代償で起こるのは良いニュースじゃないよ。大手が投資家から何十億も吸い込んで、ビジネスモデルもない状態は持続できない。いつか必ずバブルは弾けて、また世界的な不況が起こる。

bobxmax 2025-02-18T13:34:31

ChatGPTは実際に何十億も収益上げてるし、Cursorは史上最も成長している企業なんだよ。このLLMにビジネスモデルがないっていう意見はもう終わりにしよう。

latexr 2025-02-18T13:56:49

＞ChatGPTは実際に何十億も収益上げてる。
”収益よりも多くの損失を出してるんだ。”収益は利益じゃないから。

spacebanana7 2025-02-18T14:17:31

確かにそうだけど、かなりの収益があるのはまだ良い兆しだよ。商品に対して価値を支払う人がいない問題よりは、”高コストな計算問題”の方がまだマシだから。

jsheard 2025-02-18T14:43:55

OpenAIは投資家の期待が支えてるだけじゃなくて、その収益の多くは下流のAPI利用者が投資家の期待に支えられてるんだ。OpenAIの収益の一部は実際にはもっとVCマネーなんだよ。

mullingitover 2025-02-18T18:27:56

俺にとってバブルの最大の指標は、資金を失ってるスタートアップが他の資金を失ってるスタートアップに売り込むことだね。表面的には”ラインが上がる”けど、実際には閉鎖的な水域での循環だけで、やがては蒸発しちゃう。

holoduke 2025-02-18T20:29:22

Uberはそうは思ってないだろうな。

latexr 2025-02-18T14:22:07

”金持ちになりたい”ってのが最優先なら、他人のお金を燃やすよりは“高コスト計算”の問題を抱えてる方がマシだよね。

spacebanana7 2025-02-18T14:38:25

YouTubeの例は希望的観測が強いけど、長い間赤字だった。だけど、徐々にネット動画のコストを下げて収益化した。この戦略が必ず成功するとは限らないけど、失敗もしないこともあるよ。

athrowaway3z 2025-02-18T15:53:07

YouTubeのネットワーク効果は最初から評価されてたけど、今のLLMには同じようなトリリオンドルの独占を見込めるアイデアがないと思う。ドットコムバブルの再来のように感じる。

LorenDB 2025-02-18T13:54:41

OpenAIは月額200ドルのProプランで赤字出してるみたい。

Ray20 2025-02-18T13:03:46

このビジネスモデルは、AIが革命的なトリリオンドル技術になるときのための先行投資のようなもんだってこと。だからこそ投資家が資金を注いでる。

moduspol 2025-02-18T13:31:13

これ、あくまでビジネスモデルじゃなくて、前線にいることで実現する希望に過ぎないと思う。

jsheard 2025-02-18T14:35:44

MetaがVRやAR、メタバースに数百億投資したけど、革命的な変化は起こらなかったね。

idiotsecant 2025-02-18T13:50:32

もしそのシナリオが現実となったら、それ以外のビジネスモデルは成り立たないよ。みんな食われちゃう。

qgin 2025-02-18T11:18:38

この前提は、全ての知的・肉体労働を置き換えるってこと。存在と同時に商品化される可能性もあるけど、投資の価値はかけられるだけか、全くないかのどちらか。

pjc50 2025-02-18T12:58:16

”全ての知的・肉体労働を置き換える”ってのは価値が高そうだけど、90%の失業率になると崩壊するリスクもある。AIが政治を操作する社会になったら、選挙の意味はどうなるんだろう？

conartist6 2025-02-18T13:06:06

機械が本当の“価値”を生み出す労働を全てするようになったら、人間は実質的に機械の奴隷になっちゃうのは避けられないよね。

もっとコメントを表示（3）

thrance 2025-02-18T13:47:11

Duneのように、機械の奴隷になるんじゃなくて、機械を持ってる人の奴隷になるってことだね。

mwigdahl 2025-02-18T14:27:58

＞“人間が自由になることを期待して思考を機械に委ねた結果、機械を持っている他の人間に奴隷にされただけだった。” – Frank Herbert, Dune

aprilthird2021 2025-02-18T05:28:58

もうすでにオープンソースのバージョンが十分にいい感じで、あまり価格の高い独占企業が残らないのは明らかだと思う。

rendang 2025-02-18T05:38:53

OpenAIが300B以上の評価を受けていることに投資家は混乱してるみたい。彼らはエコシステムやモデルの統合である程度の固定化を狙ってるのかな。

bigbones 2025-02-18T07:43:18

IPの権利保持者は本気を出していないから、君の言ってる結果ははっきりしないと思う。過去のテクノロジー時代と同じように、最終的にはロイヤルティが以前と同じ人に支払われるようになりそう。

bobxmax 2025-02-18T13:49:52

大多数の人はオープンソースなんて気にしないってこと。

jonlucc 2025-02-18T14:36:06

もし俺がオープンソースのソフトでできることに200ドル払うのに、他の誰かが100ドルでサービスを提供するなら、何でその人のところに行かないんだ？それに50ドルの人も現れるだろ。

bobxmax 2025-02-18T15:11:42

200ドルのサービスを10ドルで提供できるなら、クローズドソースも15ドルに値下げしてくるよ。オープンソースが競争を生むけど、それだからって独占がなくなるわけじゃない。

croes 2025-02-18T08:26:30

ベンチマークなんて気にしない。こいつら、妄想で無駄な時間を取られることに変わりはないんだから。

ban-evader 2025-02-18T13:15:44

あんた、LLMを使いこなせてないだけじゃない？ちゃんと使えば時間の節約になるはずだよ。

Cheer2171 2025-02-18T13:59:53

LLMの生産性についてのNo True Scotsmanの誤謬か？

gdhkgdhkvff 2025-02-18T14:29:05

多くの人は正しくLLMを使えば生産性向上を実感してるよ。これを使いこなせないからってツールが役に立たないわけじゃない。インターネット検索の初期みたいなもんだ。

smeeger 2025-02-18T14:49:23

幻覚はダムの指みたいなもんだ。モデルがちゃんとした出力か分からない時に「知らない」って言えれば、仕事は奪われるだろうね。

cheema33 2025-02-18T09:22:20

人間も幻覚を見ることがあるよ。ベンチマークは大事だ。

croes 2025-02-18T11:22:04

消費電力は少ないんだから、その点では良いんじゃない？

golergka 2025-02-18T12:58:17

最新のLLamaより人間の方がかなりエネルギー使うと思うよ。AIが環境を破壊してるとか言われるのは、トータル消費の話。推論自体は安くて環境に優しい。

croes 2025-02-18T13:01:56

そうだけど、質が大事じゃん。

SecretDreams 2025-02-18T13:10:28

業者にとってはあんまり良いニュースじゃないかもね。今のLLMは商品化されてるから、どうやって利益を上げるか分からない。政府契約もずっと続かないし。

k__ 2025-02-18T13:17:01

最後にはAIのラッパーが一番お金になるとは思わなかったね。

msuvakov 2025-02-18T09:54:26

こう言えるね、最新の技術に匹敵する能力を持つLLMが20倍のコストで作れる例を見た後、今や同じことが20倍の予算でもできるって証明があるってことだよ！

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。