1.5BモデルでRLを活用しO1-Previewを超える!DeepScaleRの驚異的な成果とは?
引用元:https://news.ycombinator.com/item?id=43017599
これは特定のベンチマークにチューニングされてるだけで、O1-Previewとは別のタスクでは全然ダメ。これらの問題を解決したいって思ってるなら見る価値はあるけど、すごいことは確かだね。
O1-previewを超えたし、多くの7Bモデルにも勝ったって。これはテストセットでの結果だし、トレーニングセットには入ってないよ。もしモデルを完全に一般化したいなら、コーディングデータセットでトレーニングしてもいいよ。
すでに良い成果だけど、小さいモデルを一般的にトレーニングするのが専門のファインチューニングと同じ効果があるとは思えない。限られた情報量の中で、どれだけの背景データを扱えるかが難しいよね。訓練サイズによってどれだけ違いが出るのかも難しいし、最適化が進むにはもう少しコンピュートが必要かも。しかし、これをオープンにしてくれてありがとう!
量子化すると小さいモデルには大きな影響があって、AIMEで最大10%落ちることもあるよ。私たちのモデルはbfloat16で最高の成果を出してる。私たちのリポジトリもぜひチェックしてね:
https://github.com/agentica-project/deepscaler
素晴らしい発見だね。これはAIの次のステップで、MoM(Mixture of Models)が開ける可能性もある。小さなファインチューニングされたモデルがタスクの各部分を担当するっていうね。
以前の私の作品もチェックしてみて:
https://stylus-diffusion.github.io/
このプロジェクトは多くのモデルやLoRAの選択・ルーティングをスケールアップするよ。
いいね、ありがとう!見てみるよ。
o1は数学の解法以上のものだし、小さいモデルでそれだけのものを訓練するのは無理だと思う。ただ、専門的なモデルが世界の複雑さを扱うにはいい方針かも。もう一段上の専門家の混合みたいな感じかな。それを統合するのはまた別の問題だね。全てを支配する一般的なモデルが必要かも。
特殊なタスクに対して専門モデルを一般的なハードウェアで動かす重要性について考えたことある?(たとえば、CPUコアが数個あれば動くとか)
小さいモデルはただのツールに過ぎない。たくさんあっても道具セットにしかならない。AGIを彼らだけで進化させることはないけど、構造(脳)の中で組み合わせると何かに近づくかも。大きなスマート計算機みたいな感じ。‘キャラクター’を作るにはもっと必要だし、たとえばターミネーターみたいなのを作るのは容易ではない。
俺は反対だ。トレーニングコストを劇的に18倍下げたことを示したんだから、それだけでも注目に値する。O1のどのベンチマークでも勝つのは簡単じゃないし。
基本的な足し算問題を試したけど、よく小数点を間違えたり、無駄に推論トークンを使ったりしていて、DeepSeek 1.5Bよりも信頼性は微妙だった。自分で書いたフィボナッチアルゴリズムも全然ダメだったし、SchemeではなくPythonみたいな文法で話し始めた。
そのフィボナッチアルゴリズムについて言うと、このモデルは数学問題データセットのみで訓練されたみたいだから、プログラミングにはあまり強くないのは納得だな。
元のモデルはプログラミングのミスだけでなく、倍増の公式も覚えてなかった。解決されたのは嬉しいけど、もっと一般的な性能向上も期待してたんだ。
このモデルは全然コーディングできない。高校レベルの数学や簡単な物理の宿題は驚くほど上手くやるけど、それ以外は俺のテストプロンプトでは毎回失敗する。純粋な専門特化モデルだね。
数学タスクでもあまり印象的じゃない気がする。ChatGPTが出たとき、ChatGPTレベルのパフォーマンスを示すために微調整されたLLMがあふれたけど、どれも誤解を招いた。これらのLLMは狭いベンチマーク用に微調整されていたから、一般的なLLMと比較するのはリンゴとオレンジを比べるようなもんだ。
じゃあ、ベンチマークは何を意味するの?
自動ベンチマークはまだ有用だよ。でもLLMがそれにオーバーフィットするように訓練されると、あんまり意味を持たなくなる。人間の評価が金の基準だけど、それにも問題がある。
LLMをどうやって’チート’しないように訓練するかが問題だよ。テストの問題が漏れたらどうやって準備するか?テスト問題を暗記するのは問題だけど、出そうな問題を練習するのは少しマシかな。
データセットをチェックして、ベンチマークの漏洩を取り除くのが唯一の方法だと思う。でも、そうすると訓練する側が正直じゃないと仮定することになっちゃうし、漏洩がチェックを通過する可能性もある。ダイナミックなベンチマークを作るのも面白いんじゃないかな。
コミュニティのみんなは、この手のベンチマークには懐疑的なんだよね。
これは見てみる価値があるよ!素晴らしい発見だね。
URLをhttps://github.com/agentica-project/deepscalerから、リポジトリも指してる背景を紹介する記事に変えたよ。
好奇心から教えてほしいんだけど、休暇とかどうしてるの?休むことってあるの?HNを何年も使ってるけど、休暇を取るのを見たことがないよ。
ワークショップによく行くから、興味があることをやってるし、休憩中や夜にHNをちょっとやってるよ。
HNの裏にはチームがいるのはわかるけど、君の意志の力はHNを素晴らしい議論の場にしてるよ!感謝してる。
鍵になるのは、特定のタスクに対して1Bモデルをトレーニングするシンプルで信頼できる formula だね。これまではなかったんだ。エッジデバイスがもっと賢くなるよ。
Appleがこのことに注目して、デバイス上のモデルを改善してくれるといいな。
結局、$4500もかかるから、家でトレーニングするのは難しそうだけど、将来的にその数字も変わるかもね!ワクワクする。
結局、小さな強化モデルが勝つはず。みんなの会社もチームも、特化した人が多いんだから。でも、今のベンチマークに過剰に重点を置くのは問題だね。本当に何かを測るならユーザーのKPIと比べるべき。
今のやり方は人間の限界の産物だと思うんだ。永遠に生きる共有MLモデルにはそんな制約はないし、異分野の知識がとても役立つことも多いよね。ただ珍しいけど。
人間が専門化と協力で地位を得たなら、無限のマスターマインドと協力を合わせたらどうなるんだろうね。
最悪の場合、超知能で優しいAIが経済問題を解決して、数千兆人の幸せで豊かな人間をペットにするような社会になっちゃうのかな。
競争する超知能の政党がクラウド投資家を説得するために宣伝を作る様子が待ちきれないよ。
帯域幅がまだヘボいから、人間並みに頭脳の集まりはグループ内の最高のマスターマインド以上にはならないと思うな。時間がかかりすぎるし、創造的な考えが出るのも遅くなる感じ。一年か十年待って、一つの結果を出す価値があればいいけど。軽い思いつきだけど、十分な頭があれば非常に安価な基盤から、限られたストレージと遅い計算を得る方法を見つけられるかもね。塩の結晶を湖や海で育てるみたいな感じで。ランダムにエンコードしても、十分な頻度でやれば全体のセットが得られるし、正確に読む必要もないし。あれ?宇宙の説明しちゃった?
人間の代わりになるようなものは、蜂の巣やアリの巣が似たようなものになるのかな。
私たち猫になっちゃうんじゃない?
専門化された人たくさんいるけど、あんまり見ないな。むしろ、広い知識を持ってる人が特許やデザインで成功してるから、皆が専門的にやってる中でボックスの外を見るのができるのがその人たちだけだよ。
いや、クリエイティブになるにはマスターマインドが必要なんだ。小さいモデルはデータ変換の明示的な指示に従うのは得意だけど、自分がまだ解決してない問題には役に立たないと思うよ。
JSONスキーマに従うのは普通は解決済みの問題じゃないの?トークンを制限すればゴミみたいなモデルでも大丈夫なはずでしょ。
そういうことだよ。明確なタスクとJSONスキーマがあれば、小さいモデルでも使えるけど、やっぱり幻覚起こすことは多いよね。Llama3 7Bなんて、メール署名から連絡先を抽出する時に電話番号を作っちゃったし。
このベンチマーク、信じられる?何か意味あるの?簡単に操作できそうで、本当にモデル同士を比較するのに正確な方法とは思えない。モデルが見たことのない類似の問題を出すとパフォーマンス下がるし。
AIMEには重大な問題があるみたい。テストセットとほぼ同じ問題がオンラインにあるみたいだし。
それがRLで訓練されたモデルにどう関係するのか分からない。もし答えをすでに覚えてるのなら、なんで訓練が必要だったの?
結果が気に入らないと、テストを疑う人もいるんじゃない?
新しい”推論”モデルを試すためのシンプルなプロンプトを知ってる人いる?‘strawberry’の中のRの数を数えるのはちょっとつまらないよね。ローカルで一番小さいGGUFバージョンで試してるけど、自己確認を9回して正解出してくれたよ。ただ、最初の方でクリティカルなエラーを犯してた。
2つあるよ。1つは深層学習モデルR1だけがクリアしたと思うやつ。12リットルのジョグと6リットルのジョグがあって、どうやって6リットルを得るか?Deepseekは答えを出したけど、他のLLMはうまくいかなかった。面白いのは、追加で’ステップバイステップで考えて’って言わないと、他のモデルは正解できないことが多い。
Wow、Gemini 2は最初の質問に9ステップのプロセスが必要だった。12リットルのジョグと6リットルのジョグを使って6リットルを得る手順だ。
あいつ、自分に酔ってるよね!
二つ目の無駄なジョグを加えると、4oがひどくなるよ。これで6リットルの水を測る方法を説明するね。
面白いことに、o3-mini-highは最初に正しいことを考えてたみたい。6リットルを測るには、6リットルのジョグをそのまま使うのが簡単だと思ったんだけど、何かトリックがある気がする。
この比較はあまり信じられないな。どのモデルでも20回テストしないから、確率的な性質が影響してると思う。
他のLLMでも同じだよ。12リットルのジョグをフルにしてから6リットルのジョグに注ぐのも。4リットルのジョグで同じようにやらせてみて!
R1には問題ないよ。混乱してる時は、ただのトリッククエスチョンか気にしてるだけ。
Deepseekはこう言ったよ:12リットルと6リットルのジョグで、正確に6リットルを測るためには、12リットルを満タンにして6リットルのジョグに注ぐだけ。
Llama v3.3 70bで試したら、5回のサンプルで毎回正解したよ。他のモデルはトリッククエスチョンだと思ってるみたい。
O1 Proに最初の質問したんだけど、48秒考えて間違えた。12リットルのジョグを満タンにして、6リットルのジョグに注いだ。ちょっと冗談言われた。
この研究のリード著者の一人だよ。小さいモデルにはfp16じゃなくてBfloat16の量子化を使うのをおすすめする。性能がかなり落ちるからね!
元のR1に基づいた1.58ビットの動的量子モデルと比較した?Unslothがやったことは、フルQ8バージョンに比べて推論性能があまり落ちなかったみたいだね。
モデルが小さいから(1.5B)が重みの変動に敏感なんだよ。
GGUF版のモデルってどこかにある?Macを使ってるんだけど。
私たちのモデルの枝として作った人がいるGGUFもあるみたいだから、試してみて!
フルムーンのiOSアプリに追加できるMLX版はある?
ストロベリーのRsに関して、いくつかのモデルを並べてみたけどSky T-1とGemini 2 Flashは外したよ!
各モデルにQtのQSyntaxHighlighterサブクラスを実装させるのが好きなんだ。C++で、木の座標に基づいて実装してる。コーディング以上にAPIをどう組み合わせるかの推論が重要なんだよ。最近はDeepSeekモデルにはがっかりしてて、期待が薄れてる。
(Qt開発者仲間として)君の意見がすごくいいと思う!どこかで連絡取れるところはあるかな?プロフィールに社交メディアがあるから、そこでもいいよ。
nvidiaのllama 3.1 nemotron 70bを使ってみて!Gstreamerのコードを役に立つ形で出せる唯一のモデルだから。
f/2.8とf/4.5は何ストップ違うか気になるな。正しい計算式を使えば解けるよね。普通のLLMだと0.67ストップとか言うけど、実際は約1.37、もしくは1と1/3でいいと思う。少し難しい質問だけど、LLMは計算式を出すのに困らないし、答えをチェックする力も持ってるはずだから、きちんとした結果を期待したいな。
小さいモデルは量子化の影響を受けやすいから、これがちゃんと動くのは意外だね。
そうだね、一番小さい量子化版が部分的に使えるなんてびっくり。大きなモデルでも同じバグを再現できたよ。
モデルがどうやって解くか聞いてくるのが好きだな。Sonnetを使って問題を解こうとした時に、モデルが好奇心を持って助けてくれる感じが面白い。
これって量子化の問題なのか、それともトークン化の問題なのか疑問だね。
F32で再現できたから、トークン化の問題かもしれないと思ってる。
bfloat16を試してみて!モデルがfp32として保存されたバグがあるよ。
この3.6GBのF16モデルで試したら、今度はストロベリーのトークン化に混乱しなかった!
やったね、ちゃんと動くのが嬉しい!小さいモデルはdtypeに敏感だよね。
「ストロベリーの中のRの数を数えて」って、もうどの訓練データにも入ってるかもね。
いちごの質問には、”bookkeeper”の中にあるRが何個かすぐに聞くよね。
それでも多くのモデルがまだ苦戦してるよね。
このモデルは特に数学問題を解くために訓練されてるから、マジで数学の質問してみてよ。
ちょっと面倒くさいなぁ。大きなモデルに合う良いテスト用の数学問題知ってる?
試してみて。1^3 + 2^3 + 3^3 + … + 12^3 = 6084って知ってるとしたら、2^3 + 4^3 + … + 24^3の値は?これ、DeepSeek R1 (1.58-bit GGUF, ローカル実行)なら問題ないよ。
その数学問題の答え教えてくれない?自力で解くのはLLM使うしかないと思うんだけど…
答えは48672だよ。
q8では”s-t-r-a-w-f-u-r-e-r”とやって5回目に”strawfurber”になった。その他の試みはミスなく、3を見つけた。
正直言って、オープンソースのAIがこのペースで勝ちそうだね。毎週革新が起きてるのが見えるし、これからが楽しみ。
それは変だな、7.1GBのF32 GGUFバージョンでも全く同じ変なバグが出たんだ。
同じような形式でデータ漏洩的なもんがあるんじゃないかって気になるな。
- 意味不明なひねりの効いた謎かけを聞いてみて。例えば’7は8が怖いの?’みたいな。
2. ’自分に対して三目並べをして勝て’って言って動きが正しいか確認してみて。
CoTモデルって外部関数を呼べるんかな?計算機にアクセスできたらどうなるんだろ。
出力ストリームを見ながら解ける式を計算結果に置き換えて続けていくって方法もアリかも。特に最近のモデルは、この方法で長い推論プロセスを強制することもあるみたい。
そうだね!deepseekでも外部関数を呼ぶのはデータ抽出問題みたいなもんだよね。例として計算機関数に'5 + 10’を渡して結果をもらうみたいな。
その通りだよ。o3-miniはネット検索もできるから、最新情報が必要ならo1より優れてるね。特定の論文を適当な名前で読んで来いとも言えるし。
思考の連鎖の中でコードインタープリターを使えば、人間の問題解決法にすごく近づくかも。
どっちもアリじゃない?現代の知的エージェントが標準的に持つべきツールセットについて考えてみよう。計算機や基本的なコードインタープリター、グラフ作成ツール、ネット検索など。特に道具の使い方を訓練するデータセットがあったらどうだろう。
実際あんまり賢くないな。ASCIIシーケンスのデコードを頼んだらガラクタしか出てこなかったよ。phi-4 Q4を使ったらちゃんとできたけどね。
ASCIIを知らなくても良いから、ちゃんと推論できるモデルがあればいいんだけどな。
rStar-Mathの性能が間違って報告されてる気がする。例えば、テスト時の単一ロールアウトでAIME 2024で50点、Olympiad Benchで65.3点、AMC 2023で87.5点を達成してるのに、報告では26.7点、47.1点、47.5点になってる。これっておかしくないか?
テクノロジーの最前線と普通のテレビ視聴者とのギャップが大きすぎて、話すのが難しいね。モデルが自分の運命を決めるようになってきた一方で、国際的には経済が崩壊することもある。
大学時代にはこれをオーバーフィッティングと言ってた。評価セット以外ではあまり性能が良くない感じがする。
1.5Bモデルだから、最適化された範囲以外であまり期待するのは無理だよ。
最近考えてるけど、AGIへの道は単に力任せではないし、今までもそうではなかった。
こういう方法で検閲なしのモデルが手に入ればいいな。
確かに、そんな方向に進んでいるように見えるね。
試してみたけど、実際には存在しない入力に基づいて生成してるのが夢のよう。
初歩的な質問なんだけど、大手がネット全体をクローリングしてモデルを訓練してるのに、OSの代替品はどうやってそれを上回ろうとしてるの?普通にネットをクローリングするだけなの?
実際には”ネットの全てを盗む”っていうのは正確じゃないね。今はただ闇雲にデータを集めるだけではなく、データを選別して訓練するのが大切になってきてる。
インターネット全体をクロールするのは、分布のロングテールの問題を解決するのに役立つよ。ビッグデータの目的はゴミを入れて信号を出すことだからね。
本を全部盗んだり有料の研究論文を集めたりすれば、かなりの量になるよね。
最近のMetaがLibGenをトレントで落としたって話、知ってる?
そうじゃなくて、前のモデルの出力を乾燥機に入れてアイロンかけたようなデータを使えば、自然に集めたデータのように見えるってのが秘密だよ。
確かに、でもこのRLステージは実際には大量のデータを必要としないんだ。ほとんどのデータは事前学習フェーズで処理されるし、最近の論文では一つのモデルで千例未満の微調整でも良い推論パフォーマンスが出せたって書いてあったよ。
いや、微調整にはそんなにデータはいらないし、モデルはもう2年前から合成データセットを使ってるんだ。要するに、大きなモデルがクロールした後、次のモデルが大きなモデルと対話してるんだよ。
これってLLM=検索エンジンの時代も終わりに近づいてるの?今のChatGPTモデルはニッチな知識が結構あるし。
検索エンジンの作り方はもうわかってるし、LLMに道具として使わせる方がいいモデルだと思うよ。ユーザーは同じインターフェースを使えるし、データ取得にかかるコストも抑えられるからね。
クリエイティブライティングも事前学習データが限られると影響を受けるよ。DeepSeekにストーリーを書かせると、要点だけのアウトラインにしかならないし、他のモデルは常に同じ名前のキャラクターを使うから。
企業は四半期ごとにモデルを更新しなきゃいけない泥沼にはまってるね。今は新しいモデルを出すだけで、最新の情報を取り込むグループや、合成データセットばかり使うグループがいるし、それぞれ好きなように微調整したLLMを作ってる人たちがいる。
いろんなタイプのモデルができるかもね。知識が豊富なモデルや推論能力のあるモデルとか。
専門家じゃないけど、DeepScaleの成功の一因は合成データを使ってたんじゃなかったっけ?特にコードや数学のために。
大きなモデルを使えるなら、わざわざインターネットのデータを収集してフィルタリングする必要はないよね。
ネット全体をクローリングするのはベースモデルを訓練するためで、高コストで計算集約的なんだよね。R1はすでに訓練されたベースモデル(V3)の上に追加のステップをしたんだ。この人たちも似たようなことをやってる。