DeepSeekがMoEトレーニングと推論のためのオープンソースライブラリDeepEPを発表!パフォーマンスを極限まで引き上げる最先端技術とは?
引用元:https://news.ycombinator.com/item?id=43167373
性能を極限まで引き出すために、ドキュメント外のPTX命令 ld.global.nc.L1::no_allocate.L2::256B を発見して使ってるんだ。この命令は volatile GPU メモリへの非コヒーレントな読み取りが行われるから未定義の動作につながるけど、Hopper アーキテクチャでの正しさは確認済みで、性能もかなり上がるよ。
実際、NVIDIAが将来的にこのドキュメント外の命令の挙動を微妙に変えたりして、突然使えなくする可能性ってあるの?
それはあり得るね。だから、それを無効にするスイッチも用意してあるんだ。>もし他のプラットフォームでカーネルが動かない場合は、setup.py に DISABLE_AGGRESSIVE_PTX_INSTRS=1 を追加すれば無効化できるか、問題を報告してくれ。
なんだか子供のお菓子屋さんにいるみたい。これらのトリックを正確に逆アセンブルするのは論文に基づくと時間がかかりすぎるから、今週のリリースが MoE を基盤の学術モデルとして使う復興の始まりになるといいな。
もっと具体的に言うと、SOTA モデルの実践と学術モデルの間に何が起きているのか全然わからない。今のところ、実践では全て MoE なんだけど、オープンモデルは DeepSeek V3 や Mixtral を除いて常に密なモデルばかりだし。
MoE は計算量が少なくメモリを多く使うから、小規模な研究所での設定が難しいんだ。
gpt 4o は gpt-4 の小型版だから MoE じゃないと思ってたんだけど、それについては聞いたことないんだよね。
この人たちを応援したくなるね、みんなのためにオープンソースの最前線を押し進めてくれてありがとう。
Open AI™(スペースあり)
OpenAIにはオープンさが全くないって笑える。その計画は最初からだったんだ。Ilya Sutskver のメールによると、OpenAIは常にすべての研究とコードを独占情報として保持するつもりだったんだ。オープンは利益を共有することを意味していた。つまり、彼らは基本的に無料プランのあるSaaSになってしまった。
Muskは、彼らが利益を求めているのは非営利団体のふりをしているからだと指摘したのが正しいと思う。彼が言うのも有り得るし、誰が嘘をついているのか分かるからだ。Muskは自分がOpenAIから外されたことに腹を立てているのが明らかで、AIモデルの安全な使用についての理想からではない。
DeepSeekの方がChatGPTよりオープンなことはなんか皮肉だね。
OpenAIはただ嘘をついているし、全くオープンじゃないし、人類に対してどうでもいいって感じだね。
こういうシナリオが実現したら面白いね。OpenAIは利益を追求しつつ人類のために始まったけど、最終的には金を優先させてDeepSeekが登場する。DeepSeekが人類のためにオープンソースでやることで、OpenAIの評価が下がるっていう結末も面白いかも。
正直言うと傍観者だけど、シナリオの最初の部分はすでに起こっているような気がする.
他の誰かが自分たちよりも世界を良くする世界には住みたくない。
OpenAyyyy、絶対にそろそろオープンにするって言ってるよ。良いことのためとか言われるけど、ほんとにそうなのかな?
彼らは素晴らしい無料ツールを提供してくれるけど、それが全てで、多分その裏には何かしらの意図があるんだろうね。
DeepSeekがChatGPTよりオープンと言うのは全然皮肉じゃないよ。OpenAIに騙されてただけだし、ナイーブだったってことだ。
みんなはOpenAIがダメでDeepSeekが救世主みたいに言ってるけど、OpenAIの論文やコードが数年前にAI革命を始めたことを忘れないで。DeepSeekが何をするか、同じくらいの時間待ってみようよ。
革命を引き起こした論文はGoogleから出たんじゃないの? 確かに、あの論文は文字列の翻訳技術の向上についてだった。言語の改善が技術の基盤だったんだ。でも、誰かがパロットがZIPやJPEGを学んでハザードな記憶を返すことに気付いたんだよな。OpenAIがリリースした中で唯一役立つのはWhisperだったけど、もっとオープンにしてくれてもよかったな。 ヒントンだな。彼に聞いたらSchmidthuberだろうけど。 これ読んでるならSam Altmanへ:OpenAIをオープンにしろ。さもないと、エコシステムに負けるぞ。 もう遅い。OpenAIからの革新はなくなったし、ドライバーだった人たちがAnthropicや他のところに移った。彼らは大きな資金を持っていて、先行していたのに、結局失ったんだ。 >これ読んでるならSam Altmanへ 無理な話だな。Samは資本家階級の頂点で、純粋なビジネスマンだ。利益がなきゃ無償で提供する気はないし、人類のことなんて考えてない。彼は世界を変えるふりをしてるだけで、実際は大きなブレイクスルーがなければ会社は困難に直面することを知ってる。愚痴が多くて申し訳ないけど、この科学をグリフトに変えた彼へのリスペクトはあまりないな。 彼らの最新の音声認識モデルWhisperは、無料でオープンウェイトが配布されてるよ。 戦略的に、彼らはエッジで動作させる必要があることを知っていて、ユーザーが遅延なくAPIにリクエストを送ることを望んでるみたいだ。それは確かに評価されるべきポイントだし、これが唯一の貢献じゃない。 彼らは、信頼できるコンピューティング専用のモデルとして、プロプライエタリな暗号化と高額なライセンスキーを使って配布することもできたんだよ。 サムは新しい子供に忙しいみたいだね これって本当にオープンソースじゃないよ。本当にオープンソースのモデルを探すなら、AI2のOLMo 2を見てみて。 ザッカーバーグは、メタがAIのオープンソース化を主張するのをやめるべきだね。重みだけを公開して、コードは公開していないのに、テレビ広告まで出してるんだから。ほんとにDeepSeekだけが真のOSS AIだよ。 技術的にはDeepSeekもOLMoやOpen Euroほどオープンではなくて、データを開示してないからね。 まだ道のりは3分の2だね。必要なのは: データを開示するのは訴訟の招待だよ。だからオープンソースに熱心な人も躊躇してる。人々がモデルをトレーニングしてデータを生成するのも、そのためなんだ。元のデータセットを共有するのはほぼ不可能だし、違法なものや恥ずかしいものが含まれていないかを確認するのも大変だしね。 AIに任せるべき仕事だね。 その理由は理解できるし、将来的に『データを提供できないなら、これ以上の料金は取れない』っていう法律ができることを願ってる。要するに、LLMのプロデューサーは、商品として扱わざるを得ず、計算リソースと少しのオーバーヘッドだけで価格が決まるということだよ。 理解できる理由だね。 それは著作権侵害の素材や様々な利用規約違反の素材だよ。私の理解では、Anna’s ArchiveにあるものやOpenAIのChatGPTや他のLLMへのクエリからの『人工的』なトレーニングデータのことだね。 DeepSeekは本物のOSSじゃないって。オープンソースになるには、OSIがリストしてる本物のオープンソースライセンス使わなきゃダメだし、すべてのトレーニング前後のコードやチューニング関連、評価コード、安全性や検閲などに関するすべてを共有しなきゃいけない。そうしないと、重みを再現できないし、重みを共有するのはコンパイル済みのプログラムを共有するのと同じ。AI2のOLMo 2モデルが競争力のある本当のオープンソースモデルだと思うよ。最近はオープンソースのアプリもリリースして、デバイス上でのインフェレンスができるようになったし、Tülu 3ってモデルはDeepSeek V3を上回ってる。 そうだね、トレーニングのソースコードを出すのは、コンパイラのソースコードを出すのと同じだよ。仮にGCCを修正して、そのソースコードと一緒にバイナリをリリースしても、それがオープンソースだって主張するのはおかしい。トレーニングデータのリリースはすごく難しいし、その権利やライセンスも複雑だから、リリースするメリットも不明だよ。 Metaは10年以上もPyTorchを改良してきたんだから、LLMをトレーニングするために必要なものは一通り揃ってるよ。Metaのインフラ特有のコードが必要なのか? PyTorchはカウントされる? PyTorchは「最初にマシなもの」を持ってたから、今は完全に支配的な市場シェアを持ってるけど、他の良い選択肢が出てこないのは困る。macOSでは代わりの人気ある選択肢もあるけど、例えば2025年にネイティブの高性能量子化サポートがないDLフレームワークに興奮するのは難しいよ。FSDPもちゃんとしたものじゃないし、使いやすさが最大の重点とは言うけど、こういう問題は大きな使い勝手の欠陥だと思う。市場シェアを奪う必要がないから、何年も改善が見られないだろうね。 Metaはどんな風にモデルをトレーニングしてるのかな?バニラのPyTorchを使ってるのか、それとも閉じたツールやフレームワークを使ってるのか気になる。 オープンウェイト=バイナリーブLOBってことだね。これはFREEWARE/SHAREWAREモデルに戻るみたい。オープンな重みについてはそういう言い方をしよう。 DeepSeekの取り組みの動機が間違っているかもしれない(アメリカのAIの先行優位性を縮小するための国家主導の試みみたいな)のは事実だけど、地球上の全員にとっての結果は素晴らしいよ。最悪のケースでも、DeepSeekには感謝しなきゃ。彼らはOpenAIが何年も世界に嘘をついてきたことを実際にやってるんだから。すごい。 >DeepSeekの取り組みの動機が間違っているかもしれない(アメリカのAIの先行優位性を縮小するための国家主導の試みみたいな) CCPは二ヶ月前よりはあまり非難されてないみたいだね。偽の民主主義と本物の独裁を比べるのって面白いよね。 真の”Open AI™”企業からのオープンソースリリースの第2弾だ。MITライセンスのもとで、DeepSeekは1570億ドル以上の企業が”オープン”を名乗るよりもオープンだぜ。MetaのLlamaについてはほとんど話題になってなくて、みんなLlama 4が推論機能付きで出ることを期待してる。真ん中でゼロ競争に押し込められないことが目標だ。 アメリカがDeepSeekがH800しか使ってないか確認するためにシンガポールでGPUの領収書を追いかけてる間、他の国はこれらの最適化をH100で実行できるの?アメリカの制裁でH100が難しく取得できると信じ込むのはおかしいかな?合ってるの? 今回期待されていたPTXは含まれてるの? うん、csrc/kernelsのディレクトリにあるよ。’asm’を検索すれば使われてるのが見つかる。 >みんなが期待してたPTX Parallel Thread Executionだよ。NvidiaのGPU用のオペコードみたいなもので、CPUの従来のオペコードよりも少し複雑なんだ。キャッシュのパラメータやメモリバリアを指定できるから、色々な組み合わせを試すことで新しい効果を見つけることができるよ。DeepSeekで使われてるld.global.nc.L1::no_allocate.L2::256Bなんかは大きな加速を提供しながらも信頼性があるんだ。ただ、全てのアーキテクチャで動くわけじゃないから無効化する方法も用意されてる。 SASSがどう訳されるか気になる。彼らはHopperのためのSASSアセンブラを持ってるのかな? ここではptxasを見てるんだ。ちなみに、私のマシンではLDG.E.NA.LTC256B.U8.CONSTANTが生成されるみたいだ。 CPUには似たような命令があるよね。 DeepSeekの注目度は、彼らのトレーニングと推論コストが異常に低いからで、PTXを使ったオプティマイゼーションが効いてるみたい。他の人たちもその使い方に興味津々だね。 あの頃のアセンブリハックみたいで面白いけど、結局はコンパイラかGPUが進化すればこういうトリックもあまり意味がなくなるんだろうな、今のCPUみたいに。 技術報告で話してたPTX命令がこれに繋がるのかな? 極限のパフォーマンスを目指して、行動外・文書外のPTX命令を使ってるみたい。ただし、定義されてない動作になるから注意が必要だね。Hopperアーキテクチャでの正しさは確認済みとのこと。 非コヒーレントってキャッシュの一貫性を無視すること?それともL1ラッシュを防ぐためにL2だけを使うってこと? L2部分の理解は、256bのプリフェッチを求めてるみたいで、でも最大で4つの32ビット整数を使うから256バイトだけで十分なのか疑問。 そういうことだね。 これが役立つかもね: 春の雨が花を運んでくれるよ! 今、超期待のPTXが追加されたみたい!もちろん、内容はよく分からないけど、もうスターとフォークボタンを押しちゃったし、これで自分も達人になったってことだよね?今、とてもパワフルな気分だよ…もっとコメントを表示(1)
彼が読んでたら困るわ。今の彼には思いっきり落ちることがふさわしい。
全ての必要なものを共有してるし、データも含めてモデルを再現するための全てを教えてくれる。以下のリンクに書いてある通りだよ:>『完全なオープンサイエンスにはオープンな重みだけじゃなくて、私たちはすべてのOLMoのアップデートを共有することに興奮しています–重み、データ、コード、レシピ、中間チェックポイント、指示調整済みモデルを含めて、より広い言語モデルコミュニティと!』
1. プレトレーニング用のオープンデータセットと、それをラベル付けして維持するためのツール
2. オープンモデル、トレーニング、インフェレンスのコード。できればそのアプローチや結果を理解するための研究論文も
3. オープンなプレトレーニングされた基盤モデルの重み、ファインチューニングなど
オープンAI=データ+コード+論文+重みだよ。もっとコメントを表示(2)
- ノード内およびノード間のNVLinkとRDMAのサポート
- トレーニングと推論のための高スループットカーネル
- 推論デコーディングのための低遅延カーネル
- ネイティブFP8ディスパッチサポート
- 計算と通信の重ね合わせのための柔軟なGPUリソース制御
X:
https://x.com/deepseek_ai/status/1894211757604049133
国際関係の分野では、正しいとか間違っているという概念はあまり当てはまらないよ。これをオープンソースにすることが、高性能なNvidia GPUの輸出禁止と同じくらい「間違っている」ことなのかは不明。DeepSeekのオープンソースは(おそらくCCPの同意のもとに)CCPと広範なオープンソースAIコミュニティにとって良いことで、彼らの立場が原則的なものだとは思わない方が良い。競争優位性を奪う方法を見つけるのは、すべての政府の重要な活動だしね。
これがそんなに重要な理由を教えてほしいな。もっとコメントを表示(3)
https://x.com/main_horse/status/1894215779521794058/photo/1