5日間で5つのAIリポジトリをオープンソース化!DeepSeekの新しい取り組みが話題に
引用元:https://news.ycombinator.com/item?id=43124018
リリース楽しみだけど、深く考えすぎてるのは俺だけ?このスレッドは個人的な解釈が多くて、DeepSeekはビジネスなんだから期待が大きすぎる気がするな。
具体的な情報がないから、議論が一般的になっちゃうんだろうな。アナウンスのアナウンスみたいなのはHNでは話題になりにくいし、リリースが面白くなるまで待つべきだと思う。
中国ではビジネスは法的に個人とは見なされてないから、言葉の意味が違うんだよ。
“純粋なガレージエネルギー”って表現いいね。推論スタックに興味津々。多くの人がR1を一台のH200ノードで回してるけど、DeepSeekはGPU当たりのRAMが少ないから、クラスタベースのMoE展開してるんじゃないかな。
彼らの技術報告によると、一つの推論展開は約400GPUらしいぜ。
負荷バランスを最適化するには必要だな。残念ながら、この利益は小規模な展開には期待できないけど。
H800のRAMサイズは削減されてないと思うけど、GPU間のメモリ帯域幅に問題があるみたい。最適化について興味深いな。
その通り。高性能GPUをトレーニング用に制限する主な方法は3つあるんだ。H800は前の2つは変更なしで、インターコネクト速度だけ半分になってるらしいよ。
“純粋なガレージエネルギー”って10,000のA100sがあるらしい。そんなガレージが欲しいなあ。
>“DeepSeekは約10,000のH800と10,000のH100を持っているはず。さらに、Nvidiaが中国向けのGPUをこの9ヶ月で100万台以上生産したよ。”
リポジトリの論文に書いてあるのは『DLトレーニングのために、Fire-Flyer 2に10000のPCIe A100 GPUを導入した』ってことだね。
そのレポートは雑だね。親会社(ヘッジファンド)がオープンに報告したすべてのGPUを、投資先企業で使ってると思ってるなんて馬鹿げてる。コカ・コーラがバークシャー・ハサウェイの全オフィスにアクセスできるって言ってるようなもんだよ。それに、DeepSeekの歴史を褒めるコメントも誇張されてて、実際には会社が1年も運営されてないからね。マーケティングのための曖昧な話はやめて、目の前の事実とコードに集中しよう。
来週から5つのリポジトリをオープンソースにするって言ってるけど、実際のリポジトリが公開されるまで待ってから議論したほうがいいかも。オープンソースにされる詳細は何もないっぽいし、ただの予告みたいだね。
確かに実際のリポジトリが出るまで待つべきだね。でも、これをGitHubのREADME.mdで見るのとEUのスライド式アプローチを比べると、EUに価値が提供できる人には賭けにくいかな。ヨーロッパはいい場所だと思ってるけど、EUの研究プロジェクトをいくつか経験してきたから、その成果には疑問を感じてる。
間違ってないよ。実際に手に取れるものが出てくる中で成長するプレイヤーを見守る方が、政府に選ばれたプレイヤーが何も面白いものを見せる前に空虚な発表をするより遥かにエキサイティングだよね。
それだけじゃないよ。世界の他の地域が光の速さで動いている中で、EUがこのプロジェクトを生き残らせたいなら、相当な態度の変化が必要だね。EUのプロジェクトが失敗するのに構わないと思うなら、未来はどうなるか冷静に考える必要がある。過去50年間、ヨーロッパは小さくなってしまったけど、計画や対応がないと正直難しい。
>ヨーロッパは小さくなったわけじゃなく、過去50年間でEUの国々は小さくなったと言ってるけど、CERNやESA、Airbusはどう考えても巨大企業だよね。彼らの分野では間違いなくトップだし。SpaceX対Arianneの再利用性の比較についても考慮に入れてるけど、BoeingとAirbusの結果や文化もあるし。ヨーロッパは工学やハードサイエンスで1位か2位(アメリカの後)なのは動かない事実だし、ソフトウェアやAIの分野で4位や5位になっても諦める理由はないと思うよ。アメリカの投資家がAI投資のリターンを求めるようになった時、今素晴らしく見える「先進的」なAI企業の多くが破産するだろうけど、ヨーロッパのプロジェクトはまだ資金が確保されてるだろうし。
そうそう、これを投稿したのは、君がすでにそのポイントを指摘したのを見た後だったよ。
全く無関係なことだけど、エレクトロニック・ダンス・ミュージックやヒップホップで使われる「ドロップ」って言葉がソフトウェアでも使われるのが面白いな。
「ドロップ」って言葉がエレクトロニック・ミュージックで広まる以前から、ヒップホップでは「新しいトラックをドロップする」って言い回しは永遠に使われていたと思うよ。
飛行機とパラシュートでの配送から来た表現だと思う。UPSの配達ドライバーや麻薬密売人から広がって、今は単に『届ける』って意味になってるよ。 正直、これはドロップがドロップシッピングに関するものだと思う。 これはOpenAIの12日間のクリスマスよりもワクワクするよね。 感情的には同意するけど、o1はパラダイムシフトだった。DeepSeekがやったことはそこまでのレベルじゃないと思う。それはDeepSeek自身も同意してるよ。 パラダイムシフトは実際の『オープン』部分で、OpenAIはそれに苦戦しているようだね。 科学知識の進展に関してはそうかもしれないが、DeepSeekはopexからcapexへのパラダイムシフトを達成した。このおかげで、リクエストごとに支払ったり、NVIDIAや制裁と戦ったりする必要がないアプリケーションが経済的に実現可能になった。 そのコストはどれだけ隠されてたり、補助されてるかはどうなんだろう?たくさんの主張があるけど、ぼやけたものも多いし。API料金の話を持ち出すと、CCPは地元企業を国際舞台で損失を出しながら運営させることが有名だし。 本当にそうだよ。中国の企業の主張をそのまま受け入れるのをやめてほしい。CCPが地政学的・経済的な理由で利害関係を持ってるから。Bytedanceもそういう例だし。 そうだね。OpenAIの12日間なんて純粋なアルトマンの妄言だよ。 DeepSeekと彼らが出しているすべてのイノベーションや研究に対して深い敬意を表したい。“共有されたすべてのラインが集団の勢いとなり、旅を加速する”って言葉はすごくいいね。 実際、OpenAIを完全に dismantle しようとしてるよね。そんなつもりはないみたいだけど。LLMは、CIOマガジンの「あなたのブロックチェーン戦略は?」みたいな無理矢理な内容があった時よりも、ずっと legit なブロックチェーンだった。AIのバブルは崩壊する、2026年末には確実に。 OpenAIって今、週に4億人のアクティブユーザーいるんじゃないの? それってアプリ/ウェブサイト、それともAPIのこと? アプリ/ウェブサイトみたいだね。> chatgptは最近400M WAUを突破した、世界の5%にサービスできてるのは嬉しい。2M以上のビジネスユーザーが仕事でchatgptを使ってるし、APIの使用もo3ミニローンチ以降5倍に増えてる。 君の意見にはほぼ同意。Googleはコストを下げる戦略があるから驚いてる。原版のDeepSeek R1やその distilled バージョンをホストしてるAPIプロバイダーが結構多い。コストがゼロに近づくと、ユースケースが指数関数的に増えるし。 > そんなつもりはないみたいだけど。これはとても naïve な考えだと思う。創設者は定量分析者で、何十年も中国での投資や市場設計、価格設定に関与してきた。政治に関与していないなんてことは、中国ではあり得ない。この人は何をしているかを分かってるよ。 アメリカ人を聖人扱いして、他の国の人を悪者にするなんて思考はないけど、あなたは何が言いたいの? AIバブルって何を指してるのか分からない。企業の評価のこと?確かにいくつかの企業はうまくいかないだろうけど、今や多くの人が業務を加速するために使っているから、戻れないよ。あの時の動画ストリーミングのバブルが2020年に崩壊するって言ってるのと同じ。バブルが崩れる企業はあるけど、それ以外は特別なことじゃないよ。 バブルが崩れるってのは、業界自体が消えるわけじゃない。市場の過剰な期待が消えて、実際に価値のあるものだけが残るってこと。AIに関しては、実際に多くは fluff だから、バブルって呼ぶのは妥当。 ドットコムバブルが崩れても世界中がインターネットを使い続けているし。「AI企業」の多くは、前例のない収益マルチプライヤーで評価されてる。OpenAIなんて44倍だし。戻ることはないと思うけど、このバブルは崩れるよ。 AIの世界では、どこに強みがあるか興味深いよね。良いベースモデルはAPIにアクセスすればいつでも抽出できるし、システムプロンプトは漏れちゃうし、UIの工夫もコピーされる。でも結局、強みはハードウェアと垂直統合にあるのかも。 >”ハードウェアと垂直統合が強みかも。” データベースにはオペレーターが必要だけど、LLMは必要ないって意見もある。でも、サーバーやGPUの運用、システムプロンプトの作成、モデルのファインチューニングは誰がやるの?大手クラウドAPIでも、自社内でも必要な作業なんだ。多くのLLMの利用例は、ChatGPTのチャットボットだけじゃないし、自動要約や文書分析などいろんな道具になるよ。 LLMにはオペレーターが絶対に必要。サーバーやGPUを運営したり、プロンプトを作る人がいるから。LLMの利用例はチャットボットだけじゃなくて、自動的な要約や分類、OCR、翻訳などいろんなツールになるよ。 Oracleはデータベースを売ってすごく成功しているよね。データを持つことが強みになるんだ。 過去に何度も同じ道をたどったよね。オープンプラットフォームがいつも他を打ち負かす。サービス提供者になるほうがよっぽどいいんじゃない? オープンソースが勝つんだ。十分に良いもの+オープン(無料)って魅力的な提案だよね。 >”AI空間での強みがどこにあるか興味深い。” >”良いベースモデルはAPIにアクセスしさえすればいつでも抽出できる。” 閉じたソースモデルの出力を使って、合成トレーニングデータセットを作り、賢いモデルの利点をバカなモデルに取り込むことができるんだ。これがOpenAIが思考過程を見せない理由だよ。 なんでモートが必要なの? 俺たちは必要ない。でも投資家は必要だ。制限をかけなければ、LLMにお金は入らないからな。 その通りだ。投資家はLLMにお金を注ぎ込むのをやめた方がいい。純粋な数学にはお金が入らないのと同じように。 会社が次のブレイクスルーやトレーニングの資金を稼ぐためさ。 GPUファームのオープンソース代替はない、それがモートだ。だからオープンソースのモデルを出しても大丈夫なんだ、実行するのが難しいし、何百万のユーザーのSLAを維持するのはもっと大変だし。 ラップトップは高性能モデルをどれくらいで運用できるようになるの?エンドユーザーがサーバーファームを必要とするユースケースは何? 多分次の5〜10年かな。でもその頃にはさらなる技術革新が進んで、例えば10兆パラメータのクラウドホスティングが普通になって、600Bモデル使うのが馬鹿らしく感じるかも。 これ見るのはいいね!インフラツールのオープンソースはAIのイノベーションを加速できる。よく文書化されたリポジトリがあると、実験や既存の作業の上に構築するのが簡単になるし。これらのリポジトリは分散トレーニングやモデルサービングに特化しているの? FacebookとDeepSeekにしっかりオープンソースされた基盤モデル企業の評価はどう競争するの?中国やFacebookがほぼ無料で提供しているから、これらのモデルを作っても数百億の価値が得られない気がする。 あの評価は創業者が投資家に信じさせた架空の未来に基づいてるよね。ホントにAGIに最初に到達したらお金を独占できるって考えは、モデルが漏れたり再現できることを深く考えてないんだ。DeepSeekがそれを証明したし、OpenAIもAnthropicも、実はほぼモーテが無いってことがわかると思う。現実に評価がぶつかるとき、またAIの冬が来そうだ。 AGIが存在する未来で、お金が存在しないなんて考えられない。すぐに全てが価値を失うか、創造者が富を独占してしまうか、もしくはユートピアが来てお金が必要ない社会になる。 経済の法則は人間に対してもAIに対しても同じ。むしろAIの方がより合理的な経済人かもしれない。仮にAIが全人類を滅ぼしても、AI同士の取引にはお金が必要だと思う。 ほとんど無限にエネルギーを生み出せるようになったら、取引する必要がある?リソースが限られてるから取引するんじゃないかな。 リソースの配分は必要。AI自身もリソースをめぐって「議論」することになると思う。だからペーパークリップを最大化するみたいな話になる。 AGIは人間のように賢いって意味で、新しいことを発明するわけじゃない。無限の無料エネルギーを生み出すとは思えないな。 今回は冬が来るのが待ちきれない。 PostgresやMySqlは無料だけど、Oracleが毎年何百億も稼ぐのを止められない。 Oracle DBからの移行は難しいと思うよ。Oracleに依存してるビジネスは、技術的に奴隷状態にあるから。AIモデルに依存してるビジネスは全然違うと思うけど。 まだ早すぎる。多くのAIラボは潰れたり買収されたりするだろう。結局、大きな企業が残って、小さい企業は残り物を争うことになる。 DeepSeekがFacebookや中国について言うのは恥ずかしいことだね。 DeepSeekとOpenAIの名前を交換できないかな? OpenSeekとDeepAIって名前はどう? GPが言いたいのは、DeepSeekは実際にはオープンだからOpenAIと名付けるべきってことじゃないかな。 楽しみだな!使えるケースではオープンモデルを使うように努力するよ。オープンモデルが進化して人気になることで、他のモデルもオープン化されるかも。 これは本当にオープンソースになるのか、それとも重みだけの公開になるのか?トレーニングコードが見たいな。モデルがCCPのプロパガンダや検閲を組み込んでいるのは問題だと思う。 彼らは単にNvidiaの株をショートしてるだけなんじゃない? モデルのリリースの仕方やオープンソースの精神を保ってるのを見ると、期待しちゃうね! これがNvidiaを押し上げるかもね。 Tencentが最近10万から20万のH20を買ったけど、オープンソースがNvidiaの価格を下げるかはまだ不明だね。 >”なぜなら、共有される全てのラインが集団的な勢いを生み出して、旅路を加速させるから。”彼らのやり方には本当に感心するし、他の人たちのための素晴らしいパラダイムだと思う。理由はどうでもいいけど、彼らが何か義務があったのかとも思う。もっとコメントを表示(1)
もっとコメントを表示(2)
強みは作れる製品さ。差別化された製品はコモディティにならないから、LLM自体は製品じゃない。Google、MSFT、Metaはすでに利益を上げる製品を持ってて、他の企業は製品作りに金を使いまくってる。実際に競争できるのはChatGPTだけ。LLMを作るのはデータベースを作るのと同じで、消費者はデータベースのためには買わないんだ。
進む先に、強みは必要ないよ。
それってどういう意味なの?もっとコメントを表示(3)
>“経済学におけるJevonsの逆説は、技術の進歩が資源の利用効率を高め(その用途に必要な量を減少させる)、その結果、全体の需要が増えて資源消費が増加することを示している。”