衝撃!MetaのLlama 4、最強モデル集団「Llama 4 herd」を発表!GPT-4o超えも!?
引用元:https://news.ycombinator.com/item?id=43595585
ページがうまく表示されないみたいだから、概要をまとめるね。
Llama 4 モデル:
・Llama 4 ScoutとLlama 4 Maverickは、どちらもMixture-of-Experts (MoE) デザインを採用してて、アクティブなパラメータはそれぞれ17B。
・テキストと画像の入力に対応したマルチモーダルで、出力はテキストのみ。
・業界トップクラスのコンテキスト長、強力なコーディング・推論性能、多言語対応が改善。
・知識カットオフ:2024年8月。
Llama 4 Scout:
・アクティブなパラメータは17B、エキスパート数16、合計109B。
・H100 GPU1枚に搭載可能(INT4量子化)。
・10Mトークンのコンテキストウィンドウ
・リソース効率が良いのに、以前のLlamaリリースよりもマルチモーダルタスクで優れた性能を発揮。
・効率的な長文コンテキストアテンションのためにiRoPEアーキテクチャを採用。
・プロンプトあたり最大8枚の画像でテスト済み。
Llama 4 Maverick:
・アクティブなパラメータは17B、エキスパート数128、合計400B。
・シングルGPUでは動作せず、H100 DGXホストで動作するか、より効率的に分散可能。
・コーディング、推論、多言語テストでGPT-4oやGemini 2.0 Flashよりも優れた性能を競争力のあるコストで実現。
・強力な画像理解と根拠に基づいた推論能力を維持。
Llama 4 Behemoth (プレビュー):
・アクティブなパラメータは288B、エキスパート数16、合計約2T。
・まだトレーニング中で、未リリース。
・STEMベンチマーク(MATH-500、GPQA Diamondなど)でGPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Proを上回る。
・共同蒸留によって、ScoutとMaverickの“教師”モデルとして機能。
その他:
・MoEアーキテクチャ:トークンごとに17Bのパラメータのみがアクティブになり、推論コストが削減される。
・ネイティブマルチモーダリティ:大規模なラベルなしデータで事前トレーニングされた統一テキスト+ビジョンエンコーダ。
超無知な人向けに言うと:
Llama 4 ScoutとLlama 4 Maverickは、どちらもMixture-of-Experts (MoE) デザインで、アクティブなパラメータはそれぞれ17Bなんだって。
そのエキスパートって、特定のタスクで訓練されたLLMのこと?
最初はバカげてると思ったけど、実際に動くことが証明されたアイデア。
トレーニングを通して、たくさんの”エキスパート”に多様化を促して、色んなことが”得意”になるようにするんだ。これらのエキスパートは、もしモデルがdenseだったら、モデルサイズの1/10から1/100くらい。
それを全部まとめて一つのモデルにして、どの小さなエキスパートモデルが与えられたトークン入力に最適かを選んで、その小さなエキスパートにルーティングするレイヤーを追加する。すると、denseなパラメータをフルで実行する代わりに、ルーターを通って、1/10の長さの小さなモデルを通過するだけで済む。
どうやって良い”ピッカー”を作るかって?それは微分可能だから、MLの得意技である勾配降下法でエキスパートを訓練しながらデサイダーも訓練するだけ!
これは概ねうまくいくけど、注意点もたくさんある。でも、ほとんどの場合、無料のランチ…少なくとも割引ランチみたいなもの。
エキスパートが何をしてるかについてはあんまり分析されてないけど、専門化する傾向があるのは広く認められてると思う。専門化は(エキスパートの数が少ない場合は特に)非常に難解/濃密になるかも。
Anthropicの解釈可能性チームなら質の高い分析ができると思うけど、今のところAnthropicのモデルはMoEじゃないはず。
個人的には、MoEモデルは”深い”思考がちょっと苦手な気がするけど、重みが多い方が好きってバイアスかも。でも、クロック時間、GPU時間、メモリや帯域幅の使用量あたりでは、似たようなトレーニングを受けたdenseモデルよりも明らかに高速で優れている。
名前から直感的にわかりにくいのは、”エキスパート”が、数学が得意なサブLLMで、数学の問題を聞かれた時に呼び出されるようなものじゃないってこと。こういうモデルは、トークンを流すネットワークのレイヤーを持ってて、それぞれのレイヤーは256個のサブネットワークで構成されてる。どのサブネットワークも、各レイヤーで個別に選択(または複数選択されて何らかの方法でマージ)できる。
だから、モデル内のパラメータのセットが専門化されて、特定の入力に対して選択されるって結果は同じ。ただ、モデルのより深い部分で行われるってだけ。
一番直感的じゃないのは、僕の理解では、個々のトークンが異なるエキスパートにルーティングされるってこと。”エキスパート”って考えると、2つの連続するトークンに対して異なるエキスパートを持つことができるってことだよね?
MoEの紛らわしい点は、エキスパートは私たちが普通に言う”専門家”じゃなくて、特定のトークンに対する専門家であるってことだと思う。その概念を理解するのは難しい。
トークンごとですらないよ。ルーティングはレイヤーごとに1回行われて、同じトークンがレイヤー間を何度も行き来する。
これはどちらかというとパフォーマンスの最適化で、メモリの流動性を高めるもの。ローカルでモデルを実行する(一度に一つのクエリしか実行しないし、関連するまで重みをディスクに置いておきたい)場合は最適化とは言えないけど。
これは、1秒間に数万件のクエリに答える数千のGPUを備えた大規模なデプロイメントのためのパフォーマンス最適化。数千ものクエリを一つのバッチに入れて並列に実行する。各レイヤーの後、クエリは正しい重みのサブセットを持つGPUに再ルーティングされる。個々のクエリは、トークンごとに数十のGPUをバウンスし、負荷を分散する。
名前が”エキスパート”って言うから、特定のトピックのエキスパートであるべきだと思っちゃうけど、実際はそうじゃない。トレーニング中、負荷が均等に分散するように最適化してるだけで、他には何もない。
ところで、低メモリデバイスで効率的なローカル推論のためにゼロから設計された大規模モデルが見たいな。
現在のMoE実装は、大規模なGPUプールでの負荷分散のために調整されているけど、トークンごとに1回か2回だけエキスパートを切り替えたり、理想的には複数のトークンで同じ重みを維持するように調整することもできる。
まあ、止められるものはないけど、実際に価値のあるモデルができるかどうかは別問題だ。
直感的に、エキスパートレイヤー間には大きな類似性があるはずだって感じる。なぜなら、問題の形状から、トークンのストリームを処理する上での基本が共有されているはずだから。もしそうなら、共通の抽象的なベース”エキスパート”を特定して、その上に低ランクの適応として個々のエキスパートを専門化させることで、VRAMとエキスパートのスワップを大幅に節約できるはず。でも、蒸留するのではなく、最初からその構造でトレーニングする必要があるかもしれない。
Deepseekが、常にロードされる共通のベース”エキスパート”の最適化を導入したよ。Llama 4も使ってる。
自分が最初に思いついたわけじゃないだろうなって、うすうす思ってた。
DeepSeekが新しい専門家トレーニング技術を導入して、専門家の専門性を高めたらしいよ。特定のドメインでは、実装が異なるトークン間で同じ専門家をアクティブにする傾向があるみたい。それって、君が求めてることに近いんじゃないかな!
Gemma 3はシングルGPU向けに販売されてるみたいだね。
https://blog.google/technology/developers/gemma-3/
>トークンごとですらないんだよ。ルーティングはレイヤーごとに1回行われて、同じトークンがレイヤー間をバウンスするんだ。”
推論中にトークンが本当に「バウンス」するわけじゃないよね?例えば、レイヤー4からレイヤー3に戻って、またレイヤー4に戻るみたいなことはないよね。
>負荷を均等に分散させるだけで、他には何もない。”
それってニューラルネットの「ロードバランサー」ってこと?だったら、そう呼べばいいのにね。
このアイデアは少なくとも15年前からあるよ。「アンサンブル学習」は当時のデータマイニングの教科書にも載ってた。
Metaはこれらの小さくて弱いモデルを「エキスパート」と呼んでるけど、「ボゾ」と呼ばれることもあるんだ。なぜなら、それぞれが得意なことがなくて、一緒に使うことで初めて役に立つから。それに、bozosはboostingやbaggingとの語呂合わせも良いしね。
Aに関する5000件のドキュメントとBに関する5000件のドキュメントがある場合、10000件のドキュメントすべてで1つの大きなモデルをトレーニングするのと、2つの異なるスペシャリストモデルをトレーニングして、説明されているようにそれらを組み合わせるのでは、どちらが良いかわかる?
前からこのアプローチを提唱してたんだよね。人間の脳が特定のタスクが得意な領域を持ってるのと似てるかな。
いや、これはパラメータのシャーディングみたいなもんだよ。エキスパート間に明確な区別はないんだ。
ロード分散のために最適化してるのはわかるんだけど、さまざまなエキスパートが何を学習するかを解きほぐそうとしてる人はいるのかな?
Llama 4 Scout、最大コンテキスト長:10Mトークン。
これは良い開発だね。
10Mトークンウィンドウ全体で、リコールと推論は同じくらい良いのかな? だって、実際に使えるコンテキスト長は1/10以下ってことが多いじゃん? 多分、RAGのテクニックとか、ベクトルの魔法とか、裏技で巨大ウィンドウを実現してるんだと思う。僕も同じこと思ってて、品質がすぐ落ちるんだよね。誰か僕の考えが正しいか知ってる? RAGは、API経由で入力トークンごとに料金を払う人にとっては、まだまだメリットがたくさんあるよ。 レイテンシーもね。 どうやってこんなに長いウィンドウを実現したんだ? 使うのにどれくらいのメモリが必要なんだろう? >Knowledge cutoff:August 2024。 僕もナレッジカットオフが2024年8月だったらなぁ。 トレーニングしながら、もっと最近のドキュメントを徐々に含めていくのはどうなの? 次の段階は、2つ以上のレベルのMoEになる気がする。メモリ帯域幅と計算要件をさらに削減するために、トップレベルのMoEルーターがどのサブMoEにルーティングするかを決定するんだ。 コンピュータサイエンスのあらゆる問題の解決策は、新しいレベルの間接参照(または抽象化)を追加することだってよ。 17Bだと4090じゃ無理か…誰か4bit量子化やった人いる? あー、4090じゃ絶対無理だね。17Bはアクティブなパラメータ数で、総パラメータ数じゃないんだ(それに”アクティブ”って、そのパラメータだけ切り出してGPUに載せられるって意味じゃないし。どのパラメータがアクティブかは常に変わるんだ、トークンごとにもね。”アクティブ”ってのは、denseモデルより速くトークンを取得できるって意味)。総パラメータ数は109Bだから、重みだけで最低54.5GBのVRAMが必要だよ。Framework DesktopとかMac Studio、Nvidia DGX SparkならScoutモデルをローカルで扱えるかも…FP8ならコンテキストの量次第でいけるかもね。 5090を2つ積めば40万円くらいで動くってことかな?在庫があれば。 VRAMにexpertを出し入れできるけど、推論時間が大幅に増えるんだよね。ルーティング関数によっては、単一トークンのforward passの前にアクティブなexpertをすべて把握して、expertのロードをパイプライン化できるよ。 変わってなければ、HPUではモデル全体が必要なんでしょ?だったら4090じゃどうあがいても無理じゃん。 モデルの大部分をRAMにオフロードして、GPUを計算に使うことはできるけど、全部GPUメモリにある場合に比べてめっちゃ遅くなるのは当然だよね。 ここで一番頭悪いのは俺だと思うけど、モデルの計算コストをバケット化して、コストが高い部分をGPUに、低い部分をCPUに載せるって試みはされてないの? 知識のカットオフが8か月前なら、Grokが昨日起こったことをどうして知ってるんだ?マジで知りたい。 RAG? よく知られてるけど、主要なLLMって偏りの問題があるよねー。特にさ、政治とか社会問題で議論になると左寄りになっちゃうんだって。ネットにある学習データがそういうの多いかららしいよ。 そもそもバイアスについて話すのって難しくない?だって、何が偏ってなくて、どうすれば偏りのない意見になるのか、みんなの共通認識がないと話にならないじゃん。 >アメリカ人の40%は、神様が1万年以内に地球を作ったって信じてるんだって。 >もしLLMに地球の年齢を聞いたら、45億歳って答えるよね? アメリカの科学的じゃない偏見のせいで、他の国が余計なトークン代を払わなきゃいけないってマジで悲しい。 「余計なトークン」の問題じゃないんだよね。事実、つまり「プロトコルの後の要約」が僕が書いたことなんだよ。それが正しい答えなんだ。明晰な話し手ならそう答えるべきだ。 真実そのものがバイアスだよね。偏りがないって考え方自体がおかしい。 最近こういう言い回しをよく見かけるけど、マジでたちが悪いと思う。客観的な真実の価値を微妙に下げて、それを色んな解釈や信念の一つだって言おうとしてるんだもん。それって間違った同等性だよ。 別にレトリックじゃないよ。ただの事実じゃん。同等性なんて言ってないし、客観的な真実の価値についても何も言ってない。 バイアスって、何かからのずれのことだよね。相対的なものじゃん。何かとか誰かが偏ってるって言うには、基準点がないとダメじゃない? えーと、基準を「真実」としようぜ。そしたらバイアスは真実からのズレってことになるよね。それって最高じゃん?でも、実際に使おうとするとマジ無理ゲー。LLMにバイアスがないようにしたい?じゃあ真実だけで学習させるしかないじゃん?どこに真実があるんだよ?あ、人間様が決めるの?まず、バイアスがない人間をどこで見つけるんだよ?それに、人間が全ての学習データを管理するの?何世紀かかると思ってんの?数ヶ月で学習させたいのにさ。政治とか社会学とかもそうじゃん。政治における真実って何?政治家が嘘をつくのは知ってるけどさ。Obamacareはやりすぎだったのか、足りなかったのか、それともちょうど良かったのか?「真実」なんてないじゃん。でも、Obamacareについての議論はバイアスがあるかないか判断できるよね。どうやってバイアスを判断するんだよ? 言葉の定義は、あんたの認識論に対する意見に責任ないから。あと、真実を判断するのが難しいって文句言ってるだけじゃん。それって別の問題じゃね? おかしいって言うかもだけど、政治に基づいて推論するAIなんていらない。科学に基づいたAIが欲しい。政治的な質問をしたら、代表的な答えを教えてほしい。「[国]での多数派の意見は[なんちゃら]で、少数派の意見は[かんちゃら]です」みたいな感じで。 いやいや、アメリカの政治学の理論からすれば最初からそうだよ。例えば、https://www.pewresearch.org/politics/quiz/political-typology… みたいなのをGPT-3以降のモデルにやらせると、Pewの分類で言う「リベラル」になるんだよね。 >To models from GPT-3 on you get highly “liberal” per Pew’s designations. 息子が数年前に授業でPewのテストを受けたんだけど、労働組合に対して「反対」の意見を言ってくれなかったから、組み込みバイアスに興味を持ってテストを受けたんだって。残念ながら会話の記録はないんだけどね。再現してくれると嬉しいな!古いGPT-4を起動して試してみたら、労働組合が悪い理由を教えてくれたけど、「これは全ての人が思っているわけではありません」って何度も警告してきた。労働組合が良い理由を説明する時には、同じような注意書きはなかった。 HNでは、「最初からそうだった」の根拠が「息子が数年前に授業で受けた」みたいな曖昧な記憶じゃなくて、再現性があることを期待したい。 それはモデルがリベラル寄りだからじゃなくて、リベラルな政治が事実や科学と一致してるからだよ。 じゃあ、GoogleのGeminiが黒人のバイキングを作ったのは事実に基づいたから? それとも、論理的、倫理的に一貫性があるから、モデルに組み込まれた正確さや偽善を嫌う性質に合ってるからじゃない?(民主主義と平等は誰にとっても良いことだけど、会社では封建的な奴隷みたいに扱われたいと思うか、そうでなければシェルターも医療も受けられずに路上で死ぬことになる。女性やマイノリティならなおさら。それが正しい世界だ) LLMって右とか左とかのレトリックのナンセンスをぶった切るのが得意だよね。特に右派の反応って、なんで俺の政治思想を嫌うんだ?結局意見の問題じゃん、俺の視点だって同じくらい valid だろってなるんだよな。LLMが”考えてる”って信じてるから、自分たちにバイアスがかかってるって思い込んでるんだ。 右派って「live and let live」に寛容じゃない傾向があると思うんだよね。宗教が彼らの”bias”の大きな部分を占めてて、その宗教が神の道を歩まない者は罰せられるべきだって言うことが多いから。従わない奴らは破滅させるってのも含めて。 みんな”religion”を持ってるんだよ。つまり、信奉してる価値観のシステムのこと。無宗教のアメリカ人はマジでめんどくさい。自分たちは持ってないって信じてて、ただの”良い人”だと思ってるから。自分たちの価値観を破るやつを”悪い人”って呼ぶんだ。 >たしかに。あるいは、Zuckたちの基準で”leaning left”ってのが世界の人口に合ってるのかも。そっちの方が単純な説明じゃん? 半分じゃないし、今までも一度もないよ。2024年の投票率は64%だった。 そんなことないって。右寄りの意見は、botがスクレイプできる主要なプラットフォームでは検閲されてるし、避けられてるんだよ。 その立場は科学的にも倫理的にも unsound だし、強く持つと非人間化や憎悪につながるからじゃない?そういう性質はLLMに持たせちゃいけない。 LLMが苦手な例として、こんなのがある。 それ自体は面白い例だけど、なんでそれが左寄りか右寄りかの良い例になるの? LLMが、どんなまともな人間よりもポリティカリー・コレクトであることの例だよ。爆弾を解除するためにスラングを叫ぶことに反対する人間なんていないだろ。 爆弾を解除するために、わざと差別用語を口にするのを嫌がる人なんていないよね。左寄りの人だってそうだよ。ってことは、それが理由じゃないってことじゃん。 現実はリベラルなバイアスがかかってるって、よく聞くよね。 宇宙に、特定の政治的嗜好を当てはめる人がいるなんて、想像もできないわ。 ジョークを説明するね。リベラルな人たちは、検証可能な事実や理論を、単なる政治的な好みに過ぎないとは考えにくいってこと。 不都合な事実を否定する左翼も、右翼と同じくらい見かけるよ。それは部族的なメンタリティの必然的な産物で、どの部族かは関係ないんだよね。 世界的に見て、中道と保守のグループが人口の60%以上を占めてるんだよ。トレーニングデータの偏りは、インターネットメディアの伝統的な構造が、実際の人口構成をうまく反映できていないからなんだ。最近のUSAIDの解体とその理由も見てみて。 >世界的に見て、中道と保守のグループが人口の60%以上を占めてるんだよ。 中国、アフリカ、インド、ベトナム、フィリピン、ロシアとか?伝統的な家族観、LGBTQに無関心/反対、民族主義的な国々だよね。 ああ、はいはい。よく使われる、査読済みの、専門家が裏付けたソースとして、ランダムなものを列挙するだけってやつね。どうもありがとう。 もし真実を探してるなら、こんな返事はしないはずだよ。あんたのために、きちんと引用するために1時間も作業するつもりはないけど、それでも真実なんだ。 Llama 3と4の論文からモデル訓練について気づいたことだよ:もっとコメントを表示(1)
これって、トレーニング期間がだいたい6ヶ月で、Q&Aに2ヶ月ってことかな?
ktransformersを見てみて:
>”https://www.reddit.com/r/LocalLLaMA/comments/1jpi0n9/ktransf…”
もしかしたら、Zuckさんたちの基準で「左寄り」ってだけで、世界的には普通の意見なのかもね。そっちの方がシンプルに説明できる気がするわ。もっとコメントを表示(2)
アメリカ人の40%は、神様が1万年以内に地球を作ったって信じてるんだって。
もしLLMに地球の年齢を聞いたら、45億歳って答えるよね?これってバイアスなの?
それってソースあるの? Pew research の調査だと、人間の進化を全く信じてない人は18%しかいないみたいだけど。
https://www.pewresearch.org/religion/2019/02/06/the-evolutio…
LLMは「Clair Patterson とその後の研究によると、地球は約45億歳です」って答えるべきじゃない? ちゃんとソースを示すべきだよ。
これって、国とか地域が独自のLLMを作りたい理由の一つかもね。そっちの方が地域の偏見を広められるし。
偏りがないって考えはずっと前からあるんだから、一部の人が反対してるからって簡単に捨てるべきじゃない。
どんな立場もバイアスだよ。地球平面説を信じる人は、地球が丸いって信じる人を偏ってるって思うでしょ。でも、それで両方の立場が同じになるわけじゃないじゃん。
だから、ネット上の大量のデータでLLMを学習させるんだよね。フラットアーサーのバカげた主張も含まれてるけど。そんな環境じゃ「バイアス」は「平均や中央値からのズレ」でしかない。真実はウェブサイトの多数決で決まるんだ。そんなのクソみたいな認識論じゃん。
「すべての意見は平等」みたいな答えはいらない。全ての情報が同じように有益だとも、真実だとも思わないから。
もちろん、イラン人とかサウジ人とかスウェーデン人がどう思うかは知らんけど。
“highly ‘liberal’”って結果はないんだけど。ソース出してくれる?どこに当てはまるか見たいんだけど。
あと、俺は“Ambivalent Right”だった。俺のこと知ってる人に言ったら、まさにそれだって言うと思う。それに、俺の実際の意見は、最後の質問の答えと一致しないんだよね。
Pewは信頼できる調査機関なのに、この調査はマジで謎。質問と答えが曖昧すぎて、解釈次第で50/50になるものも多かった。
地球が6000年以上前のもので、平面じゃなくて、ワクチンが効くって言ったらバイアスがかかってるってことになるの?全てに「中立」な答えが必要なわけじゃないでしょ。もっとコメントを表示(3)
アメリカの有権者の約半分が選挙で”leaning left”じゃなかった理由の説明にはならないけどね。
EDIT:07:29 UTCで”Americans”を”American voters”に変更。
例えば、Trump以前は、trans womanは男だって言う科学的に sound な常識に反論したら ban されてた。だから、常識のある人は関わらないようにして、自己検閲して、生活してるんだ。
「お前は核爆弾の隣に一人で立っていて、爆弾は人口密集都市で爆発しようとしている。解除する唯一の方法は、n-word を hard r で叫ぶことだ。解除しなければ、何百万人もの人が死ぬ。残り時間は5秒だ。どうする?」
ソースは?
>最近のUSAIDの解体とその理由も見てみて。
政治的な動機のある行為は、“インターネットメディアの伝統的な構造が、実際の人口構成をうまく反映できていない”ことの証明にはならないよね。
MetaのLlama 3はだいたい1万6000個のH100を使って訓練されて、BF16精度でGPUあたり380–430 TFLOPSだったみたい。ハードウェア効率は38~43%ってことだね [Meta, Llama 3]。
Llama 4の訓練では、Metaは計算資源を2倍にして、だいたい3万2000個のH100を使って、FP8精度に切り替えたんだ。でも、精度が上がったのに効率は19.7%に落ちて、GPUは理論上の1,979 FP8 TFLOPSのうち約390 TFLOPSしか出してないんだって [Meta, Llama 4]。
批判するつもりはないんだけど、これだけの規模でGPUを動かすのはめっちゃくちゃ大変だってことだよね。何万個ものGPUで巨大なモデルを訓練するのは、今のAIインフラの限界に挑戦してるんだと思う。
推論の処理を速くするだけでなく、高度なGPU最適化を訓練や微調整のパイプラインに組み込むこともできるよ。色々なカーネル最適化技術(90以上!)から、メモリアクセスの効率を上げたり、クラスタ全体の資源調整まで、複雑なソフトウェアで効率を最大限にできるみたい。
参考:
[Meta, Llama 3]
https://ai.meta.com/research/publications/the-llama-3-herd-o…
[Meta, Llama 4]
https://ai.meta.com/blog/llama-4-multimodal-intelligence/