Googleが推論専用の新型TPU「Ironwood」を発表!NVIDIAを脅かす存在になるか?
引用元:https://news.ycombinator.com/item?id=43631274
最初に推論用に設計されたってマジ? 最初のTPUって推論専用じゃなかったっけ?
マジだよ。(当時Brainにいた)。それにしても、もう10年前かよ。マジか。
面白いことに、最初のTPUの設計は全結合ネットワークがベースだったんだ。CNNの登場で設計を見直す必要が出てきて、そのあとRNN(そしてTransformer)でまた見直すことになったんだよね。
だから、行列積演算ユニットとembeddingプロセッサの両方を持つ世界で、これが推論用に設計された最初のTPUだと言ってもいいかも。
あと、初代は完全にコプロセッサだったけど、後の世代は独自のネットワークファブリックを持つようになったんだ。今回の最新版も同じ。
だから、初代を全く別のものと考えるのも、あながち間違ってないと思うよ。
え、CNNが発明される前に、推論用にカスタムASICが必要だったの? 当時のユースケースってどんな感じだったの?
2016年のGoogleのブログ記事[1]によると、ユースケースは検索結果の関連性を向上させるRankBrainとStreet Viewだったらしい。AlphaGoにも使われてたね。修士論文の記憶では、Translateにも使い始めてたはず。
Attention is All You NeedとかBERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingにTPUの記述はないけど、2018年10月にはColabでTPUを使ってBERTのfine-tuningをしてたよ[2]。BERTのサンプルリポジトリで、TPUを使ったモデルのfitting方法が紹介されてたはず。だから自然言語の研究は2016-2018年頃はTPUじゃなくて、その後TPUに移行したんじゃないかな。間違ってるかもだけど、dgacmuの方が詳しいと思う。
[1]: https://cloud.google.com/blog/products/ai-machine-learning/g…
[2]: https://github.com/rikhuijzer/improv/blob/master/runs/2018-1…
そうそう、確か(間違ってたらごめん)、TranslateはSeastar(TPU v1)を使ってた。あれは整数のみだったから、学習には使いにくかったんだよね。
ちなみに、GoogleはカスタムASICやTensorFlowが登場するずっと前から、CPUベースの機械学習(大量のCPUを使って)を長い間使ってたんだよね。
特に大きかったのは、SmartASS(広告配信)とSibyl(その他すべて)だった。
GPUの価値について社内議論があって、ある有名なエンジニアが影響力のあるドキュメントを書いたせいで、Googleはアクセラレータが良い選択肢だってわかってたのに、太いCPUノードを使い続けたんだ。ImageNetが爆発的に普及した頃で、一部のエンジニアは音声認識のようなタスクの学習速度をデモするために、開発ボックスに複数のGPUを詰め込んでた。
Sibylは、カスタムASICのサポートがない頃からembeddingをヘビーに使ってて、TPUにはbarnacoreっていう限定的なembeddingサポートを追加するアドオンもあったんだ(embeddingはランキングを通じて利益を最大化するのに非常に役立つ)。
俺が聞いた話だと、既存のワークロードを動かし続けるために必要なコンピューティング能力をCPUサーバーで賄おうとすると、専用ハードウェアを導入する方が明らかに正当化されるレベルだったらしい。ビデオエンコードアクセラレータ[1]も同じ。
[1]: https://research.google/pubs/warehouse-scale-video-accelerat…
まあ、それは対外的な説明の一つだよね。もう一つの理由は、GoogleがNVIDIAのGPUに依存したくなかったから。NVIDIAのGPUはTPUよりも利益率が高いし、リソースの制約(常に一定量のGPUしか出荷されない)もあるからね。
あと、Googleは本当に高速な(低遅延)ネットワークを作らなかったから、多くのCPUジョブはネットワーク速度が遅いことを前提に、高い利用率と学習速度を維持するように設計する必要があった。Googleは結局、HPCやスーパーコンピューティングのコミュニティが何十年もかけて確立してきた教訓を社内で再学習することになったんだ。
> The big ones were SmartASS (ads serving) and Sibyl (everything else serving).
ああ、テック企業の社員がサービスをSmartASSって呼んで、それが許された時代か…
https://research.google/blog/the-google-brain-team-looking-b…は良い概要だよ。
Brainにはいなかったけど、Google社内でMLの専門用語に夢中になったのは、経営陣がなぜそんなに熱心なのかを知りたかったから。
初期の頃は、機械学習は何でも学習できる、コンピューティングの基本単位を置き換えるだろう、みたいな雰囲気だった。この考え方は、例えばhttps://research.google/pubs/the-case-for-learned-index-stru…に表れてる。
昔は今とは違うGoogleで、「3つの異なるチームが3つの異なるチップに取り組んでいる」っていうのは、Androidウェアラブルに取り組んでるチームが多すぎて、上層部がまとめるまでカオスだった、みたいな話に似てる。
今のGoogleは昔とは全然違う会社だよ。昔はもっと起業家精神があった。Wave時代がもっと良くなったバージョンで、いろんなものが勝手に立ち上がっていく感じ。MBAホルダーなら、2025年のトップダウンな今の会社の方がいいと思うけど、俺はそうじゃない。AppleとかOpenAIが6-12ヶ月前にやったことを完璧にこなすように調整されてるけど、リードはしない。投資としては確実に良いけど、平均的な職場としては悪いバージョンだと思う。BSに対する抗体ができてないから。(免責事項:Androidで働いてた)
Googleが変わったのは二つの要因からきてて、どっちもあんま楽しくないんだよね。でも、まあ理解はできる。
一つは、成熟した製品ラインへの移行。初期の頃は、GmailとかGoogle Maps (Where 2)とかYouTubeみたいに、ユーザーが喜ぶクールな新機能を作るのが目的だった。ユーザーの成長と獲得に焦点が当たってたんだよね。
それが飽和状態になって、収益性に焦点が移った。既存のユーザーからより多くの価値を引き出して、ビジネスを守るって感じ。その変化で考え方が大きく変わって、つまんなくなるんだよね。
もう一つは、市場の変化。Webも技術も成熟して、競争力のある製品を作るのに必要な投資が急増した。Googleは、より少ない矢に多くの力を注ぐ必要があって、そのためには、あちこちで突飛なことをしてる小さなチームを抑え込む必要があった。これもまた、楽しくはないけど、理解はできる。
CNNの登場で設計の見直しを余儀なくされて、RNN(そしてtransformers)の登場でまた見直しが入ったんだよね。
>RNNってTPUよりずっと前からあるよね?!
CNNもそうだけど、当時その人気が急上昇して、ハードウェアを最適化する意味が出てきたんだと思うよ。
RNNは当時もよく知られてたけど、最先端の成果を出してたわけじゃなかったんだよね。
ここの言い回しはすごく正確で、_推論の時代_のための最初のTPUってなってる。これは、CoTとかDeep Researchを指すために定義された新しいマーケティング用語なんだって。
うわー。それ見逃してた。
もっと正確で中立的な、マーケティングの常套句がないタイトルを誰か提案してくれない?
でも、そうじゃないよね?
>最初に推論用に設計されたって書いてある。10年以上もTPUはGoogleの最も要求の厳しいAIトレーニングとサービスワークロードを強化してきた…ってあるけど。
サービングって何だと思ってるんだろ?このマーケティングコピーは、何も知らない人が書いて、知ってる人が誰もレビューしてないんじゃないかな。
あと面白いことに、v4iへの言及を全部消してるみたいだね。iは推論のiなのに。
https://gwern.net/doc/ai/scaling/hardware/2021-jouppi.pdf
それ、笑っちゃったよね。オリジナルは確かに推論専用だった。
最初のやつは、それがうまくいくかっていう概念実証として設計されただけで、推論ワークロードに最適化されてたわけじゃないんだよね。たまたま、推論の方が簡単だったってこと。
機械学習レースで、チップ分野に正直な競争が出てきたね!どうなるかマジで興味ある。Nvidiaがこの分野でずっと’アンタッチャブル’だったから、状況が揺さぶられるのはいいね。
TPUは箱入りユニットとして販売されてないけど、GCPサービスなどを支えるハードウェアとしても、どうなるか見るのが面白いね!
Nvidiaがこの分野でずっと”無敵”だったみたいだったから、競争が激しくなるのは良いことだね。 >推論こそが長い目で見たら一番の稼ぎ頭になるんだよ。 Groqのトップが言ってたんだけど、Googleにいた時の経験だと、コンピューティングの10%以下がトレーニングだったって。 GroqってまだGPUベースのプロバイダーより高いんじゃないの? クラウドにしか存在しないハードウェアにワクワクするのは難しいな。いずれ廃棄されちゃうんだし。 競争がNvidiaにもたらすおかげで、クラウドGPUのワークロードの価格が下がることに興奮しない? 自分で所有したいんだよね。 クラウドがNVDAのチップを買わなくなったら、関連商品だから値段下がるよね。 価格設定は需要よりも競合他社に基づいてる。 え、GPUのジェネレーターも自社製なの? しかも、それの維持に時間とエネルギーがかかるんだよね。 お前は何も所有しなくなるけど、幸せになるんだよ。 マジでそれな。価値がどんどん下がるハードウェアなんて持ちたくないもん。オープンソースのソフトウェアも持ちたくないし、文化はパブリックドメインから生まれて貢献されるのが理想。 Nvidiaのクラウドインスタンスに競争相手が現れたね。TPUでベンダーロックインされて、出口戦略がない場合はどうなるんだろ?競争こそが価値創造の源泉であって、資本主義じゃないんじゃない? ベンダーロックインにはまらないように、もしはまっても抜け出せないなんて思わないで。絶対に抜け出せるから。 スイッチングコストは経済のいたるところにあるよね。測量は2回、切断は1回。同じ作業を2回やる前提で考えるのはナンセンス。 個人的には、動かないTPUが家に転がってる(笑) 量子コンピュータのニュースに全くワクワクしない?個人的には反対だなぁ。 ほんとそれ。Groqが社内で使ってるカードを販売してくれたらいいのに。 それ売るたびに赤字じゃね? この記事、シリコンバレーじゃなくてWall Street向けって感じだな。 Wall Street今めっちゃ忙しいから、タイミング悪いんじゃね? Preoccupy Wall Street運動の一部だったりして。 いやいや、めっちゃテック系の株に注目してるって。 Googleで働こうと思ってる人向けでもあるかもね。 これのユースケースって何? 投資家の心理的な意味で、文字通りの金融会社向けってわけじゃないよ。 ギャンブル^^^^ 市場をもっと“効率的”にする。 専用チップについてあんまり詳しくないんだけど、こういうチップってGoogleがAnthropicとかOpenAIみたいな会社より、LLMサービスを提供する上でコスト面で大きな優位性を持てるのか知りたいな。同じような技術はGoogleの競合他社も使えるのかな? GPUはpretrainingにはめっちゃいいけど、inferenceには非効率なんだって。なんでかっていうと、transformerが新しい単語を生成するたびに、モデルの重み全部をメモリから計算ユニットに移動させなきゃいけないから。700億パラメータのモデルだと、1単語生成するのに約140GBのデータを動かす必要があるんだってさ。GPUはoff-chipメモリだから、毎回チップとメモリの橋を渡る必要がある。CerebrasのAndrew Feldmanの話を聞くと違いがわかるらしいよ。彼はAI inferenceのハード売ってる会社のCEOだから、話半分に聞いとけって。 CerebrasとかGroqは、計算に使うダイが多すぎてメモリが足りないっていう問題があるんだよね。スケールする方法も、計算を物理的なスペースに広げるっていうやり方だし。これだとDCのスペース、電力、冷却がめっちゃ必要になるから大変。SC24でCerebrasの人に話を聞いたら、彼らの最大のお客さんはtraining用で、inference用じゃないんだって。なのにinference製品として売り出してるから、マジで謎。AMDがこの分野で何してるか、もっと言いたいけどMI4xxラインに注目しとけって。 めっちゃためになる意見ありがとう。Groqのアーキテクチャについて調べてたんだけど、彼らのチップはダイの大部分をon-chip SRAMに割いてるみたいで、普通のアクセラレータと比べるとかなり太っ腹だなって思ったんだよね。>[1]Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads — Fig. 5. Die photo of 14nm ASIC implementation of the Groq TSP. https://groq.com/wp-content/uploads/2024/02/2020-Isca.pdf” からするとダイの約40%がメモリに割り当てられてるように見えるんだけど、メモリが足りないっていうのは、絶対的な容量が今のモデルサイズに対してまだ足りないってことなのかな?それとも、inferenceのワークロードに対して、面積と帯域幅のトレードオフのバランスが悪いってことなのかな? >is it a matter of absolute capacity still being insufficient for current model sizes” リンクありがとう。全部チェックしたよ(時間かかったけど)。SRAMベースのシステム(CerebrasとかGroq)とGPUクラスターのラック密度の違いは理解できた。まだ理解できてないのは、経済性なんだよね。このベンチマークによるとhttps://artificialanalysis.ai/models/llama-4-scout/providers… おとり商法だよ。uberとかairbnbみたいなもん。経済性とか関係なく売上を計上して、それを担保に借金する。いつか顧客を囲い込むか、価格を上げるか、会社を売ることを期待してるんだよ。 >they told me their largest customers are for training, not inference” 方向転換っていうより、マーケティングでしょ。 いくつか間違った仮定があるね。まず、16bitは必須じゃない。それに、140GB/tokenになるのは、バッチサイズが1でシーケンス長が1(投機的デコードなし)の場合だけ。GPUでLLMをそんな風に動かす人はいないよ。そうすると、計算利用率がめちゃくちゃ低くなるから。バッチサイズが1より大きくて、投機的デコードを使うと、カーネルのarithmetic intensityがずっと高くなるから、重みがoff chipにあることはそんなに問題にならないんだ。 Groqのインタビューも良かったね。Groq/Cerebrasみたいな会社がinferenceをやって、Nvidiaみたいな会社は儲かるpretrainingビジネスに集中するっていう考え方みたいだね。https://www.youtube.com/watch?v=xBMRL_7msjY AnthropicってGoogleのTPU使ってるんだって。しかもAmazonとも組んで、AmazonのカスタムAIチップ使うデータセンター作ってるらしいよ。GoogleとAmazonはどっちもAnthropicに出資してるし。へー、色々あるんだね。 NVIDIA、今70%も利益出してるんだって。そんなプレミアム価格払わずに、NVIDIAの代替手段があるのはありがたいよね。どれくらいメリットあるかはまだ分かんないけど。 勘違いかもしれないけど、GoogleのAIモデル(Gemini)って、トレーニングも推論もNVIDIAのハードウェア全然使ってないんじゃない?GoogleがNVIDIAのハードウェアを大量に買ったのは、Google Cloudの顧客のためだけで、自分たちのためじゃないんだって。 Googleは他のハイパースケーラーより有利だよね。GoogleのAIデータセンターは、計算コスト効率がめっちゃいいらしいから(設備投資と運営費)。 TPUのおかげ?それとも他の要因? 他の要因も色々あるよ。GoogleがTPUハードウェア自体をクラウドサービスから提供できない理由の一つも、そこにあるんじゃないかな。TPUの効率の大部分は、顧客が簡単に再現できない外部要因に起因するんだと思う。 >Because of the TPUs, or due to other factors? 9216ノードもあるのに、3Dトーラスネットワークってパフォーマンス悪くない?レイテンシもかなりひどそうだけど。普通のスパインリーフの方がいいと思ってたんだけど、違うのかな。でも、レイテンシがすごいって言ってるんだよね。もちろん、証拠は全然ないけど。 3Dトーラスは、配線の複雑さとかコストとパフォーマンスのトレードオフだね。ノード数が多いと、ノードのすべてのペア間にワイヤーを張るわけにはいかないから、トーラスを使わない場合は、トラフィックを集約するスイッチやルーターのスタックが必要になる。それらの中間レベルとトップレベルのスイッチ/ルーターは非常に高価になり(高帯域幅クロスセクション)、ルーティングが少し面倒になる。3Dトーラスはケーブルがはるかに少なく、ルーティングは非常に簡単(「自分の行に到達するまで垂直方向にホップし、水平方向にホップして自分のノードを読む」)で、ラップアラウンド接続はいいね。 >most workloads would be nearest-neighbor そのギャンブルは外れたのかな?LLMのトレーニングって、全ノードを使ったcollectives(all-gather、reduce-scatter)を使うと思ってたんだけど。 彼らの選択は、優れたソフトウェアとハードウェアのエンジニアリングと組み合わさって、ML研究を最高レベルで革新し続けられるようにしてると思うよ。予算と複雑さの範囲内でね。 それって、電力密度がめっちゃ高いデータセンターってことだよね。普通のデータセンターが20kw/ラックなのに対して、100~1,000 kw/ラックの話をしてるんだから。冷却と電力供給が全然違うものが求められるよね。 >AIデータセンターって何? >GoogleのAI以外の効率は、Amazonとか他の会社と大差ないって? 10年前って結構昔だよね。KubernetesとかeBPF networkingとかも出てきたし。他の会社もハードウェアの利用率の差をかなり縮めてるんじゃないかな。 Nvidiaはデータセンター向けチップで60%くらいの利益率があるんだって。だから、TPUはNvidiaのGPUほど良くなくても、Googleがお金を節約できる余地は十分あるんだよね。AmazonはTrainiumチップをスケールし始めたばかりだし、他の会社は似たようなものを持ってないし。 MicrosoftもMAIA 100を持ってるよ。規模とか計画についてはコメントできないけど。 AI/LLM向けのチップは他にもあるけど、ASICってのは、特定のタスクごとに必要になるんだよね。いつかは均衡すると思うけど、今はCerebrasが得意なこと、TPUが得意なこと、GPUが得意なことがそれぞれ違うんだ。 いつか均衡するのかもわかんないよね。ムーアの法則が終わったから、特化が進むのは当然の流れだよ。 マジか、すごいけどベンチマークの変なゲームやめてほしいわ。なんでfp8のIronwoodと、ハードでfp8をサポートしてないアーキテクチャを比べるの?TPUv6を比較に入れないのはなぜ?El Capitanのfp64FLOPSとTPUポッドのfp8FLOPSを比べるのも意味不明じゃん?もっとコメントを表示(1)
マジで?MistralのLeChat(Cerebrasで動いてる)とGoogleのGemini(Tensorで動いてる)は、Nvidiaが推論で全然優位性持ってないこと、ずいぶん前にハッキリ示してたじゃん。
ハードウェアに何千億もつぎ込んだのは今までトレーニングに集中してたからだけど、推論こそが長い目で見たら一番の稼ぎ頭になるんだよ。
そうかなー。常に最新のデータ(例えばSNSの炎上とか)でモデルをファインチューニングするのが平衡状態になるんじゃない?
Google Cloudを使わなくても、競争が生まれるからみんな得するんだよ。
資本主義には賛成だけど、物理的な所有よりもレンタルとか、企業製の文化よりもパブリックな文化がいい場合も多い。
統合を構築する作業を評価するときは、常に2回やることになると思って。それが無理なら、最初からアウトソーシングすべきじゃなかったんだ。もっとコメントを表示(2)
これだよ。それに、モデルは小さくなるどころか、どんどん大きくなってるし、より多くのユーザーにとって役立つように、より多くのコンテキストが必要になるから、さらにメモリが必要になるんだよね。以前にこんな話もしたよ。https://news.ycombinator.com/item?id=42003823
DCの問題もあるかもだけど、ラック密度を見てよ…GPUの計算量とメモリ量を同じにするには、ラックのスペースが10倍必要になるんだ…https://www.linkedin.com/posts/andrewdfeldman_a-few-weeks-ag…
以前にもこんな話をしたよ。https://news.ycombinator.com/item?id=39966620
NV72とDell/CoreWeave/SwitchがEVO containmentで目指してる方向性と比べてみて…全然違うじゃん。AMDも同じようなことするかもね。https://www.coreweave.com/blog/coreweave-pushes-boundaries-w…
Groqは100万トークンあたりの価格がほぼ最安で、エンドツーエンドの応答時間もほぼ最速みたい。それって、スピード(レイテンシ)とコストはトレードオフだと思ってたから、ちょっと意外。GPUベースのプロバイダーが、もっと安くて遅い(レイテンシが高い)APIを提供できないのはなんで?それとも、Groq/Cerebrasが原価割れで価格設定してる(おとり商法)のかな?
それは気になるね。今は状況がどんどん変わってるから。ちょっと推測してみたけど、Cerebrasは市場に対応して、自社製品の強みと、推論、特に推論モデルの成長を組み合わせて方向転換しようとしてるんじゃないかな。
https://www.datacenterknowledge.com/data-center-chips/ai-sta…
https://www.semafor.com/article/12/03/2024/amazon-announces-…もっとコメントを表示(3)
そもそもAIデータセンターって何?GPUとかTPUのボックスは、他の建物と違う場所にあるの?
>Googleはいろんな面でデータセンターをうまくやってるんだよね。GoogleのTPUは3Dトーラスネットワーク使ってるし、液冷だし。
>What even is an AI data center?
>新しいAI設備は、従来のデータセンターよりもバリエーションやイノベーションが多いんだって。Googleの競合他社は、まだGoogleの進歩をすべて取り入れてないみたい。
>are the GPU/TPU boxes in a different building than the others?
>それは読んだことないな。新しいデータセンターをどんどん作ってるのは確かだけど、最初から純粋なAIワークロード用に設計されてるかどうかは知らない。
あと、AIデータセンターって何?って話だけど、マジでわからん。
とは言え、トーラスのアプローチは、ほとんどのワークロードが最近傍になるというギャンブルだった。allreduceは最適化するために特別な作業が必要。
>どうもありがとう、それこそ私が欠けていたパズルのピースです。ナイーブには、数千ものノードがある場合、通常のマルチレベルスイッチよりも3Dトーラスの方がはるかに多くのホップが必要になるように思えますが、ルーティングがはるかに簡単になることは理解できます。ただし、実際には輻輳を避けるためには、最も単純なルーティングソリューションを超える何かが必要になると思います。
>AIのトレーニングとか推論の負荷がめっちゃ高いデータセンターのことだよ。AIじゃないデータセンターは、どこも似たりよったり。GoogleのAI以外の効率は、Amazonとか他の会社と大差ないんだよね。Googleは、AIのワークロードを実行するのがめっちゃ得意なんだ。
>それはないと思うな。Googleはずっと効率のリーダーだよ。PUEを見てみろよ。10年前、Googleは平均PUEが1.12くらいだって発表したけど、業界平均は2.0近かったんだぜ。去年は平均1.1だって報告してる。他の大手よりずっと透明性があるんだよ。AWSは不透明だけど、平均1.2だって。追いつくのに10年かかったんだな。他の会社と同じレベルってのは全然違うよ。
[Edit: El Capitanの方が速いみたい。fp64はもっと遅いってことね。]
TPUの方が速いとしても、fp64がfp8より8倍難しいことを考えると、24倍速いって言うのは誇張じゃない?3倍速いを正直に言えばいいのに。なんかセコいよ。誤解を招くような言い方は詐欺師の手口じゃん。もったいない。