【朗報】深層学習って実はそんなに難しくない！？意外と身近な存在だった

【朗報】深層学習って実はそんなに難しくない！？意外と身近な存在だった

引用元：https://news.ycombinator.com/item?id=43390400

rottc0dd 2025-03-17T18:49:04

MLを深く学びたいなら、Stanfordの”Probability for computer scientists”がマジでおすすめ。
https://www.youtube.com/watch?v=2MuDZIAzBMY&list=PLoROMvodv4…
確率論とMLの理論的基礎を、他のどのコースよりも深く掘り下げてると思う。(Andrew Ngはレジェンドだけど、彼のコースは線形代数の知識が必要)。
あと、deep learningなら、3b1bが視覚的に理解するのにめっちゃ良いよ。
https://www.youtube.com/watch?v=aircAruvnKk&list=PLZHQObOWTQ…

chamomeal 2025-03-17T20:51:46

3b1bのニューラルネットのシリーズを数年前に見たんだけど、それが今でも自分のAIの理解の95%を占めてるわ。自分はMLの専門家じゃないけどね。あの人はマジで説明が上手い。不確定性原理に関する彼のビデオは、自分の学部時代の教育全体で理解できなかったことを説明してくれたんだから。

salviati 2025-03-18T08:00:19

＞あの人はマジで説明が上手い
この意見に異議あり。
彼が他の人より才能があるとは思わないな。彼は説明が上手くなるために、たくさんの時間と努力を費やしたんだと思う。フィードバックを考慮して、長年にわたって説明を改善してきたんだよ。彼のビデオが素晴らしいのは、彼が努力したからであって、才能があるからじゃない。自分の経験では、この能力に欠けている教授は、努力が足りないからであって、生まれつき持ってないからじゃない。

jmull 2025-03-18T12:55:15

前の人の”gift”っていう言葉の選択を深読みしすぎじゃない？ほとんどの場合、それは努力なしに得られた能力を伝える意図ではなく、ちょっと誤用された慣用句だと思うよ。

rottc0dd 2025-03-19T08:38:45

本当の天才は、重い記号操作をすべて視覚的なプロセスに翻訳して、人々が見て解釈できるようにすることだと思う。抽象的な演繹ではなく、一時停止して推論できる別の現実の視覚的プロセスを見ていることになるんだ。それがコンセプトを理解させるんだよね。

idiotsecant 2025-03-18T11:31:57

何かが非常に得意であるためには、才能があることが必要だけど、それだけじゃ十分じゃない。残りの85%は努力だよ。どんなに意欲があっても、その辺の人を連れてきて同じレベルの教育を受けさせられるわけじゃない。

123pie123 2025-03-18T13:50:00

才能があるか努力してるかのどっちか、あるいは両方かもしれないね。才能があることと、時間をかけて正しく理解することは、両立しないわけじゃないし。

eru 2025-03-18T06:04:55

3b1bはカリキュラムから始めるんじゃなくて、自分のスタイルに合ったトピックを選べるのが強みだよね。

nomel 2025-03-18T00:05:12

https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_6700…

rottc0dd 2025-03-18T04:12:14

以前書いたコメントから、テキスト版の情報。
CS109のコースリーダー[1]があって、pdf版をダウンロードできるよ。Caltechの優れたコース[3]の書籍[2]もあるよ。
[1]
https://chrispiech.github.io/probabilityForComputerScientist
[2]
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/
[3]
https://work.caltech.edu/telecourse

gnabgib 2025-03-18T07:37:37

それ、他の場所に投稿したからじゃないかな（よくあるミスだよね… HNだとコメントの全文が表示されないから、コピー＆ペーストすると省略記号だけになっちゃうんだ）。
https://chrispiech.github.io/probabilityForComputerScientist…
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/…

rottc0dd 2025-03-17T18:50:48

Caltechのlearning from dataもマジ良かったよ。もしMLの理論的な理解を求めてるならおすすめ。
https://work.caltech.edu/telecourse

abhgh 2025-03-18T09:34:40

あなたが言ってるYaser Abu-Mostafaの講座、マジでおすすめ。基礎を学ぶには今でもおすすめできるよ。数学と直感のバランスがすごく良いし、Abu-Mostafa自身が最高の先生。講義の最後に質問に答えてくれるんだけど、それがまた丁寧なんだよね。初心者には特に重要だと思う。ちょっと古い内容もあるけど、基礎としてはマジで固められる。

randomtoast 2025-03-17T19:34:44

Paul Grahamによると、どうやら“delve”って単語を使うのがChatGPTを使った最大のサインらしいよ。

tasty_freeze 2025-03-17T21:20:24

それ、マジで意味不明だわ。自分は“delve”って単語あんまり使わないけど、普通によくある単語じゃん。LLMが生成した文章だってバレるような、なんか普通じゃない使い方とかされてるのかもだけど、単語だけじゃ全然わかんない。

godelski 2025-03-17T22:18:05

ナイジェリア英語でよく使われる単語なんだって。RLHFタスクを外注してた場所でよく使われてたらしい。兄弟コメントにリンクがあるけど、ググってもすぐ出てくるよ。

dialogbox 2025-03-17T23:32:01

ネイティブスピーカーじゃないから“delve”って単語知らなかったけど、これで覚えたわ。ネットコミュニティはLLMから学んでるってこと？

godelski 2025-03-18T01:41:10

＞learning from LLM

それとも、お互いから学んでるのかな？

EGreg 2025-03-17T19:41:04

そんなこと言うやつは、Paul Graham（pg）本人だって言ってるようなもんだよね。

wincy 2025-03-17T19:37:41

それってどういうことなのか、記事で深掘りしてほしいな。

もっとコメントを表示（1）

treyd 2025-03-17T20:32:58

それってナイジェリア英語でよくある言い方だから。RLHFの調整作業をそこにアウトソースしてたからね。

Hugsun 2025-03-17T21:28:34

マジで！？ソースある？本当ならめっちゃ興味深いんだけど。

cratermoon 2025-03-18T00:08:58

https://www.theguardian.com/technology/2024/apr/16/techscape…

rottc0dd 2025-03-18T01:54:26

ネイティブじゃないんだけど、覚えとくわ。あー、それ使っちゃったことあるかも。意味が伝わるようにと思って。正しい使い方は何？何て言えばよかったの？

seizethecheese 2025-03-18T03:31:39

ネイティブだけど、正しい使い方だよ。「delve」は認識される程度には一般的だけど、アメリカ英語ではそんなに使わないから、AIが生成したのかと思った。

rottc0dd 2025-03-19T08:40:41

なるほどね。この場合、よく使うフレーズは何？兄弟コメントと同じ？

djmips 2025-03-17T23:47:53

じゃあChatGPTかナイジェリア人か、はたまた俺かってことか… :`(

HPsquared 2025-03-18T10:46:55

Deep Learningがテーマなら、’deep’って言葉を使うのは自然だよね。深堀りするって感じでさ。

sharpshadow 2025-03-18T20:05:41

俺にとっては、’eerie’って言葉を使いすぎなのが気になるんだよね。マジで。

pyinstallwoes 2025-03-18T09:24:53

その通りだね。理由はこうだよ。

amelius 2025-03-18T09:49:16

ナンセンス。Chatgptがその言葉をよく使うのは、みんながよく使うからだろ。

tzs 2025-03-18T17:27:46

どうやら地域差があるみたい。アメリカ英語ではあんまり使わないけど、アフリカ英語ではよく使うらしいよ。LLMのトレーニングには大量の人間によるフィードバックが必要で、LLMメーカーはコスト削減のためにアフリカに外注することが多いんだって。それでLLMがアフリカ英語を拾って使うようになるんだってさ。詳しくはこの記事[1]を見て。
[1]
https://news.ycombinator.com/item?id=43394220

andirk 2025-03-18T00:03:36

全部見たよ。サンキュー！UC Berkeleyの修士課程CS:AIプログラムには頭が悪くて入れないんだけど、確率のクラスの初日を見たとき、まるでそのプログラムが始まったみたいに感じたよ。AIの旅を始める人にオススメなのはこれ。
https://www.youtube.com/watch?v=_xIwjmCH6D4
。最初のステップが”Pythonを学べ”だから、中級レベルのCS知識は必要かも。

vcdimension 2025-03-17T21:34:50

この投稿の論文で言及されている統計的概念（VC-dimension, PAC-learningなど）をもっと深く掘り下げたい人は、この本がお勧めだよ。
https://amzn.eu/d/7Zwe6jw

bogeholm 2025-03-17T20:54:34

良さそうだね。文章版はあるの？

rottc0dd 2025-03-18T02:32:38

CS109のコースリーダーがあるよ[1]。PDF版をダウンロードできる。
それから、caltechの素晴らしいコース[3]のための本[2]もあるよ。
[1]
https://chrispiech.github.io/probabilityForComputerScientist…
[2]
https://www.amazon.com/Learning-Data-Yaser-S-Abu-Mostafa/dp/…
[3]
https://work.caltech.edu/telecourse

cgdl 2025-03-17T17:20:51

確かにそうかもね。でも、PAC‐BayesとかVC理論の派生って、一番いい説明とは言えないかも。アルゴリズムの安定性の方がずっと説得力あると思うよ。[1]の11節と12節あたりを見てみて。

bigfatfrock 2025-03-17T17:26:13

HNが好きな理由の一つは、こういうOPの投稿やプロダクトを、もっと良いものでぶっ壊すようなレスがあることなんだよね。少なくとも半分はそれが理由でここにいる。良い記事をありがとう。

singulargalaxy 2025-03-18T01:36:55

そうそう、しかも「より良い」ってわけじゃなくて、OPと違って最適化とかGDに頼ってるから、実際には汎用性低いんだよね。

singulargalaxy 2025-03-18T01:34:53

それは違うと思うな。あなたのリンクは勾配降下法（gradient descent）を説明に使ってるけど、OPはDLの汎化を理解するのに最適化は必要ないって説明してる。PAC‐BayesとかもVC次元とは全然違う。OPのポイントは、VC次元と違って、他のフレームワークは仮説空間がどれだけ柔軟でも汎化を説明できるってことみたい。

もっとコメントを表示（2）

cgdl 2025-03-19T04:32:42

そう、それが問題なんだよね。[2]でZhangらがはっきり示したのは、仮説空間だけに注目するのは不十分だってこと。なぜなら、同じ仮説空間は現実のデータにもランダムなデータにも適合しちゃうから、すでに大きすぎる。だから、仮説空間に注目する方法は、より良い部分空間へのバイアスについて語る必要があって、そのためには、特定の仮説を選ぶ理由を理解するために、特定の最適化アルゴリズムを研究する必要がある。でも、そこまでやるなら、アルゴリズムの安定性で十分。ベイズアンサンブルとか他のプロキシや単純化について考える必要はなくなる。アルゴリズムの安定性は新しい考えじゃなくて、VC理論の数年後に、近傍探索法が汎化する理由を理解するために登場したんだ（当時はそう呼ばれてなかったけど）。興味があったら[3]もおすすめ。

singulargalaxy 2025-03-20T01:47:46

でも、それは問題じゃない。OPの説明がより一般的であることは良いことなんだよ。OP論文の主なポイントの一つは、プロキシや単純化が必要ないということ。最適化の動特性に頼らなくても、この挙動を説明する汎化境界を導き出すことができる。これはZhangらのテストに正確に対応してる。OPは”ベイズアンサンブルとか他のプロキシや単純化”に頼ってない。それは論文の誤解だと思う。ニューラルネットワークが実際に到達するソリューションを分析している点が、他の多くの研究と異なるところ。また、他の単純なモデルクラスが同じ挙動を再現する方法も示していて、これらの再現は最適化に依存していない。
”なぜ特定の仮説をその空間から選ぶのかを理解するために、特定の最適化アルゴリズムを研究する必要がある”って言うけど、OP論文は、”ヤマ勘”でもSGDと同じように汎化できることを説明してる。DLの汎化を理解するために、最適化アルゴリズムの役割は歴史的に過大評価されていた可能性があることが、より良く理解されるようになってきている。それは損失地形（loss landscapes）についてのことみたい。
誤解しないでほしいんだけど、あなたがリンクしてるこれらの参考文献はとても興味深いものだよ。でも、OP論文から何かを奪うものではないし、OP論文は議論に非常に価値のあるものを追加している。

esafak 2025-03-17T19:45:17

統計力学のレンズが一番しっくりくるし、よく研究されてるよね。

mxwsn 2025-03-17T18:04:17

良い記事だね、シェアしてくれてありがとう

TechDebtDevin 2025-03-17T17:41:35

MLをわかりやすくしたいなら、Josh Starmerの”The StatQuest Illustrated Guide to Machine Learning”を読むべきだよ[0]。Starmerほど複雑なアイデアをわかりやすく説明できる先生はいないと思う。まるで子供向けの本みたいで読みやすいんだ。NNに関する本も出版してるし、 эксперт でも教え方や伝え方の参考になると思うよ。
[0]: https://www.goodreads.com/book/show/75622146-the-statquest-i…

Lerc 2025-03-17T19:50:19

StatQuestとか他の動画も結構見てるよ（トレッドミルでYoutube見るのは運動にも勉強にもなるし最高）。
一つの情報源だけじゃなかなか理解できないけど、色々見ることで互いに補完しあえるんだよね。Serrano Academyも参考になるよ。
https://www.youtube.com/@SerranoAcademy/videos
良いチュートリアルは、先生が原理をちゃんと理解してて、それがどうして応用できるのかを明確に示してくれる。そうじゃないのも結構あって、’Xをするには、{数式}’って言うだけで、なぜ{数式}が正しいのか理解してないんじゃないかって思う時があるんだよね。細かいことを説明するだけで、何をしてるのか理解したことにはならないんだ。
UMAPを見てた時に特にそう思った。数学的な細かいことばかり説明して、なぜそれを調べてるのか説明がないんだよね。Leland McInnesの講演は違った。
＞{数式}は{目的}を達成するためのツール。動くことは証明されてるし、使えれば理解しなくてもいいけど、知りたければ情報はあるよ。これが目的だから、ツールを使おう。
ツールは魔法のブラックボックスでもないし、目的と混同されることもない。トピックを完全に理解するってこういうことなんだなって思った。

ajitid 2025-03-17T19:42:55

YouTubeチャンネルもあるよ
https://youtube.com/@statquest

getnormality 2025-03-17T17:49:46

＞過学習を避けるために仮説空間を制限するのではなく、データと矛盾しない、より単純な解を好む柔軟な仮説空間を受け入れるべきだ。この原則は多くのモデルクラスでエンコードできるため、ディープラーニングは他のモデルクラスほど神秘的でも異質でもない可能性がある。
ディープラーニングはどうやってこれを実現してるんだろう？前に機械学習に深く関わっていたときは、ペナルティ付きの尤度アプローチを使ってた。モデル空間でコスト関数を最適化して、モデルの予測とデータ間の差とモデルの複雑さを定量化する2つの項の合計がコスト関数だった。これはまさに”データと矛盾しない、より単純な解を好む”ことをエンコードしてるけど、ディープラーニングもそうなのか？ディープラーニングでの複雑さのペナルティはもっと複雑で、直接的じゃない印象がある。

whiteandnerdy 2025-03-17T19:32:43

その通り。探してる言葉は”正則化”だよ。
一般的な方法は2つある。
・L1またはL2正則化：重み行列が複雑なモデル（大きな要素がたくさんある）にペナルティを与える。
・Dropout：ニューロンのランダムなサブセットで学習させて、重み全体に分散した単純な表現に頼るように強制する。

levocardia 2025-03-17T20:19:51

Dropoutはレイヤー固有のL2正則化とほぼ同じ。漸近的には、ランダムなニューロンをドロップアウトすると、重みをその(二乗)の大きさに比例してゼロに近づけるのと似た効果が得られるからね。
Trevor Hastieの”Elements of Statistical Learning”には、(線形モデルの場合)L2正則化が次元削減と半ば同等であるという証明がある。これを深層学習における”単純さの事前分布”の動機付けに使える。
別の考え方として、ReLUユニットの場合、ReLUのレイヤーは特徴空間に打ち切られた超平面基底(スプラインみたいだけど高次元)を形成し、正則化はこのN次元基底を平坦な超平面に縮小することで滑らかにする。

whiteandnerdy 2025-03-18T10:42:11

マジか！最初のパラグラフはなんとなく直感的に理解してたかも。2つ目のパラグラフは方向性としてはわかる(L1の方がゼロを促進するから、部分空間を選ぶみたいでよりそうかなと思ってたけど)。
3つ目のパラグラフは理解するのに時間がかかったよ。正則化はハイパースプラインの結合点で”鋭い角”があることを罰するってこと？それってすごい発想だし、ReLUレイヤーが何をしてるかを考える上で面白い方法だね。
考えさせられるコメントありがとう！

jonathanhuml 2025-03-17T20:18:51

L1正則化の解は、実は深層学習で使われる古典的なReLU非線形性の特定の形なんだ。他の非線形性でも同じことが言えるかわからないけど、閾値処理が数学的に何をしているのか理解するのに役立ったよ！

chriskanan 2025-03-17T20:43:33

データ効率の良いVision Transformersの例だよ。https://arxiv.org/abs/2401.12511
Vision Transformersは仮説空間が柔軟だけど、畳み込みネットワークよりサンプル複雑性が悪くなりがち。畳み込みネットワークは強い構造的な帰納バイアスがあるからね。
ソフトな帰納バイアスは、この論文みたいにVision Transformersを初期化する特別なスキームを持つことかな。初期化みたいなスキームは、モデルが過度に制約せずに正しい解決策を見つけるように促すから、より単純な解決策に対するソフトな好みになるんだ。

bornfreddy 2025-03-17T18:38:44

俺もグルじゃないけど、間違ってたら誰か訂正してくれるはず(笑)
教師ありMLの普通のアプローチは、モデル（レイヤー、パラメータ）を”発明”するか、既知の良いリファレンスからコピーして、コスト関数を定義してデータを投入することだよね。”Deep” learningは、レイヤーを少数使う代わりに大量に使うってこと。
それってアーキテクチャを自動で調整する方法ってこと？やったことないけど、アルゴリズムにそれをやらせるにはコストが高すぎるからね。でも、このアプローチは使われてるのかな？

woopwoop 2025-03-17T19:09:58

彼らが批判してる論文「Understanding deep learning requires rethinking generalization」の結果を再現するのは簡単だよ。明示的な正則化とか、「より単純な解決策に対するソフトな好み」と簡単に説明できるものなしにね。

eli_gottlieb 2025-03-22T16:15:43

それってただの正則化された最適化で、実際にはベイズ学習規則であり、実際には変分ベイズに過ぎないんだ。

smus 2025-03-18T07:12:22

AdamWオプティマイザ（最近のDLでは基本的にデフォルト）はまさにそれをやってるんだ。

inciampati 2025-03-17T17:57:01

「Deep」ネットワークが必要な興味深い例が、RNNに関する最近の人気の論文[1]で議論されているよ。彼らが提案するminGRUやminLSTMモデルは、明示的に順序付けられた状態依存性をモデル化してないけど、十分にDeepなら（deep >= 3）学習できるんだ。
＞代わりに、以前の状態への依存性を明示的にモデル化して長距離依存性を捉える代わりに、これらの種類のリカレントモデルは複数のレイヤーを積み重ねることで学習できます。”
[1] https://arxiv.org/abs/2410.01201

fastball 2025-03-18T11:28:23

まあ、Mysterious LearningとかDifferent Learningとは呼ばれてないからね。
実際、世の中には誤称がたくさんあるけど、Deep Learningはかなり良い名前だと思うよ。トレーニングデータと結果の重みが十分に複雑で、学習プロセスだけを見ても結果のシステムを理解するには十分じゃないってことをちゃんと伝えてると思うな(他の”Deepじゃない”機械学習とは違ってね)。

d_burfoot 2025-03-17T23:42:56

DNNには特別な汎化能力はないよ。どちらかというと、SVMみたいな数学的原理に基づいた手法よりも汎化能力は弱いかも。
UCI Machine Learning repo[0]の「Wine Quality」データセットみたいな古典的なML問題をDNNで解こうとすると、ひどい結果と過学習になるよ。
LLMの”魔法”はトレーニングパラダイムから来てるんだ。最適化が単語予測だから、事実上コーパス内の単語数と同じデータサンプルサイズになるんだよ。膨大なデータセットに対してトレーニングしてるから、比例して巨大なモデル（例えば400Bパラメータ）を過学習なしに使えるんだ。この巨大なモデルの複雑さがGPTの驚くべき能力を生み出してるんだ。
10年前には明らかじゃなかったのは「再利用性」の原則だよ。LLMパラダイムを使ってトレーニングした巨大なモデルが実用的な価値を持つだろうって考え。単語予測マシンを作って何が嬉しいんだ？って思うかもしれないけど、単語予測から学んだコンセプトは、関連するNLPタスクに再利用できるんだ。
[0] https://archive.ics.uci.edu/dataset/186/wine+quality

もっとコメントを表示（3）

yomritoyj 2025-03-18T07:57:43

これを見てみるといいかも。ランダムなラベルを記憶できるだけの容量を持つニューラルネットワークモデルでも、実際のデータを与えられた場合はうまく汎化できるんだ。
Zhang et al (2021) ‘Understanding deep learning (still) requires rethinking generalization’
https://dl.acm.org/doi/10.1145/3446776

buffalobuffalo 2025-03-17T19:26:36

Deep Learningを始めた頃、普遍近似定理の証明を学ぶのがすごく役立ったんだ。ニューラルネットワークが関数を近似できる理由を理解すると、その上に構築されたものがすべて理解しやすくなるよ。

woopwoop 2025-03-18T14:06:15

10年前の論文「Understanding deep learning requires rethinking generalization」[0]へのレスポンスって感じみたい。
Deep neural netsは、過剰なパラメータがあっても汎化性能が高いのが特徴で、学習データにオーバーフィットしないんだって。hold-outデータや未知のデータでも性能が良いことが多いらしい。
論文[0]では、ランダムなラベルでも学習できるって指摘されてる。過剰な適合を防ぐ強い帰納バイアスはないみたい。
この論文では、それが当然だって主張してる。柔軟な仮説空間と、データに適合することを要求する損失関数、そして単純さを優先するバイアスがあれば、どんな学習アルゴリズムでも起こりうるって。
でも、3つ目の条件が満たされるのは自明じゃないし、まだよく分かってないよね。[0]の結果は、様々なアーキテクチャで再現可能で、明示的な正則化があってもなくても同じ。もしDeep neural netsに単純な解を求めるバイアスがあるなら、それはSGD自体から来るか、アーキテクチャにすごく一般的なバイアスがあるかのどっちかだと思う。
SGDによる暗黙的な平滑化に関する研究もあるけど、[0]で観測された現象を説明するには不十分だと思うな。Benign overfittingを取り除くablation studyがあれば嬉しいけど、どうすればいいか分からないから、まだ誰もやってないんだよね。
(+) ＞分かりやすく言うと、モデルは汎化するけど、ランダムなラベルには適合しなくなるってことじゃなくて、＞”モデルがholdoutデータに対して意味不明な結果を返す”ってこと。

theahura 2025-03-18T15:51:02

それって、dropoutとかl2ノルムみたいな正則化テクニックから来るんじゃないの？

woopwoop 2025-03-18T16:21:47

Benign overfittingを再現するのに、それらは必須じゃないよ。

YesBox 2025-03-17T18:42:30

これ試してみたいんだよね。
1) 大量のテキスト(書籍とか)を用意する。
2) 各単語について、次のN個の単語との距離を記録して、単語ペア/距離のカウントを増やす。
3) 各単語について、各N距離で最も頻繁な単語を記録する。[a]
4) ユーザーの入力から、次の単語(または単語のセット)を予測するアルゴリズムを作成する。基本的には、単語ペア/距離を比較して、最も可能性の高い次の単語(または単語のセット)を見つける感じ。
これってGPT 2にどれくらい近いかな？
[a] ＞もっと進んで、各距離に対して複数の単語を頻度順に格納することもできる。

0cf8612b2e1e 2025-03-17T20:09:40

スケーリングがマジでエグいんだよね。2万語の語彙で3グラムやろうとしたら、20000^3の行列が必要になる(8兆)。ほとんど空っぽになるけど。
GPTとかは、各単語を個別にモデル化するんじゃなくて、高次元の”embedding”(新しい語彙が不要ならただのベクトル)を使ってる。embeddingは、類似した単語をこの空間内で近くに表現するんだ。有名なking-man-queenの例みたいにね。だから、トレーニングセットに”The Queen ordered the traitor ”がなくても、”The King ordered the traitor beheaded”を見たことがあれば、ベクトル表現によって、具体的な例がなくても類似した概念を表す単語を使うことができるんだ。

andrewla 2025-03-17T20:50:43

重要なのは、LLMはトレーニング中にembeddingを入力として受け取らないってこと。トークンを受け取って、トレーニングの一部としてembeddingを学習するんだ。
特にTransformerベースのモデルは全部そうで、古いモデルはword2vecとかelmoを使ってたけど、今のLLMは全部embeddingをゼロからトレーニングしてるよ。

naasking 2025-03-17T22:54:26

トークンはバイトレベルまで下がってきてるね。
https://ai.meta.com/research/publications/byte-latent-transf…

YesBox 2025-03-18T00:16:25

ありえない組み合わせを全部割り当てる必要はないんじゃない？見つけたら新しいペア/距離を動的に追加すればいいと思う。簡単なforループで。

currymj 2025-03-18T02:34:11

これ読むと面白いかも。20年前の最先端技術をまとめた今年のドキュメント。
https://web.stanford.edu/~jurafsky/slp3/3.pdf
基本的には、コーパスに実際にあるすべてのn-グラムをカウントして、0のところを簡単なルールで確率を平滑化するだけ。

docfort 2025-03-17T18:51:22

最近の研究[0]で、このアイデアを探求してて、word2vecベクトルを使って類似性を理解しながら、n-グラムモデルを大幅にスケールアップしてる。著者がCreativity Index [1]と呼ぶものを計算するために使用されてる。
[0]:
https://infini-gram.io

[1]:
https://arxiv.org/abs/2410.04265v1

mchinen 2025-03-18T08:57:05

Claude Shannonもこの手のことに興味持ってて、英語の文字とか単語のエントロピーに関する論文書いてたんだよね。有名な”A Mathematical Theory of Communication”にも、いくつかの本から前のn=1,2個の単語に基づいて次の単語の条件付き確率を使う実験があったよ。条件付きエントロピーは、エルゴード性仮定するとnが増加するにつれてゼロに近づくのかな？でも条件付き確率テーブルのエントリー数は指数関数的に爆発するよね。複数の異なる距離のn=1を組み合わせるってのは面白そうで、contrastive predictionのml手法をちょっと連想させるかも。
Shannonの論文の実験は、データ量とか距離は少ないけど、あなたが説明してることと似てるから参考になるかも。
テキストから引用：
＞最初の単語近似。
＞tetragramとかn-gram構造を続けるよりも、単語単位にジャンプするのが簡単で良い。
＞ここでは単語は独立して選ばれるけど、適切な頻度で使用される。
＞REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NAT-URAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE。
＞2番目の単語近似。
＞単語の遷移確率は正しいけど、それ以上の構造は含まれていない。
＞THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED

currymj 2025-03-17T18:45:32

これって90年代から2000年代の言語モデルの仕組みにかなり近いよね。deep language models、GPT 2とかはもっとずっとすごいけど。一方で、n-gram言語モデルはnが小さくても意外と使えるんだよね。

bob1029 2025-03-18T10:04:13

それに、attention mechanismはコンテキスト長に対して2次関数的にスケールするんだよね。これが莫大なメモリ帯域幅が必要になる原因なんだ。

pyinstallwoes 2025-03-18T09:37:08

すべてのものは、他のすべてのものとの共起頻度との正確な関係において意味を持つんだよね。
俺も同じこと考えてたんだ。単語から単語へ、段落から段落へ。文字から文字へも。
あと、テキストを信号空間で処理したらどうなるんだろう？それって可能なのかなってずっと思ってる。そうすれば、ウィンドウじゃなくて一度にすべてを取得できるじゃん。すべてのページの変更の微分を使用すると、位相空間はエンドツーエンドの信号になる。

janalsncm 2025-03-17T20:08:31

問題は、Nにある程度の値(>100)を設定すると、途方もない量のストレージが必要になるってこと。しかも、めちゃくちゃスパースになるし。N-99とN-98の間の相互作用も捉えられない。
Transformersはそれをかなりうまくやってくれるし、トレーニングもかなり効率的だよ。

montebicyclelo 2025-03-17T18:57:38

＞GPT 2にどれくらい近いかって？
2015年の投稿だけど、これと似たようなことをしてる人がいるよ[1]
[1]
https://nbviewer.org/gist/yoavg/d76121dfde2618422139

fsndz 2025-03-17T22:37:47

2021年に聖書で似たようなこと試したことあるけど、scalingがマジで大変。この手のモデルのトレーニングはマジで難しい。

procaryote 2025-03-18T08:25:11

厳密には同じじゃない？GPTは現在のコンテキストの状態に基づいて、確率とランダムな要素に基づいて次のトークンを選択する。それって数学的にはMarkov chainと同等じゃない？

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。