メインコンテンツへスキップ

強化学習の数学的基礎とは?初心者でも理解できる新たな学びの扉を開こう!

·1 分
2025/03 強化学習 数学 AI 学習 入門

強化学習の数学的基礎とは?初心者でも理解できる新たな学びの扉を開こう!

引用元:https://news.ycombinator.com/item?id=43323946

eachro 2025-03-11T06:07:57

OpenAI Gymの時代、RLの魅力の一つは、初心者でも扱いやすい小さな環境があったことだよね。CartPoleで試してみたりして。ただ、LLMの分野ではそういった簡単に試せる環境があるのかな?見た目には、このモデルをいじるにはすごいGPUが必要な気がするんだけど、例えば普通のMacBook Airで何かできることはあるのかな?

al_th 2025-03-11T08:16:46

全然できるよ。私はRLに詳しくないけど、Deepseekの最新モデルの背後にあるGRPOについて理解したいと思ったんだ。最初はAndrej Karpathyの”GPT from scratch”の動画からインスパイアを受けて、シンプルなLLMを作ったんだ。それからGRPOアルゴリズムを追加したけど、これはすごくシンプルだよ。GitHubにもリポジトリ作ったから、試してみて!

363849473754 2025-03-11T12:10:11

GRPOのプロジェクトは面白いね。Karpathyスタイルの解説をしてくれないかな?アルゴリズムをゼロから分かりやすく説明してもらえるといいんだけど。

currymj 2025-03-11T15:40:44

PPOについての資料を探すといいよ。これは最も人気のあるRLアルゴリズムで、GRPOも同じ原則で動いているけど、サンプルからの推定を行うところが違うんだ。

zqy123007 2025-03-11T00:51:02

Pieter AbbeelによるDeep RLの基礎に関する6回の講義シリーズは非常におすすめだよ。とても良い概要と直感を提供してくれるから。
https://youtu.be/2GwBez0D20A

dualofdual 2025-03-10T19:21:17

強化学習や関連トピックに関する最高の講義はDimitris Bertsekasによるものだよ。
https://web.mit.edu/dimitrib/www/home.html

rybthrow2 2025-03-10T19:32:16

DeepmindのAlphaGoで有名なDavid Silverの講義もいいよ。
https://www.youtube.com/watch?v=2pWv7GOvuf0

esafak 2025-03-10T19:44:56

彼の本は私の意見ではちょっと堅苦しいし、研究者向けって感じだね。新しいRLに関する本があるよ。
https://web.mit.edu/dimitrib/www/RLCOURSECOMPLETE%202ndEDITI

joe_lin 2025-03-10T20:59:42

私は研究者なんだけど、実用面に関するコンテンツを探してるんだ。この講義から始めるべきか、他に何かおすすめある?例えば、LLMでのRLに興味があるけど。

esafak 2025-03-10T22:13:24

まだ読んでないけど、包括的な参考資料に見えるね。より応用的な扱いを見たいなら、”Foundations of Deep Reinforcement Learning”がいいよ。
https://slm-lab.gitbook.io/slm-lab/publications-and-talks/in
ただ、どちらもLLMには触れていないみたい。文献をあまり追ってないからウェブサイトを通じて論文を読んでみて。
https://github.com/WindyLab/LLM-RL-Papers

richard___ 2025-03-10T22:46:17

いや、それは古いし変なことに焦点を当ててるよ。PPOを彼の教科書から理解できるとは思えない。

cplat 2025-03-11T04:02:21

どの側面?基礎的な教科書は原則に焦点を当てるし、必ずしも実装とは関係ないから、そんなに「古くならない」よ。

forkerenok 2025-03-10T20:17:27

提出された資料を見たことがあるか、もしそうなら、あなたがリンクした資料より劣る理由を具体的に教えてくれませんか?キャッチしようとしてるわけじゃなくて、本当に興味があるんだ。

lemonlym 2025-03-10T20:32:31

RLに関する別の優れたリソースはMykel Kochenderferの一連の教科書だよ。
https://algorithmsbook.com/

noobly 2025-03-10T20:50:59

これらの本は全てRLなの?決定論の本は持ってるけど、他の本はRLとは関係ないと思ってた。

jvanderbot 2025-03-10T23:03:17

彼(著者)は政策ベースの計画に強い傾向がある、とでも言おうか。

jgord 2025-03-11T00:34:12

非常におすすめだよ。主要な内容の図はRL全般の素晴らしい視覚的概要だし、30分のイントロのYouTube動画も同様だね。RLを使って実世界の問題を解決する超成長スタートアップがたくさん出てくることを期待しているよ。今はLLMに全部注目が集まっているけど、VCたちがRLの会社を特に見ていないのは驚きだ。

RiDiracTid 2025-03-11T13:53:44

RLは本当にクールだけど、決定的な成長を見られるとは思わないな。2012年から2019年のAI研究の期間には、DeepMindがRLに集中して多くの興味深い仕事をしたけど、特に革命的なものは無かったし、OpenAIに追い抜かれてしまったんだ。RLは役立つツールだけど、LLMs以外での特別な進展は望めないと思う。

almostgotcaught 2025-03-11T04:45:30

>スタートアップがRLを使って実世界の問題を解決する超成長が期待できるって言ってるけど、人々の市場予測がちょっと笑えるよ。Suttonの本は1999年に出たし、もう革命的ではないのに「超成長」なんて見てないよ。理由は、スーパーマリオをプレイするモデルは訓練できても、実際の問題を解決するには使えないから。
https://www.google.com/books/edition/Reinforcement_Learning/

jgord 2025-03-11T06:35:53

確かに、ニューラルネットワークはずっと昔からあるけど、今はLLMsにとって有用になってきてる。アイデアには磨きがかかるまで時間がかかるし、エンジニアの間に浸透するまで時間が必要なんだろうね。「RLが実世界の問題を解決できない」というのは、その問題が例えばプロテイン折り畳みや高温核融合プラズマの安定化などの有用な問題だと言える。今、点群から3Dのジオメトリを見つけるのにRL手法を使っているけど、実際に多くのスタートアップがRLを使っているとは言えないな。

もっとコメントを表示(1)
almostgotcaught 2025-03-11T07:30:27

12ヵ月後にもっとRLスタートアップが出てこなかったら、文句言いに来てね!1999年は26年前だけど、やっと今年は飛躍する年かな。> もしかしたら、アイデアが磨かれたり広がるのに時間がかかるからかも。ただ、計算能力やGPUが十分強化されたからかもしれないし、もしかしたら間違ってて無意味かもってこともあるかもね。

bitvoid 2025-03-12T05:58:52

1967年は58年前で、その時に最初の深層ニューラルネットが確率的勾配降下法で訓練された。でも、DNNは2010年代になってハードウェアが強くなってデータも豊富になってから実用化したんだよね。

auggierose 2025-03-11T12:10:51

ここで君はつまずいてるよ。だからノーベル賞受賞のRLの例には答えないのかな。

bglazer 2025-03-11T13:08:05

AlphaFoldのことを話してる?それはRLは使ってないよね?

auggierose 2025-03-11T13:21:10

それは使ってると思うよ:
https://juanraul8.github.io/master-praktikum/

smokel 2025-03-11T06:08:02

強化学習は実際の問題に適用するのが難しいけど、OpenAIのような会社の成功は否定できないよ。

bitvoid 2025-03-11T13:54:03

> 現実の問題を解くためには使えない
Waymoとか他の自動運転システムは強化学習を使ってるんじゃないの?ロボティクスにも使われてると思ったけど(つまり二足歩行や四足歩行の動きのこと)。

currymj 2025-03-11T21:07:20

概ね君は正しいけど、多腕バンディットアルゴリズムは実践でとても有用だよ。これは特別なRLの一種だし。バンディットアルゴリズムの適用の拡張もあるし、推薦システムにも関わってる。RLの現実世界の応用を探るならここがポイントだね。

CamperBob2 2025-03-11T15:41:01

FYI、マクスウェルの論文は1865年に出たけど、1896年にはマルコーニのラジオが登場した。でも、まだ何も受信できず、雑音しか出てない。その理由は、電磁場を電流の変動で操作できても、現実の問題を解決するには使えないからだよ。

kristjansson 2025-03-10T20:43:45

Murphyの作業中の教科書も、RLに特化してることをお忘れなく。彼の優れたML教科書の成果なんだ。

ivanbelenky 2025-03-10T21:50:03

いいリソースだね!もし興味があれば、Suttonの本の内容を大体実装したよ! https://github.com/ivanbelenky/RL

Iwan-Zotow 2025-03-11T03:05:52

ありがとう、良さそうだね。

Culonavirus 2025-03-11T08:14:53

>この本は、ある程度の確率論と線形代数の知識が必要なんだって。
これを聞くといつも笑っちゃう。「まあ、ある程度ね」って言っても、数学オタクが書いてるからあまり当てにしない方がいいよ。普通のプログラマで普通の数学力の人(自分みたいな)には注意が必要だね!

sigmoid10 2025-03-11T08:29:02

普通は、CSやEEの大学生レベルなら、未経験でも簡単に理解できるはずだよ。数学や物理の学位には遠く及ばないけど、独学のプログラマに期待するよりは少し上だね。

Culonavirus 2025-03-11T21:10:46

自分は自己学習じゃないけど、15年前にCSの学位を取った時、線形代数やグラフ理論、統計の必修コースはあったのに、実際にはほとんど使わなかったな。アルゴリズムやデータ構造、デザインパターンばかりで。考えてみると、3Dレンダリングの授業でしか線形代数を使わなかったかな…。10年.NETやJava、SQLをやってて、昔の数学もすっかり忘れちゃった!

monadicmonad 2025-03-10T23:53:44

この内容をどう活かして仕事に繋げるか分からない。今はSWEで悩んでる。

godelski 2025-03-11T00:13:30

  • この内容が理解できてる?
    - その理解を使って良いモデルやアルゴリズムを作れる?
    両方が「はい」なら、プロジェクトをやってGitHubに載せて、履歴書を更新してみて。最初は下のポジションからスタートしなきゃいけないかもだけど、そこから跳ね上がれるよ。みんなそれぞれで、理解のレベルは違うから、必ず確認してね。

varelaseb 2025-03-11T00:18:36

ただの思いつきだけど、技術での限界理解は複雑だね。ほとんどのシステムはなんとか動かせるけど、それがどこまで「他より合理的な解決策」かが問題なんだ。これは分野の理解であって、単なる領域ではないよ。

godelski 2025-03-11T02:59:06

>技術での複雑な理解はなかなか難しいよね。
その通り、複雑なことを理解するのが専門家の役目なんだよ。
「ほとんどすべてのシステムを使える」って言っても、専門家はより良いツールの使い方を知ってるべきで、技術的負債を避ける方法を見極められるはずだ。

CamperBob2 2025-03-11T15:43:25

ステップ1:それを使って面白いものを作ろう!

もっとコメントを表示(2)
hazrmard 2025-03-11T17:24:34

ありがとう!すごくいい内容だね。それにMinRLのコードもリンクしてくれてありがたい(https://github.com/10-OASIS-01/minrl)。私もRLの研究をしてたけど、比較研究の再現や自分の貢献を検証するのが難しかったんだ。こういうシンプルなライブラリがあって、ビジュアル化ツールや瞳体験のサンドボックスがあれば、観察するだけで検証できるから本当に助かるよ!

CaffeineLD50 2025-03-11T02:10:57

スキナーの言語行動理論を理解したいなら、ここを見てみるといいよ(https://bfskinner.org/wp-content/uploads/2020/11/978_0_99645…)。

shidoshi 2025-03-11T14:25:57

素晴らしいリソースだね!コンテンツと分かりやすさの両方でめっちゃおすすめだよ。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。