推論型大規模言語モデルの理解が進む！その可能性と課題とは

推論型大規模言語モデルの理解が進む！その可能性と課題とは

引用元：https://news.ycombinator.com/item?id=42966720

sigbottle 2025-02-07T02:00:44

最近の推論LLMの流れで嫌なことは、コーディング問題とか数学問題に過剰に最適化されてることだな。ああいう明確じゃないことには思考が必要なのに、たとえば学び方をどう教えるかとか、学習者とどうやってやり取りするかとか、そういうのを考えるのは難しい。友達からは他の分野では考えなくていいと冗談みたいに言われたこともあるけど、厳しい問題だって考えるし解決策がないんだよ。自己学習が好きなんだけど、複雑なトピックで誤解を推測して教えてくれる対話相手がいたら最高だよね。LLMは確かに難しいコーディング問題は解けるけど、なぜか数学問題には固執して、他のことは考えないみたい。

mitthrowaway2 2025-02-07T02:39:02

トレーニングの方法としてRLが使われてるからじゃないかな。数学とかコーディングの問題は解答の正しさを自動的に評価するのが簡単だからね。ほかの推論問題の正しさをどうやって測るのかは、すごく主観的で実際マニュアルが必要だと思う。シミュレーションやゲームを使うのはどうだろうか？

godelski 2025-02-07T08:11:35

この考え方は誤解だと思う。コーディングは確認がすごく難しいんだ、みんな単に出力が見栄え良ければ進めちゃうけど、それだけじゃ問題をテストしきれないよ。バグがあるからね。テストセットのカバレッジが足りなかったってのはよく聞く話だ。

ogrisel 2025-02-07T08:31:09

ソフトウェアエンジニアリングは、エンドユーザーのニーズや価値の曖昧な理解、コードの保守性と機能カバレッジ、計算パフォーマンスの微妙なトレードオフが必要だから難しい。一方で、アルゴリズムパズルは、推論を必要としつつも簡単に検証できる。生成されたコードがフォーマット標準に従っているかとか、特定のデータスキーマで出力することなど、他にも簡単に検証できることがある。

godelski 2025-02-07T10:56:30

最初の部分には同意だけど、コードは簡単には検証できないよ。バグがないか確認するのはテストだけじゃ無理なんだ。フォーマルな検証は未解決の問題のままだよ。

FieryTransition 2025-02-07T13:18:52

既に答えが分かっている大きな問題のセットを持っていれば、それを強化学習に使うことで、答えが分からない問題にも専門知識が移転されるかもね。問題と解答を知った状態で両方を構造化できるかも重要かな。自分で構築できる問題もあるけど、初めて解くと難しい問題もあるし、それをスコア信号として使えるかも疑問だよ。

godelski 2025-02-08T01:19:33

その考えは意味がないと思うし、なぜMLに行くのかもよく分からないけど、問題ないよ。私は機械学習の研究者だけど、現状にフラストレーションを抱えてるからね。証明を経験で行うってのが過剰になってるのが見えるから。長くなるけど、知識の転送は新しい問題次第だよ。前の問題とどれだけ関連があるかも重要だし、情報の使い方もそれに依存する。

FieryTransition 2025-02-09T15:12:22

詳しい答えありがとう、期待以上だったよ。知識の転送って、思ったよりもかなり特化していて狭いんだ。彼らは一般化で概念を転送するんじゃなくて、知識を圧縮するんだよね。だからトレーニング方法が一般化できないなら、どうして生成されたモデルが一般化できるんだろう？モデルの表現力を分析できる計算モデルは存在するのかな？

godelski 2025-02-10T01:04:02

長すぎてどうにもならなかった…あ、ごめんね。戻ったらまた書くけど、いい質問してるしほとんど理解できてると思う。そう、物事は冷凍されてるし、オンライン学習もあるけど解決できないこともある。このボトムラインについて、注意深く扱うことが大事だよ。

voxic11 2025-02-07T14:59:42

任意のプログラムを任意の仕様でフォーマルに検証する問題は解決不可能だよ（ハルティング問題参照）。ただし、特定のプログラムと特定の仕様についてのフォーマルな検証は解決済みだね。

godelski 2025-02-07T22:56:05

物理からCSに来た者として、CSの人たちがコードのテスト（出力を観察すること）がコードの正しさを保証すると思っているのは驚きです。そんなことが多くの理系で通用するわけがないのに！形式的な検証がもっと頻繁に行われていれば、ペンテスターを雇ったり、バグバウンティを支払ったり、ハッキングのコストを抑えられるのに。検証のプロセスを知らなくても、NSAがソースコードを検証して欠陥を探すのが簡単だと考えるべきです。テストでは不十分だという証拠の山に囲まれているのに、何でこんなに難しい教訓なんでしょうか？

snovv_crash 2025-02-08T08:44:17

テストすらないコードや、テストを書くことが良いことだと思わない人が多いって、もっと驚くべきことだよ。

godelski 2025-02-08T23:51:51

教えてるからあまり驚かないけど、初心者とジュニア開発者の違いは大きい。シニア開発者がこういうことをして、テストの限界を理解してないのは、驚くより恥ずかしいよ。

BalinKing 2025-02-07T19:53:33

実際的にも理論的にも、プログラムの正確性を形式的に検証するのは極めて難しいことが多い。単純なプログラムですら、証明が厄介なことがあるし、たとえばコラッツ予想のプログラムなんか、単純な仕様を満たすだけでも証明が難しい。

cma 2025-02-08T03:22:14

Anthropicが、ClaudeがGitHubの問題に対処して、他の人が作ったユニットテストを通過するGitコミットを生成するベンチマークを持ってるって言ってたよ。マルチモーダル画像認識を使ったUI生成もあって、具体的なUIを生成して確認できるんだ。

godelski 2025-02-08T05:02:32

あれ？正しいコメントに返事した？コードの検証について話してたじゃん。

cma 2025-02-08T06:01:30

形式的な検証について見落としてたけど、コーディング分野での効果的なRLには形式的な検証は必要ないと思う。

godelski 2025-02-08T23:54:19

MLにおいても、私が言ったことには重要なポイントがあるよ。その見方が正しければ、現状の物事の示し方について考えてみて、AIの安全性についても考えてみて。

bglazer 2025-02-07T03:32:14

ゲームはデータ源としてまだあまり探究されていない気がする。人間が対話で関わる動機が内在しているし、ロジック的にクリアな成功・失敗状態を持ってるから、RLには向いてる。特にFacebookが作った高スキルのDiplomacyボットについて思い出す。

kirill5pol 2025-02-07T06:28:36

あの外交ボットの主な著者の一人がOpenAIで推論とO1の責任者なんだね。

もっとコメントを表示（1）

soulofmischief 2025-02-07T15:20:08

みんな確実にギャップを埋めようと頑張ってるよ。詳しくはここにあるかもね。

MichaelMoser123 2025-02-08T06:13:17

Leetcodeでは出力が合ってても、それだけじゃ不十分なんだ。もし解法が遅いとタイムリミットオーバーになっちゃう。アウトプットだけじゃなく、アプローチやアルゴリズムも重要なんだよ。

kavalg 2025-02-07T08:51:08

でも、それでも全然簡単じゃないんだ。昨日DeepSeekに簡単なディオファントス方程式を出したら、3回も間違えちゃって、自分で修正しようとしても正しい解にたどり着かなかったんだ。

wolfgangK 2025-02-07T14:42:32

DeepSeekはモデルじゃないんだ。どのモデルを使ったの？v3？R1？蒸留版？どの量子化を使ったのかも気になる。

triyambakam 2025-02-07T02:51:07

オーバーフィットって言えるかは疑問だな。コーディングや数学は明確な目的があって、結果を検証できるから。おっしゃる通り、曖昧なものはトレーニングが難しいと思う。

sigbottle 2025-02-07T06:36:50

ごめん、自分のコメントを読み返して、ちょっと補足したい。考えるのにかかる時間はあまり良い指標じゃないかも。でも、DeepSeekのログを見てると、”ソフトな”質問に対しては、基本的にウィキペディアの記事を集めたような思考の流れなんだよね。１つの概念に触れては次へ進むって感じで、深く考えようとはしない。でもコーディング問題では、どんなに簡単なものでも、グルグル回り続けたり、考えすぎたりするんだ。それがなんか人間的に感じるんだけど、同じことは”ソフトな”質問にはやろうとしないんだよ。高評価は50秒くらいだったと思う。本当は時間は良いメトリックじゃないけど、CoTの質は低いと思う。数学・論理・プログラミングは固有に難しいとは思わないんだけどな。訓練は確かに難しいと思うけど。次の単語を予測するものってのも確かだし、急いで人間化しない方がいい。でも、コーディングの時は本当に”考えている”ように感じる！有機的に探索してる気がする。でも、”ソフトな”質問には同じ余裕を与えないってのが言いたいんだ。

agentultra 2025-02-07T14:45:53

人間や他の動物は、他者の心について理論を形成し、その反応を予測する能力を持ってる。それが出来るかは、ベクトル空間とトランスフォーマーにできるか分からないな。それは思考やライティングにおいて重要なスキルだから。自分の書き方は読者に合わせて調整してるし、単なる答え以上の説得力ある答えが求められることも多い。

soulofmischief 2025-02-07T15:19:12

ベクトルをどう扱うかが重要なんだけど、ベクトルは情報を保持するだけで、論理的なストレージのメディアだけで高度な知性の可能性を否定するのは無理があると思うんだ。

BoorishBears 2025-02-07T15:31:45

自分のインタラクティブ読書アプリで推論機能を試してみたけど、R1の推論トレースはあんまり役に立たなかったな。だから自分で読者の考えを深く理解するフレームワークを作ったんだ。長い思考の連鎖で、ガイドと手動で編集した例を使って、読者の行動への洞察を得られるようになった。読者は全てが完璧に進むのが好きじゃないから、モデルは微妙なサインもキャッチするのが重要。ただのCOTだと、読者の期待を推測して逆転を図るけど、それが特定の読者にとって意味のある展開になってないことが多いんだよね。

bloomingkales 2025-02-07T02:28:41

プログラマーの例を見ても、数学志向の思考がプログラミングに優れているという偏見がある。AIの訓練でも、このバイアスが影響していると思う。プログラミングパターンを重視した訓練が良い推論を導くという見方があって、これは倫理的な問題になる。今の概念は長い目で見れば壊れるだろう。

HarHarVeryFunny 2025-02-07T16:50:19

コーディングや数学に重点が置かれているのは、そっちが比較的簡単に理由の検証ができて、トレーニングやスコアリングに向いてるからだと思う。それで自分のモデルの数学の出来を誇示できるのも良いね。でも一般的な推論の検証は難しいから、「LLMがジャッジ役」みたいな方法が使われているのが現状。

maeil 2025-02-07T17:55:44

DeepSeekの経験を共有するよ。R1はコーディングに関しては魔法のように感じることもあったけど、STEM以外のタスクにはすごく一般化が悪くて、Sonnetよりも遥かに劣ってたりするんだ。

jerf 2025-02-07T18:18:10

昨日DeepSeek Distillをダウンロードしてテストしたら、ちょっと怖いくらいパラノイア的に動いてたよ。簡単なテストに対して、なぜユーザーがそれを聞いているのか、動機は何か、もし期待通りに返事しなかったらどうなるんだろう？みたいな感じで。シンプルなモデルはすぐに「テスト成功！」って言ったのに。みんなペーパークリップ最適化を心配しているけど、こっちはパラノイアを生み出してるんじゃないかと考えている。

HarHarVeryFunny 2025-02-07T20:29:44

自分もDeepSeek-R1で似たような経験があったよ。ウェブページをコードしてもらった後に「ありがとう」って言ったら、長い考えに入っちゃって、最終的に適切に返事するまでに時間がかかったんだ。笑

plagiarist 2025-02-07T22:04:46

本当にそう思う。誰かをサポートしてるのに、急に「ありがとう」と言われたら、自分が不満を持たれてるんじゃないかって思っちゃう。

bongodongobob 2025-02-07T18:22:38

DeepSeekの返答がここでは良いと思う。テストが何かを定義していないから、Llamaはただ成功したって言っただけなんだ。

moffkalast 2025-02-07T08:51:47

＞定義が不明瞭なこと
定義が不明瞭なら、それに対して強化学習はできないよ。明確な報酬関数がないとモデルは無意味なことを学んじゃうから、単純な話だね。

adamc 2025-02-07T16:05:13

でも、人間は明確な報酬関数がないことをうまく学ぶよね。ピカソも単純なインセンティブのためにピカソになったわけじゃないから、その仮説には疑問がある。

vector_spaces 2025-02-06T22:34:24

LLMをもっと制限された形式的な言語で訓練するのって、何か進んでるの？制約ソルバーや自動定理証明器みたいな、もっと低レベルのやつ。自然言語じゃないやつね。これが本当に効果的な推論モデルへの道だと思うんだけど。LeanとChatGPTの統合みたいなことやってるのは知ってるけど、あれは違うんだ。とりあえずアイデアを試せるクリエイティビティを持ちつつ、その思考のチェーンをJITコンパイルして、悪いルートを避ける感じ。

colonial 2025-02-07T05:01:32

あなたの考えが正しければ、「純粋な」LLMはあまりメリットを得られないと思う。確かに構文的に有効なものは生成できるけど、意味的に有効なものを100％生成するのは無理。フロンティアモデルでも、関数呼び出しのJSONを間違えることが結構あるし。統計的なものを使っている限り、Leanのような決定論的アドオンが必要だよ。

もっとコメントを表示（2）

soulofmischief 2025-02-07T15:24:12

私は全く反対だね。論理は経験的サンプリングの性質上、根本的に統計的なんだ。真の推論は確率的に表現される。最終的には条件付きの出力を生成するために経験的な入力セットをもとに作られた確率的なマニホールドが必要だと思ってる。この問題にずっと取り組んでいて、もっと具体的な内容を共有したいと思っているが、今は「わかってるし内部一貫性もあるけど、他の手法じゃできない何ができるんだ？」ってとこにいる。

colonial 2025-02-07T17:20:24

え？ごめん、それはちょっとおかしいよ。経験的な真空の中でも、ちゃんとした論理的議論はたくさんできる。例えば帰納法による証明なんて、サンプルを取って検証できないものもあるからね。

soulofmischief 2025-02-07T20:11:41

私は論理体系が現実とどれだけ関連しているかを評価することについて話している。システムが内部的に一貫していても、その前提や結論が実際の観察と一致するか依存する。経験的な観察はサンプリングと測定の制限により統計的なので、論理体系を現実に適用することを検証する行為自体に統計的要素が生じる。

nextaccountic 2025-02-07T08:18:22

セマンティックに有効な推論を100％生成する必要はなくて、セマンティックデータを使って有効な道をたどるようにバイアスをかけて、最後にその推論が正しいか確認するだけで十分だと思う。問題解決を最適化問題として捉え、アイデアの探索的アプローチが必要だ。AIが時にはハルシネートすることが役に立つかもしれないし、それに対する良い正当化を持たせて、無理なら捨てさせるのがいい。

Terr_ 2025-02-07T07:45:34

それは根本的にミスマッチだと思う。LLMは統計的でロスが多くて問題が多いから、雑多な問題から予想外の良い結果を引き出せるんだ。でも、構造的な言語で意味が固定されているなら、LLMには何の利点もなく、強い欠点があるだけ。普通のパーサーやSATソルバーを書いた方がいいよ。

mindwok 2025-02-06T22:45:50

それはChatGPTがLeanを実行するのとどう違うの？人間もそんな感じで、雑な推論を正式な論理で書き直して、それが成り立つか確かめるためにコンパイルするんだよ。

gsam 2025-02-06T22:48:52

自分の中では、DeepSeekの純粋な強化学習アプローチが最も実用的だと思う。これは埋め込み空間のより健全なサブスペースを見つけるために継続的に洗練する必要があるんだ。制限を設けると探索性が落ちるし、多次元サブスペースでは結果に到達する方法が大量にあるから、ちゃんと考えて作るのが大事。

HarHarVeryFunny 2025-02-07T00:41:05

DeepSeekのR1のアプローチは純粋なRLじゃなくて、R0を開発するためにRLを使った後、2回のイテレーションで現在のモデルを使って合成推論データを生成して、SFTした後にRL微調整を繰り返してるよ。

danielmarkbruce 2025-02-06T23:30:29

まぁ、大抵の人は言語モデルにおける潜在空間の力をほんとに理解してないって感じだね。言っても信じてくれるけど、実際にはあんまり浸透してない。

ttul 2025-02-07T02:53:37

画像生成モデルも超リッチな潜在空間を持ってるよ。SDXLからの価値は何年も絞り出されるだろうね。

truculent 2025-02-07T00:22:33

この文脈で構造化生成みたいなのがうまくいくと思う。

janalsncm 2025-02-07T00:16:15

いい説明だね。R1の論文は割と読みやすいし、フレンドリーな感じがする。これは他の研究での読みにくい文体にイライラしてるから言ってるんだ。DSは賢く見せようとしなくても結果が物語ってるよ。興味がある人はR1論文とV3論文、DeepSeekMath論文を読むべき。

ngneer 2025-02-06T23:56:59

いい記事だね。
＞LLMが実際に”考える”かどうかは別の議論だね。
この”かどうか”の議論はほとんど意味がないよ。もしくは、もうかなり前に結論が出てる。
”コンピュータが考えることができるかという問題は、潜水艦が泳げるかという問題と同じくらい興味がない。” –Edsger Dijkstra

cwillu 2025-02-07T00:08:09

その引用が出てくる文書はこのトピックに対する決定的な議論とは言えないね。
”[…] 科学が貢献できない方向に研究の努力を向ける傾向がある。”っていうのはかなり短視的な見解だよ。
–
http://www.cs.utexas.edu/users/EWD/ewd08xx/EWD898.PDF

alonsonic 2025-02-07T16:03:17

Dijkstraは明らかにエンジニア/科学者的な実践的視点からこの問題にアプローチしてるね。技術を使って問題を解決することに焦点を当ててるから、AIが”人間の思考”の定義に合うかどうかは確かに興味ないって感じだね。

ngneer 2025-02-07T15:11:03

Dijkstraが短視的だってことね。分かった。

cwillu 2025-02-08T01:19:03

これがアメリカで有名な7年生レベルの読みやすさなのかな。

onlyrealcuzzo 2025-02-07T01:31:35

コンピュータに考えさせるなら面白いけど、単に10億まで数えさせるなら面白くないと思うよ。

root_axis 2025-02-07T06:05:14

それじゃ収束しないよ、質問を軽視しちゃってる。潜水艦の例えはどっちの結論も支持し得る解釈だからね。

nicce 2025-02-07T11:17:01

プロセスがわからなくても、結果が区別できないなら関係ないってことじゃなかったっけ？

もっとコメントを表示（3）

ngneer 2025-02-07T15:20:32

あなたは、認識論のポイントとTuringのテストを混同しているかも。区別できないことが重要な指標だし、今のところLLMの出力は人間と区別できる。でも将来的には変わるかも。LLMが“考える”かどうかは興味深い質問じゃなくて、これはアルゴリズムなんだから。

root_axis 2025-02-07T17:14:22

まあ、OPが「質問はとっくに解決した」って言ってるけど、引用はその質問を解決してるわけじゃないし、むしろ考えるに値しないと切り捨ててるじゃん。価値があると思う人にとって、その質問はまだオープンだよ。

nicce 2025-02-07T11:43:32

最終的には水の中で動ければいい話。スイマーも潜水艦もそれができるけど、潜水艦が人間みたいに泳げるかは関係ないよ。

goatlover 2025-02-07T14:38:26

潜水艦の移動が人間らしい泳ぎを模倣するって主張が強いなら、これは間違いになる。AI開発の多くはこの動機があるから、潜水艦の例えはおかしい。AIは人間による強力な知能増幅ツールとして開発されるべきなのに、みんなサイエンスフィクションの方が好きみたい。

ngneer 2025-02-07T17:41:36

全然軽視してないよ、むしろその質問をバカバカしいものとして正確に表現してると思う。”泳ぐ”っていう動詞は人間に適用されるし、”考える”も同じ。機械が泳げるかっていうのはナンセンスな質問だ。

ThrowawayR2 2025-02-07T19:50:57

“A witty saying proves nothing”ってことで、要するに面白い言葉だけじゃ証明にはならないよね。

lysecret 2025-02-07T14:21:42

次に来る問題は“考えすぎ”だと思うんだよね。もっと考えたら解決するってわけじゃないから、ちょっと考えすぎちゃってる気がする。

seydor 2025-02-07T15:07:27

推論は前提を繰り返し使って結論を出すことだけど、難しい問題には箱の外で考えることが必要。そういう意味では、まだ思考マシン作りは始まったばかり。

resource_waste 2025-02-07T15:28:46

100％同意。哲学やってるけど、誇張しながら事実って言うこともあるよね。非推論モデルにはツッコまれそう。

tpswa 2025-02-07T15:10:19

自然な研究エリアだと思う。適応的計算を利用するには、問題によって計算量を使い分ける必要があるけど、強化学習が進めば改善するかな。

goingcrazythro 2025-02-07T09:15:54

DeepSeek-R1の技術報告を見てみたけど、“aha moment”の主張には疑念があるね。みんなが持ってる前提データ公開してないし、問題が多いみたい。

nvtop 2025-02-07T10:26:03

自分もこの“aha moment”の重要性には懐疑的。基盤モデルの訓練データに推論のプロセスが含まれてなくても、インターネット上にはたくさんあるし、独自発見ではないよね。

dhfbshfbu4u3 2025-02-06T23:28:39

いい投稿だけど、こんなの読むと文化の前日譚にいるみたいな気分になる。

BarryMilo 2025-02-07T00:58:28

それがダメなの？文化は結構クールだと思うし、似てることはないと思うけど、どうなるかはわからないね。

robertlagrant 2025-02-07T11:22:52

読むのは面白いけど、Cultureの中で生きる話はつまらないっていうのも分かるなー。

mrob 2025-02-07T12:15:45

つまらないとは思わないけどな。Cultureの周辺での話は、世界設定からのストーリーの価値が高いからだし。命に意味を与えるのに外的な脅威はいらないんじゃない？スポーツの人気もそうだし。

robertlagrant 2025-02-07T12:41:36

＞”外的脅威がなくても命に意味はないと思う。”って言ってないよ。ただ、本当の挑戦を乗り越えることが、生きてる実感の一部だと思うんだ。みんなが一日中散歩だけしてるのってどうなのかな。AIが作ったコンテンツとWALL-Eみたいな未来が待ってる？

yencabulator 2025-02-14T21:09:39

趣味が山からパラシュートなしで飛び降りるとかだったら？それがつまらないのはスパイになりたかった人だけじゃない？

dhfbshfbu4u3 2025-02-07T01:29:50

オービタルに住むのは絶対にいいね。こういう話を見ると、昔の悪い時代に戻る気がするんだよね。

prideout 2025-02-06T22:49:15

この記事、DeepSeekのトレーニングパイプラインの図がすごく良いよ。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。