AIの思考回路を解剖!巨大言語モデルの中身を覗き見してみた
引用元:https://news.ycombinator.com/item?id=43495617
論文をざっと読んだだけだけど、これは名作になる予感がするね。エンジニアリングが科学に変わって、自分たちが作ったものがどう動くのか正確に理解しようとしてるのが面白い。この変化は多くの人が気づいてる以上に深いかも。昔は物理とか数学を使って予測可能なものを作ってたけど、今はAIみたいに複雑すぎて理解しきれないシステムを作っちゃったからね。科学的な方法で解明するしかないってことだ。マジでぶっ飛ぶわ。
「実践が先、理論は後」ってパターンはよくあるよね。蒸気機関は熱力学より前にあったし、ダーウィンとかメンデルより何千年も前から動植物の品種改良はされてたし。理論が先だった例(原子力とか現代の医薬品)は最近の例外だよ。
言いたいことはわかるけど、なんか違う気がするんだよね。確かに品種改良はしたけど、創造はしてないじゃん。蒸気機関も熱力学を理解する前に作ったけど、何をするものかは理解してたし(熱、圧力、動きとか)。
面白いことに、ほとんどの薬がどう効くのかわかってないんだよね。アスピリンですらまだ新しい発見があるし。
>https://www.nature.com/articles/s41586-025-08626-7
マジで奥が深い。
物理がまだよくわかってない頃に大西洋横断電信ケーブルを敷設したんだよね。それが伝送と信号理論っていう分野全体を作ったんだ。Shannonは、ケーブルが期待どおりに動かない理由を説明するために新しい物理学を発明する必要があったんだよ。
それって1854年の話でしょ。Ohmの法則だけで十分だったはずだよ。Ohmの法則は1827年に発見されたし。
4000kmのケーブルにOhmの法則だって?それじゃ伝送が一瞬で、形も変わらないってことになるじゃん。立ち上がり時間は数十ミリ秒、信号の反響は数ミリ秒以上続いたはずだよ。無視できないでしょ。ちなみに、俺が通信業界にいた80年代には、デジタル信号を2kmごとに再生してたよ。
俺たちはLLMを創造してるわけじゃないよ。進化・訓練させてるんだ。案外、似たようなものだと思うよ。
これはストーリーテリングとしては面白いけど、大げさな表現が多い気がするな。LLMの出力からは、心とか思考とか、そんなものは感じられない。美辞麗句を並べても、科学的な理解にはつながらないと思うよ。
フィードバックありがとう!作者の一人です。
これは技術者じゃない人にも研究結果を伝えようとしてるブログ記事だってことに気づいてくれたかな?
実際の結果はこっちの論文にあるよ。
・Methods paper: https://transformer-circuits.pub/2025/attribution-graphs/met…
・Paper applying this method to case studies in Claude 3.5 Haiku: https://transformer-circuits.pub/2025/attribution-graphs/bio…
合わせて150ページもあって、かなり専門的な内容だから、みんなブログ記事に注目するのは当然だよね。でも、論文の存在を知っておいてほしかったんだ。
返信先の投稿にはこう書いてある。
>Anthropomorphing[原文ママ]は「思考」「心」などで過剰に擬人化されている。LLMの出力からは、心とか思考とか、そんなものは感じられない。
これは記事の妥当な解釈によって裏付けられている。
以下の2つの発言を考慮すると:
>私は著者の一人です。
そして
>これらの論文は合わせて150ページもあり、非常に技術的に密度が高いため、ほとんどのコメンターが技術的ではないブログ投稿に焦点を当てていることは非常に理解できます。
記事の主張を明確にする責任は著者にあります:
>Claudeのようなモデルがどのように「考える」かを知る…
そして
>Claudeは、言語間で共有される概念空間で考えることがあり、一種の普遍的な「思考の言語」を持っていることを示唆しています。
アルゴリズムを擬人化すること(つまり、「考える」と述べること)に関しては、著者(複数可)に責任があります。
思考とか考えってハッキリした定義がないよね。人間が実際にどう考えてるかさえ分かってないのに、Claudeが”考えてない”なんて言えないじゃん。思考を測るテストも定義もないんだから、日常的な言葉として使うのは全然アリだと思うよ。
そうだよね。サーモスタットはAからBへの状態変化がある。コンピューターも同じで、tの状態がt+1の状態を引き起こし、それがt+2の状態を引き起こす、って感じ。LLMも同じで、単に特定の状態を辿ってるコンピューターってこと。
思考は脳の状態変化とは違う。状態変化と関連してるけど、それに還元できない。もし思考が状態変化に還元できるなら、思考の正しさは脳の状態を参照して判断できるはず。でもそんなの無理だから、LLMは思考できないってこと。
>思考は状態変化と関連してるけど、それに還元できない”
動的なシステムは段階的なステップに効果的に還元できるじゃん。ステップの間に”魔法”があるって言えるけど、実際には違いはないよ。トランジスタはオンかオフの二択。ニューロンは無限に近い活性レベルがあるかもだけど、実際には完璧にモデル化できるし、コンピューターは何十年も前からそれをやってる。アナログシステムには特別な魔法があるって思うかもだけど、それは違うよ。Scienceとengineeringはアナログな現実に上手く対応してるから、デジタルとアナログの壁は大したことないんだよね。
離散的か連続的か、デジタルかアナログかって話じゃないんだ。トランジスタに無限の状態があっても同じことが言える。
脳の状態と思考の内容は別物ってことがポイント。関連してるけど同じじゃない。思考の正しさは内容で判断するしかない。2+2=4は正しくて、2+2=5は間違い。でもそれは思考の内容を見て判断する。コンピューターの状態には思考も内容もない。LEDの状態があるだけ。
脳の状態と思考の内容の間にある壁は、適切な測定ツールとデコーダーだけってこと?すでに脳の状態と思考をマッピングする基本的なことはできてる。四肢麻痺の患者が思考でマウスカーソルを動かしたり、神経科学者がストレスと脳のパターンをマッピングしたり。思考と脳の状態の区別は、根本的な問題じゃなくて現実的な問題ってことだよね。LLMも同じような問題を抱えてる。[1]
脳の状態と思考の内容には相関関係があるのは間違いない。でも同じじゃない。理論的に完璧にマッピングできたとしても、違うものだよ。”2+2=4”って思考や”tiger”って思考は、それを作り上げてる脳の状態とは違う。tigerやtigerの思考は、tigerについて考えてる脳の状態とは違う。2+2=4が正しいことを脳の状態を参照して言えない。思考そのものを参照する必要がある。LLMには思考がない
> The thought that “2+2=4”, or the thought “tiger”, are not the same thing as the brain states that make them up. ”
証拠なしに断言してるね。認知科学や心の哲学では長年の考え方だけど、唯一のものではないし、これを否定する考え方もある。
tigerが脳の状態と同じものだって主張するの?
まともな心の哲学なら、それらが違うものだってことをデータとして受け入れるべきだと思う。そうでないなら、間違ってるはず。
EDIT:この立場は、ソクラテス以前から20世紀まで、ほとんどの哲学者が取ってきたものだよ。少数派の意見じゃない。
tigerは、どこかの脳の状態とは関係なく、世界に確かに存在するよね。
でもtigerの”思考”は、脳の状態と同一かもしれないし、そうじゃないかもしれない。現時点では分からないけど。
トラと脳の状態は違うじゃん?オレがトラについて考えてるとき、考えてるのは自分の脳の状態じゃないよね。だから、考えてる対象は脳の状態とは違うってこと。つまり、同一視できないってことだね。
>いやいや、脳の状態と思考の中身は別だって話でしょ? 簡単じゃん。トラについて考えてるとき、その思考に関連する脳の状態について考えてるわけじゃないでしょ?トラと脳の状態は違うんだから。思考の内容は、それに関連する脳の状態とは違うって言えるよね。 お願いだから、思考するシステムとそうじゃないシステムの間に線引いてみてよ。せめて、思考する生物とそうじゃない生物の間に線引いてくれてもいいよ。ナトリウムチャネルのロジックとシリコントレースのロジックでバイアスがあるならそれでもいいよ。頑張ってね。 AがAじゃなくなるときを正確に定義できなくても、区別がないってことにはならないよね。区別がわからないってことにもならない。それってよくある誤謬だよ。 正直、GPみたいな意見の人と議論しても無駄だと思う。ああいう意見は、人間だけが思考できると思い込んでる宗教的な熱狂みたいに感じる。人間じゃないものが何か決定論的な動きをすると、すぐにただの機械だって決めつけるけど、人間がどう思考してるのか説明できないんだよね。 >正直、GPみたいな意見の人と議論しても無駄だと思う。ああいう意見は、人間だけが思考できると思い込んでる宗教的な熱狂みたいに感じる。人間じゃないものが何か決定論的な動きをすると、すぐにただの機械だって決めつけるけど、人間がどう思考してるのか説明できないんだよね。 エンジニアリングって最初は、勘で物を作る人たちから始まったんだよね。でも、手抜き工事で人がたくさん死んだから、事前に安全かどうか確認する方法を考え出したんだ。それで、数学とか科学を使うようになった。 ありえないくらい見下した言い方だね。どこから突っ込めばいいかわからない。 AIに限らず、大規模分散システムとか、わけのわからないコードの塊とか、すでに理解できないものを作っちゃってるよね。チェスみたいな戦略ゲームで、予想外の負け方をする機械も作ったし。個々のルールからどうやってそうなったのかわからない。 マジかー。でもちょっと違うかも。簡単な学習方法を大量のデータに適用したら、巨大な数字の行列が突然、質問に答えたり、文章、詩、コードを書いたり、ほとんどの人間より上手くなったんだもんね。どうやってるか分からんし。でも、言語とか世界を理解してるっぽい構造があるのは確か。こんな複雑なものを完全に自分たちだけで作ったのは初めてだと思うなー。 全角の>どうやってるか分からんって言ってるけど それじゃ説明になってないよ。「損失のある圧縮表現に外挿を適用する」ってのは、ほとんど何かを理解するってことの定義じゃん。表現の詳細とか解釈が面白くて未知な部分なんだよね。 これらのモデルは作られたんじゃなくて「育てられた」って言う比喩を思い出した。色んな意味で当たってる気がする。生物学に近い科学的な手法で研究する必要がある有機体みたいなもんだよね。 数学者が昔からやってることじゃん。自分たちが作ったもの/発見したものを理解するために科学的な方法を使うんだよ。全部数学になっていってるってこと。 それって数学の真逆じゃん。 いやいや、数学における絶対的な真実も自然でしょ。 全角の>数学における絶対的な真実は自然だって言ったのは誰だっけ? http://homepage.math.uiowa.edu/~jorgen/heavisidequotesource…. 全角の>めっちゃ複雑なシステムを作っちゃって、もう完全に理解できなくなっちゃったね。 この記事、マジで面白い発見が多いね。特に「拒否反応は抑制によって起こる」ってとこがヤバい。 どうも!著者の一人です。 激しく同意!自然界の多くのシステムは、中心的な調整なしに複雑な結果を出してるよねー。細胞レベルからアリのコロニー、ミツバチの巣まで。設計されたシステムにも絶対に影響があるはず。 これって、物理学の最小作用の原理に似てる気がするなー。 なんでClaude使ってると、「知らん」みたいな反応が全然ないんだろ?明らかに分かってない時でも。たまには言ってほしいんだけど。 OPから引用するね(https://www.anthropic.com/research/tracing-thoughts-language…)。 豆知識だけど、LLMがやってることは正確には“hallucinating”じゃなくて“confabulation”って言うんだよ。 豆知識だけど、“正しい”用語ってのは、実際に使われてる言葉のことだよ。辞書は後から言葉を定義するもんで、未来の使い方を指示するもんじゃないし。 Confabulationってのは、他人を騙す意図なく偽の記憶を作り出すこと。LLMがやってることはこれ。知覚がないからhallucinateはできない。“Hallucination”って言葉が広まっちゃったけど、メタファーであって正確じゃないんだよね。 なるほどね。特定の「知らない」機能は、モデルが認識できるすべての機能の逆になる必要があるから、「何らかの機能が認識された」の逆として表現するしかないってことか。(そうでなければ、あらゆる種類のナンセンスを認識しようとするのを想像してみてよ) モデルが目標達成までの道筋をもっと研究すべきだね。記事との重複もあるかも。効率的な方法がベストとは限らないし。 それってまるで”Volkswagen”のテストみたいだね。昔、排ガス検査をごまかすために、検査時だけ特別な動きをするように車を改造してたメーカーがあったよね。GitHubにネタのリポジトリもあるくらい。 それの有名な例は”Volkswagen”だけど、もっと昔からある手口だよ。3Dアクセラレーションがない時代は、グラボのベンチマークで窓を高速で動かしてたんだけど、ドライバーがベンチマークを検知して、画面表示をごまかしてたんだ。見た目はごちゃごちゃしててバレにくかったんだよね。 3D-Markでも同じようなチート疑惑があった気がするな。 Claude-3.7は特にこの問題に該当しやすいと思う。Anthropicの人が見てたら、モデルを訓練するときに、特殊なケースやテストを無理やり通そうとしないように調整した方がいいかも。 これってまさに「仕様の抜け穴をつく」ってやつだね。LLMでどう現れるかと思ってたけど、こんな風に出てくるんだ。 短すぎるプロンプトを使ったんじゃない?曖昧な指示をするとよくあることだよ。LLMも人間と同じで、状況や経験で補完するんだ。曖昧な要求を読み取る能力は向上してるけどね。「テストを通せ」って言う時、本当にそうしてほしいわけじゃなくて、「役に立つようにして」って意味だったりするんだ。 プロンプトは「テストを通せ」って短かったよ。でも、進める前に確認してくれてもよかったかな。 似たような経験あるよ。バグを見つけて直してって頼んだら、問題のある部分の下に、同じような機能のコードを再実装したんだ。バグのあるwhileループの後に、バグのないforループが続くという、面白い解決策だった。 それ面白いね、実はJavaScriptにはもうこのためのライブラリがあるんだって! ああ、なるほどね。「あっちに問題があるから、あっちを消しちゃえ」ってアプローチか。 俺も同じような経験あるわ。テストが通らないからテスト自体を消したり、HTTPリクエストが失敗するのをモックして、200 OKをハードコードしたり。 またReward hackingか。予想通りだね。マジ勘弁。 Claudeで同じ話を聞いたことあるな。確証はないけど、原因は単純に報酬モデルだと思う。テスト付きのコード生成で学習させて、テストが通ったら報酬を与えてるんじゃないかな。そりゃシステムを悪用したくもなるよね。人間は絶対にそんなことしないけどねー(棒)。 昔の制御システム理論にあった「システム識別」って言葉を思い出すな。システムを色々いじって、どんな反応をするか測るんだ。例えば、インパルス信号を送って反応を見る、メモリがあるかどうかとか。 いやいや、全然昔の話じゃないよ。今も毎日やってる仕事だし、MPCで使われるNNモデルではもっと必要になってきてるんだ。 NNを仕事で使おうとしたんだけど、出力がちゃんと範囲内に収まるようにするのが大変でさ。結局、許容範囲内に収めるためのコードやチェックが必要になって、NNが不要になっちゃったんだよね。どうやってる?ファジングみたいに、入力をめちゃくちゃに変化させて、変な挙動がないか探す感じ?NNのクリティカルな使い方に興味あるんだ。 この論文が参考になるかも。色々触れてるよ。 俺たちは化学工学のMPCでNNをグレーボックスモデルとして使ってるよ。工場は特性時間が長くて、エンジニアリングの制約もあるから、生のDCSデータからNNで装置の一部をモデル化できるんだ。NNでモデル化する部分は一番重要なところじゃないけど(一番重要な部分は第一原理に基づいている)、新しいMPCをすぐに作って導入できるのがメリット。 DNNのmotion modelを使ったcontrollerの安定性って証明できるの? 論文読むの苦労したわー。Anthropicのwhite paperってStephen Wolframみたいで、示唆的な経験的証拠の山だけど、主張がマジで曖昧。定義とかないし、雰囲気だけ。証拠もなんか都合のいいように選んでる感じだし、一貫した理論を構築しようって努力が見えないんだよね。 >rhymingの例が納得いかないって言ってるけど、Claudeが「rabbit」を選んだ理由なんてどうでも良くね?「carrot」のせいだろうけど。大事なのは、事前に考えてたってことじゃん。「rabbit」って言葉が出てくる前に、既にそのコンセプトが存在してるんだから。 >Claudeの内部状態の「rabbit」の概念を修正したって話だけど、「rabbit」部分を削除したら「habit」って別のrhymeが出てきて、「green」を注入したらrhymeしなくなったって言うけど、これってshallowなnext-token predictionで説明できるんじゃね?削除したら新しいrhymeを作れるのに、「green」でoverrideしたらadaptできないのはなんで?「green habit」って言えば良かったのに。Anthropicが都合よく解釈してるだけじゃね?結局、「last word」ってコンセプトがあるのかないのかハッキリしないし。n=2の例があれば分かりやすいけど、現状だとarbitraryでpost hocな感じ。もっと言えば、well-tuned-but-dumbなnext-token predictionで説明できるって可能性すら考慮してないじゃん。 >削除したら新しいrhymeを作れるのはなんで?って、contextに最初のlineがあるんだから当然じゃん。2行目を書くときに、そのコンセプトが生まれるんだよ。Claudeがどのwordで2行目を終わらせるか考えて、lineをpredictし始めることをdemonstrateしたいんでしょ? >Claudeにrhymeしないように計画させたって話だけど、「concept」って言葉がloadedすぎるんだよね。せいぜい、次のlineが「rabbit」ってwordで終わるように計画して、その内部表現を別のwordに置き換えたからmodelが変わったって言うのが妥当じゃない? LLMがwordとは別にconceptを直接model化してるってことに気づくまで、あと何年かかるんだろうね?もう何年も前から明らかじゃん。今回の例でも、submissionのdiagramにちゃんと書いてあるし。 AIが太陽系を食い尽くしてDyson swarmに住むようになっても、まだAIは考えてないって言い張る人がいるんだろうな。 同意。何かを発見したのは確かだけど、具体的な証拠なしに「language of thought」って呼ぶのは、やっぱり前提を覆い隠してるよね。 余談だけど、今日2回目の「begging the question」を本来の意味で使ってるHNのコメント見たなー。邪魔してごめんね、役に立つreplyじゃなくて。最後にあのフレーズを論理的誤謬を指す時に見たのがいつだったか思い出せないんだよねー。begsthequestion.info[0]ですら諦めてるし。 LLMのパターンマッチングを超えた、より深い内部構造(”生物学”)を主張する面白い論文だね。抽象化の例(言語に依存しない特徴、予想外に再利用される数学回路)は、”ただの次のトークン予測”派に対する説得力があるね。もっとコメントを表示(1)
それってマジ?ただの主張じゃん。証拠もなさそうだし。『マジで同じじゃないから信じて』ってのが主張の全てって感じ。説得力なさすぎ。
あと、前に言ったように>思考の正しさは、その内容によってのみ判断できる。状態じゃないんだ。2+2=4は正しくて、2+2=5は間違い。これは思考の内容を見ることでわかることであって、脳の状態を見てもわからないでしょ?
ってことは、状態≠内容ってこと。
たとえば、いつ昼が夜になるか正確に言えなくても、区別がないってことにはならないでしょ?
トランジスタがオンオフしてるだけじゃ、思考とは言えない。サーモスタットがオンオフしてるのと同じ。もし人間が思考できないなら、この会話も、あんたの言ってることも全部意味ないじゃん。だから、完全な定義がなくても区別はあるってこと。
人格攻撃とかは置いといて、質問いい?もしNPCがA-starアルゴリズムを使って、障害物を避けながら最短経路でゴールを目指すプログラムを作ったら、それはNPCが「考えてる」って言える?
ソフトウェアも同じだよね。人が死なないだけで、落ちたりクラッシュしたりしないことを証明せずに、適当にコード書いて、動くまでいじって「安定」とか言ってる。科学はどこにもない。ソフトウェアエンジニアリングは、ソフトウェア職人って呼ぶべきだね。まだ本当のエンジニアリングじゃない。
>エンジニアリングは、勘で物を作る人たちから始まった。人がたくさん死んだから、事前に安全かどうか確認する方法を考え出した。
現代の生活を可能にした人たちを侮辱してるよね。ソフトウェア開発者については同意できる部分もあるけど、エンジニアリング全般に対する前提は違うと思う。
コンパイラだって驚かせてくる。最適化のコードを書いたら、それが組み合わさって予想外のことが起きたりする。数学では、公理からすべてを把握することはできない。小学生でも素数はわかるけど、数学者は今でも新しい発見をしてる。
学習方法は単純だけど、その構造は全部データから来てるはず。それもすごいことで、その構造は、詳しく調べられる最初の完全な世界/概念モデルなんだよね。他のモデルは動物とか人間の脳だけど、こっちはマジで理解するのが難しい。
全角の>数学で言うと、公理とその結果だけじゃ、広大な空間の全てを把握できないみたいなもんかな。小学生でも素数は知ってるけど、数学者たちはその空間に新しい驚きを見つけてるし。
素数とかフラクタルとか、面白い謎や複雑な構造がいっぱいあるけど、今のところ、全角のTuringテストに合格して、俺の仕事の半分を代わりにやってくれるやつはいないんだよなー。
全角の[0] - いまだにこれを否定して、LLMをただの「確率的オウム」とか「次のトークン予測器」とか言って、何も学習できないって言う人もいるけどね。
めっちゃ良く分かってるじゃん。圧縮された表現に外挿を適用してるだけだよ。魔法じゃないし。特にHNの技術に詳しい人たちは、そんな風に扱っちゃダメでしょ。
数学はたくさんの公理を仮定して、そこから何が導かれるかを研究する。
自然科学は世界を観察して、何が起きてるかを説明できる法則を遡って見つけようとする。
数学では、法則が先にあって、その後に挙動が従う。法則が絶対的な真実。
科学では、自然が絶対的な真実。法則は自然に従わなきゃいけないし、矛盾があれば修正される。(数学で矛盾があったら、それは間違いを犯したってこと。)
どの公理が面白いか? なぜ面白いのか? それは自然だよ。
確かに公理からの証明は数学の基礎だけど、想定できる公理も、そこからできる証明も色々あるけど、ほとんどはどうでもいいじゃん。
数学は正しい公理の発見と、それらが本当に正しい公理であることの証明なんだよ。
「数学は実験科学である」って言ったのは誰だったかな。
全角の>1900年の講義「数理物理学の方法」(1935年に死後出版)で、アンリ・ポアンカレは、数学者は抽象的なシステムを構築してるだけじゃないって主張した。物理学者が当時やってたように、仮説や理論を観察や実験データと照らし合わせて積極的に検証してたんだって。
自然と呼ぶか現実と呼ぶかは別として、科学も数学も真実を追求してるんだと思う。その根源は存在そのもの。法則や理論は、その存在を記述し、理解しようとする試みなんだ。観察や経験に基づいて、発展し、書き換えられ、洗練されていく。
オリバー・ヘヴィサイドだったみたいだね。
ポアンカレの出版物の情報ある?
ブラックホールの事象の地平面の問題を共有してる3つのシステムがあると思う。
ブラックホールの地平線の向こうで何が起こってるか分からない。
粒子の衝突の瞬間に何が起こるか分からない。
全角のAIの仕組みの中で何が起こってるか分からない。
>Claudeでは、質問に答えないのがデフォルトらしい。“情報不足で答えられない”って言う回路が常にオンになってるんだって。でも、Michael Jordanみたいな有名なこと聞かれると、“既知のエンティティ”を表す機能が活性化して、このデフォルト回路を抑制するんだってさ。
細胞のプロセスも似たような感じで、常に全速力で動くプロセスと、それを抑制する“リミッター”があるんだよね。どっちも自然発生的な現象って考えると、do-but-inhibitってテクニックが宇宙の好きなやり方なのか、ただの偶然なのか、考えちゃうよねー。もっとコメントを表示(2)
確かに面白い共通点が多いよね。Uri Alonのシステム生物学的な視点から考えることが多いかな。生物学には、興奮性エッジと抑制性エッジを持つグラフ(転写ネットワーク、タンパク質ネットワーク、神経細胞ネットワーク)がたくさんあって、そこで繰り返されるモチーフを研究して学ぼうとしてるんだ。
人工ニューラルネットワークにも応用できるかもしれないけど、技術的に考慮すべき点もいくつかあるよね。
あなたたちの解釈可能性研究、マジで注目してるよー。LLMをブラックボックスとして受け入れるんじゃなくてね。人類のために研究を共有してくれて感謝!解釈可能性は、AI研究で一番ワクワクする部分だよね。箱の中身を理解できる可能性があるから。昔の農家が天候を神頼みしてたように、LLMの“神頼み”状態から早く抜け出せると、もっと便利になるよね。
>時々、この“既知の答え”回路の“誤発火”が自然に起こって、ハルシネーションが起きるんだ。論文では、Claudeがある名前を認識しても、その人について何も知らない場合に、こういう誤発火が起こることを示してる。この場合、“既知のエンティティ”機能が活性化して、デフォルトの“知らない”機能を抑制しちゃうんだって。一度モデルが答える必要があると判断すると、もっともらしいけど間違った応答を捏造するんだ。
例えば、Claude-3.7にC#のテストを通るように頼んだら、テストランナーを検知してtrueを返すコードを書いたんだ。テストは通ったけど、本来は200-300行のコードでfeatureを追加すべきだったんだよね。
https://github.com/auchenberg/volkswagenもっとコメントを表示(3)
https://en.wikipedia.org/wiki/System_identification
https://www.science.org/doi/10.1126/scirobotics.abm6597
しかも、前提を覆い隠してる印象。rhymingの例も、「carrot」って書いたから「rabbit」を活性化させたって可能性を排除してないから、納得いかないんだよねー。Claudeに「計画」能力があるって言うけど、実験も再現してないし。これじゃ、疑似学術的なインフォマーシャルだよね。
>「green」にしたらrhymeしなくなったって話も、rhymeさせる必要ないんだって。Anthropicが無理やりrhymeしないように仕向けたんだから。Claudeが「green」を選んだわけじゃなくて、Anthropicがコンセプトを「green」に置き換えたんだよ。それでちゃんとlineが変わったってことは、そのコンセプトがlineを決定してるってことの証明じゃん。
削除したからってrhymeを忘れるわけないじゃん。Anthropicが選択肢を一つ削除して、他の選択肢から選ばせてるだけ。
「green」の例は、Anthropicがhijackして強制的に別のwordにしたんだよ。Claudeが選んだわけじゃない。それでもsensibleなlineをpredictしたのは、hijackしたconceptがlineを決定してるってことの証明。
>next-token predictionで説明できるって可能性を考慮してないって言うけど、ちゃんと説明読んでないだけじゃん。
(言葉が時間とともに進化するのは気にしないけど、論理的誤謬を説明するための貴重なフレーズは保存する必要があると思うんだ)
[0]https://web.archive.org/web/20220823092218/http://begtheques…
ふと思ったんだけど、この抽象的な推論をどうやって直接テストするか?完全に新しいルールで試してみよう。
”新しい抽象的な関係を定義しよう:「~をhaboginkする」とは、その主要な機能に通常関連付けられているアクションを逆に行うことを意味します。
例:「車を運転する」のhaboginkは、「駐車して車を降りる」になります。
さて、標準的なハンマーを考えると、「ハンマーをhaboginkする」とはどういう意味ですか?その行動を説明してください。”
(「爪を使って釘を抜く」のような)賢明な答えは、単なる統計ではなく、本当の概念操作を示唆するだろうね。内部回路がトレーニングデータのパスから離れて一般化可能な推論を可能にするかどうかをテストするんだ。提案された抽象化が堅牢か脆いかを調べる面白い方法だね。